Google 技術講演会: MapReduceに行ってきた - plusadd blog
« 今日はチェックだけ | メイン | 傘 2.0 »

Google 技術講演会: MapReduceに行ってきた

2006年3月15日 Internet このエントリーを含むはてなブックマーク

言語処理学会の本会議1日目の夜から行われた,Google 技術講演会に行ってきました.

Google 技術講演会: MapReduce ~大規模クラスタでの簡単なデータ処理 ~

大部屋に人がいっぱいで(300名程度?),興味の高さが伺えます.

というわけで,いつものメモです.MapReduce論文(プレゼン和訳)も合わせてどうぞ.

■はじめに
コーパスサイズのトレンド
 統計的言語処理
 webを使った研究の増加
言語処理の毎日
 単語の頻度、EMアルゴリズム
 パターンマッチ、ブートストラッピング
 大規模処理
本題のロジックに没頭できない

■MapReduce
処理を簡単にした計算モデル
 共通のインタフェースを通じてプログラミング
 入力は任意のデータ
 2つの関数:mapとreduce
 key,valueは任意のバイト列
 C++
並列分散処理
 partioning functionが分散管理
 map,shuffle,reduceの3プロセス

■MapReduceの実装
 数千台のPC、2-4GBメモリ
 耐障害性
  プログラミングモデルが簡単
  同じ処理を複数のマシンで実行
  2000台のうち1800台がダウンしても終了

■Sawzall(そーざる)
データ分析用インタプリタ
 MapReduceを隠蔽
 Map 言語の中で組み込みアグリゲーターへ出力
アグリゲータ
 並行性の隠蔽
 インデックスされた複数のアグリゲータに対応

 ドメイン毎でもっともPageRankの大きいページ
言語としての特徴
 Googleの利用に最適化
  組み込み型
   string,fingerprint,time
  多くのスクリプト言語より高速
   perlの3倍
 エラーが起きにくい
  強い静的な型をもつスクリプト言語
  ループの簡略化
  
■大規模処理のためのインフラ
 protocol buffer
  独自のシリアライザ
 GFS
 WorkQueue
 BigTable
  巨大なRDB

■GoogleのNLP
webを大規模コーパスを使う
mapreduceを使って簡単に実験
実験 カタカナ人名リスト
 ~さん、~ちゃん
 結果:サンタ、サザエ、キューピ

■データの力
あまり知られていない知見
 データが桁違いに増大すれば。。。
Google的な解決
 単に手法を大規模データに適用するだけではない
 例:5-gram言語モデルによる機械翻訳

■将来に向けて
スケーラビリティの向上
適合率の向上
革新的なサービス

Q&A
reduceのリストの最大長さは?
 タスクに依存
クローラなどとmapreduceの関係は?
 ロカリティを重視
  ファイルとメモリはできるだけ同じに
  ラック単位で最適化
protocol buffer
 良く分からない
 masterサーバがあるイメージ
分散grepなどの関数は社内のオープンソース的に開発されているのか?
 入社するとまず使い方を教わることになる
 リポジトリで管理されている
どういう力学が作用しているのか?
 flexible
クローリングされたファイルはどう保存されるのか?
 普通にファイル

■2006/03/15のチェック
・×ビジョンの意識
・×ビジョンにそった行動
・○回りの人を思いやっているか
・×はてブに3以上ブクマ
・○blogを書く
・○専門分野の知識を得る
・◯専門外の知識を得る
・×仕事とは別に何かを作り続ける
・○ピアノの練習
・○脱・受身的ネットサーフィン宣言の遵守

関連エントリー

トラックバック

このエントリーのトラックバックURL:

コメント

Hi
it s a test

投稿者 glorioult : 2009年9月21日 07:38

コメントしてみませんか?




保存しますか?


このブログについて
plusaddが運営するブログです。
サイト内検索
www.flickr.com
This is a Flickr badge showing public photos from chopin. Make your own badge here.