Google 技術講演会: MapReduceに行ってきた
言語処理学会の本会議1日目の夜から行われた,Google 技術講演会に行ってきました.
Google 技術講演会: MapReduce ~大規模クラスタでの簡単なデータ処理 ~
大部屋に人がいっぱいで(300名程度?),興味の高さが伺えます.
というわけで,いつものメモです.MapReduce論文(プレゼン和訳)も合わせてどうぞ.
■はじめに
コーパスサイズのトレンド
統計的言語処理
webを使った研究の増加
言語処理の毎日
単語の頻度、EMアルゴリズム
パターンマッチ、ブートストラッピング
大規模処理
本題のロジックに没頭できない
■MapReduce
処理を簡単にした計算モデル
共通のインタフェースを通じてプログラミング
入力は任意のデータ
2つの関数:mapとreduce
key,valueは任意のバイト列
C++
並列分散処理
partioning functionが分散管理
map,shuffle,reduceの3プロセス
■MapReduceの実装
数千台のPC、2-4GBメモリ
耐障害性
プログラミングモデルが簡単
同じ処理を複数のマシンで実行
2000台のうち1800台がダウンしても終了
■Sawzall(そーざる)
データ分析用インタプリタ
MapReduceを隠蔽
Map 言語の中で組み込みアグリゲーターへ出力
アグリゲータ
並行性の隠蔽
インデックスされた複数のアグリゲータに対応
例
ドメイン毎でもっともPageRankの大きいページ
言語としての特徴
Googleの利用に最適化
組み込み型
string,fingerprint,time
多くのスクリプト言語より高速
perlの3倍
エラーが起きにくい
強い静的な型をもつスクリプト言語
ループの簡略化
■大規模処理のためのインフラ
protocol buffer
独自のシリアライザ
GFS
WorkQueue
BigTable
巨大なRDB
■GoogleのNLP
webを大規模コーパスを使う
mapreduceを使って簡単に実験
実験 カタカナ人名リスト
~さん、~ちゃん
結果:サンタ、サザエ、キューピ
■データの力
あまり知られていない知見
データが桁違いに増大すれば。。。
Google的な解決
単に手法を大規模データに適用するだけではない
例:5-gram言語モデルによる機械翻訳
■将来に向けて
スケーラビリティの向上
適合率の向上
革新的なサービス
Q&A
reduceのリストの最大長さは?
タスクに依存
クローラなどとmapreduceの関係は?
ロカリティを重視
ファイルとメモリはできるだけ同じに
ラック単位で最適化
protocol buffer
良く分からない
masterサーバがあるイメージ
分散grepなどの関数は社内のオープンソース的に開発されているのか?
入社するとまず使い方を教わることになる
リポジトリで管理されている
どういう力学が作用しているのか?
flexible
クローリングされたファイルはどう保存されるのか?
普通にファイル
■2006/03/15のチェック
・×ビジョンの意識
・×ビジョンにそった行動
・○回りの人を思いやっているか
・×はてブに3以上ブクマ
・○blogを書く
・○専門分野の知識を得る
・◯専門外の知識を得る
・×仕事とは別に何かを作り続ける
・○ピアノの練習
・○脱・受身的ネットサーフィン宣言の遵守
関連エントリー
トラックバック
このエントリーのトラックバックURL:

