debiancdn

AWS, Content Delivery Network and Debian

日別アーカイブ: 2009/11/13

hadoop conference 2009の後半

[Elastic MapReduceの話] 大倉努さん ->後半になった.

  • Elastic MapReduceは入出力はS3になる.
  • http://s3sync.net/wiki のRubyのシンクツールが便利.
  • データは複数のfileにわけないと,EC2はジョブをわけてくれない.
  • AWS management consoleで実行,確認ができる.->一般人
  • JSONで指定する elastic-mapreduceがおすすめ.-> プログラマならこっちだろう
  • elastic mapreduceにはamazonのほうでHDFSを用意してくれるので,中間出力はS3ではなく,こっちを使うべき.
  • blogeye.jpでは800GBあったが80台 70時間でokだった.
  • 小規模なJobだとMasterはamazonが用意してくれるから安い.
  • わるいところもいろいろ.独自のディスクイメージが使いたかったらEC2で自分で構築する.1時間1台0.1ドル=100台1時間1000円.しかし,1分使っても1時間分のお金がとられる.ログがみにくい.

[Hadoop World 2009報告] mikio@yanashita.com

yahoo: 82PB, 25000nodesの話,FacebookはHiveの話.ChinaTelecomのCDRデータがでかい話(BC-PDM)など.

[NTTデータにおけるHadoopへの取り組み]

Prossione(R)とLinaccident(R)のところ.

kemari(今はXen, KVM版開発中)をつかったMaster serverの冗長化.

[Hadoop/HBase 開発:Liberty インデクサプロジェクトの例] 松岡,小宮山

元はメールやグループウェアを連携させるためのDBがほしくてはじめた.最初はBDBでやった.
行IDは気をつけて選べ.

[Setting up your Hadoop cluster]

わりと知られてる情報のまとめ.というかんじだった.debian的なversionつけなのがイイ.

hadoop conference 2009 の前半メモ

[Clounderaの人のビジネストーク]

VERTICAがSQLベンダとして最初にきた.

Clouderaはコミュから何を学んだか.->むずかしい,(説得,インストール,などなど)

Cloudera Distribution for Hadoop (CDH).
CDH1,CDH2と進化してきた.CDH2はHbase,Zookeeper, Hadoop0.20.1+152パッチ
75%の新ユーザが利用している.9月の時点ではダウンロード数はapacheの10倍以上.

OpenPDC(ストリームセンサDB)でもつかってる.

Cloudera Desktop = アプリ開発フレームワーク, 管理コンソール.
グラフ機能の実装はもうすぐ.コマンドラインtoolのおきかえではない.
Window managerはオソ.
desktop-api-subscribe@cloudera.com

[楽天の人のはなし] by @kkawamura, @nishiokamegane (技術研究所)

  • データ管理はROMA, データ処理はHadoop.
  • 行動TG 40GB/day, 1億レコード.
  • 購買data 2億件,10GBほどをつかってrecommendation.

Apache MAHOUTにあるHadoopで動く機械学習アルゴリズムを利用.参考になる.

POJO HadoopというJavaからHadoopを楽につくる簡易フレームワークをつくった.

fairy: Hadoop streamingでrubyつかったらおわりじゃないか,という話もあるが.. 実装中.

[Elastic MapReduceの話] 大倉努さん ->後半になった.

[Scala on Hadoop] はてな stanaka

一日20Gくらいのログ.300jobs/day
1時間毎にHDFS上(1時間毎dir名)にログをコピー.
出力は,はてなグラフ,フォトライフに使う.
11月からScalaで使うようになった.
SHadoop(on googlecode)を使えばok. HDFSの処理とかでPerlが毎度JVM起動してたのがなくなってだいぶはやくなった(調査してない)