debiancdn

AWS, Content Delivery Network and Debian

hadoop conference 2009 の前半メモ

[Clounderaの人のビジネストーク]

VERTICAがSQLベンダとして最初にきた.

Clouderaはコミュから何を学んだか.->むずかしい,(説得,インストール,などなど)

Cloudera Distribution for Hadoop (CDH).
CDH1,CDH2と進化してきた.CDH2はHbase,Zookeeper, Hadoop0.20.1+152パッチ
75%の新ユーザが利用している.9月の時点ではダウンロード数はapacheの10倍以上.

OpenPDC(ストリームセンサDB)でもつかってる.

Cloudera Desktop = アプリ開発フレームワーク, 管理コンソール.
グラフ機能の実装はもうすぐ.コマンドラインtoolのおきかえではない.
Window managerはオソ.
desktop-api-subscribe@cloudera.com

[楽天の人のはなし] by @kkawamura, @nishiokamegane (技術研究所)

  • データ管理はROMA, データ処理はHadoop.
  • 行動TG 40GB/day, 1億レコード.
  • 購買data 2億件,10GBほどをつかってrecommendation.

Apache MAHOUTにあるHadoopで動く機械学習アルゴリズムを利用.参考になる.

POJO HadoopというJavaからHadoopを楽につくる簡易フレームワークをつくった.

fairy: Hadoop streamingでrubyつかったらおわりじゃないか,という話もあるが.. 実装中.

[Elastic MapReduceの話] 大倉努さん ->後半になった.

[Scala on Hadoop] はてな stanaka

一日20Gくらいのログ.300jobs/day
1時間毎にHDFS上(1時間毎dir名)にログをコピー.
出力は,はてなグラフ,フォトライフに使う.
11月からScalaで使うようになった.
SHadoop(on googlecode)を使えばok. HDFSの処理とかでPerlが毎度JVM起動してたのがなくなってだいぶはやくなった(調査してない)

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google フォト

Google アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中