debiancdn

AWS, Content Delivery Network and Debian

hadoop conference 2009の後半

[Elastic MapReduceの話] 大倉努さん ->後半になった.

  • Elastic MapReduceは入出力はS3になる.
  • http://s3sync.net/wiki のRubyのシンクツールが便利.
  • データは複数のfileにわけないと,EC2はジョブをわけてくれない.
  • AWS management consoleで実行,確認ができる.->一般人
  • JSONで指定する elastic-mapreduceがおすすめ.-> プログラマならこっちだろう
  • elastic mapreduceにはamazonのほうでHDFSを用意してくれるので,中間出力はS3ではなく,こっちを使うべき.
  • blogeye.jpでは800GBあったが80台 70時間でokだった.
  • 小規模なJobだとMasterはamazonが用意してくれるから安い.
  • わるいところもいろいろ.独自のディスクイメージが使いたかったらEC2で自分で構築する.1時間1台0.1ドル=100台1時間1000円.しかし,1分使っても1時間分のお金がとられる.ログがみにくい.

[Hadoop World 2009報告] mikio@yanashita.com

yahoo: 82PB, 25000nodesの話,FacebookはHiveの話.ChinaTelecomのCDRデータがでかい話(BC-PDM)など.

[NTTデータにおけるHadoopへの取り組み]

Prossione(R)とLinaccident(R)のところ.

kemari(今はXen, KVM版開発中)をつかったMaster serverの冗長化.

[Hadoop/HBase 開発:Liberty インデクサプロジェクトの例] 松岡,小宮山

元はメールやグループウェアを連携させるためのDBがほしくてはじめた.最初はBDBでやった.
行IDは気をつけて選べ.

[Setting up your Hadoop cluster]

わりと知られてる情報のまとめ.というかんじだった.debian的なversionつけなのがイイ.

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google フォト

Google アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中