「Hadoop Application Architectures」を読んでみた。

 

Hadoop Application Architectures

Hadoop Application Architectures

  • 作者: Mark Grover,Ted Malaska,Jonathan Seidman,Gwen Shapira
  • 出版社/メーカー: Oreilly & Associates Inc
  • 発売日: 2015/07/20
  • メディア: ペーパーバック
  • この商品を含むブログを見る
 

 Hadoopに関連する本ってそんなに販売されていません。

思い浮かぶのは、有名な像本とか、NTTの方が書いたHadoopの入門だったり

あとはMapreduceの本だったり。

そもそもHadoop自体の本の流行りが廃れて来たってのもあるでしょう。

で業務でHadoopを使ってるので、もっとHadoopの本を読みたいなと思い

上長にお願いしたら買ってくれました。この本。

 

先に感想を書いてしまうんですが、あんまり面白くない。(申し訳ないけどね)

全体的に総括的なお話のせいか、あーうんそうねーと読み飛ばすところが多かった。

日本円にすると6000円近くするのに申し訳ないなあと思いました。

 

ざっくり感想とポイントごとのまとめ

  • データモデル
  • Hadoopがどういうもので、どんなデータでも入れられて、HDFSがどんなものかっていう話
  • データムーブメント
  • どうやってHadoopにデータを入れ込むかって話
  • FlumeとかSqoopとか使って入れ込みましょう。
  • プロセッシング
  • HadoopのMapreduece機能使って処理します。
  • 他にはSpark使ってもいいね
  • 他にもPig, Impala, Hiveとかいい感じのプロダクトあるよ。
  • 共通Hadoopプロセッシングパターン
  • ここはあんまり印象に残らなかった。
  • データベース的な使い方の時、同じ主キーIDは書き換わるよとか、そんなものだった気がする。
  • グラフ処理をHadoopでやる
  • グラフ処理なら、SparkのGraphXかGiraphを使うといいよ。
  • Giraphはまだ安定してないから、GraphXが良さげ。
  • オーケストレーション
  • Oozie使うといいよ。
  • (Jenkinsじゃダメなのかなと疑問あり)
  • Near-Real Time処理
  • Apache Stormがいいよ。
  • あとはSpark streamingも使うといいよ。
  • ケーススタディ
  • クリックストリーム分析
  • Hadoopにログデータを入れ込んで、あとはImapalaやら何やらでデータ分析していきましょう、な使い方。
  • オーソドックスな使い方の紹介。
  • 不正検出システム
  • Hadoop環境を2つ用意します。
  • 1つ目のクラスターにシステムログをどんどん入れ込んでいきます。
  • クラスター1のHadoopからデータ分析をして、機械学習した分析結果をクラスター2へ入れ込みます。
  • そこでリアルタイムにログが流れているところへ、クラスター2の分析結果を当てはめて不正検出をします。
  • データウエアハウス
  • Hadoopにとにかくログを入れ込みます。
  • データベースのテーブルとかも分析ごとにテーブル作ってデータを入れ込んでいく、みたいです。
  • (↑awsのs3は直接クエリが実行できるAthenaがあったりするんで、もうHadoop基盤を作る重要性も低くなってる気がします。)

もうね、ほぼ内容見てもウンウンって感じだったので、読み飛ばしてしまいました。

読者の対象は、「ビッグデータ使ったことないけど、どんな感じのアーキテクチャになるか知りたい。」「これから0からビッグデータの基盤作る」って人かなという感じがします。

ざっくり感想を書いてみたんだけど、読む労力があるわりには得るものが少なかった。

上長.....申し訳ねえっす。。。 

 

 

なんかネガティブな内容の感想しか書いてないのも、あれだね(失笑)

 

もっといい本があったら紹介したいです。