Hadoop Application Architectures
- 作者: Mark Grover,Ted Malaska,Jonathan Seidman,Gwen Shapira
- 出版社/メーカー: Oreilly & Associates Inc
- 発売日: 2015/07/20
- メディア: ペーパーバック
- この商品を含むブログを見る
Hadoopに関連する本ってそんなに販売されていません。
思い浮かぶのは、有名な像本とか、NTTの方が書いたHadoopの入門だったり
あとはMapreduceの本だったり。
そもそもHadoop自体の本の流行りが廃れて来たってのもあるでしょう。
で業務でHadoopを使ってるので、もっとHadoopの本を読みたいなと思い
上長にお願いしたら買ってくれました。この本。
先に感想を書いてしまうんですが、あんまり面白くない。(申し訳ないけどね)
全体的に総括的なお話のせいか、あーうんそうねーと読み飛ばすところが多かった。
日本円にすると6000円近くするのに申し訳ないなあと思いました。
ざっくり感想とポイントごとのまとめ
- データモデル
- Hadoopがどういうもので、どんなデータでも入れられて、HDFSがどんなものかっていう話
- データムーブメント
- どうやってHadoopにデータを入れ込むかって話
- FlumeとかSqoopとか使って入れ込みましょう。
- プロセッシング
- HadoopのMapreduece機能使って処理します。
- 他にはSpark使ってもいいね
- 他にもPig, Impala, Hiveとかいい感じのプロダクトあるよ。
- 共通Hadoopプロセッシングパターン
- ここはあんまり印象に残らなかった。
- データベース的な使い方の時、同じ主キーIDは書き換わるよとか、そんなものだった気がする。
- グラフ処理をHadoopでやる
- グラフ処理なら、SparkのGraphXかGiraphを使うといいよ。
- Giraphはまだ安定してないから、GraphXが良さげ。
- オーケストレーション
- Oozie使うといいよ。
- (Jenkinsじゃダメなのかなと疑問あり)
- Near-Real Time処理
- Apache Stormがいいよ。
- あとはSpark streamingも使うといいよ。
- ケーススタディー
- クリックストリーム分析
- Hadoopにログデータを入れ込んで、あとはImapalaやら何やらでデータ分析していきましょう、な使い方。
- オーソドックスな使い方の紹介。
- 不正検出システム
- Hadoop環境を2つ用意します。
- 1つ目のクラスターにシステムログをどんどん入れ込んでいきます。
- クラスター1のHadoopからデータ分析をして、機械学習した分析結果をクラスター2へ入れ込みます。
- そこでリアルタイムにログが流れているところへ、クラスター2の分析結果を当てはめて不正検出をします。
- データウエアハウス
- Hadoopにとにかくログを入れ込みます。
- データベースのテーブルとかも分析ごとにテーブル作ってデータを入れ込んでいく、みたいです。
- (↑awsのs3は直接クエリが実行できるAthenaがあったりするんで、もうHadoop基盤を作る重要性も低くなってる気がします。)
もうね、ほぼ内容見てもウンウンって感じだったので、読み飛ばしてしまいました。
読者の対象は、「ビッグデータ使ったことないけど、どんな感じのアーキテクチャになるか知りたい。」「これから0からビッグデータの基盤作る」って人かなという感じがします。
ざっくり感想を書いてみたんだけど、読む労力があるわりには得るものが少なかった。
上長.....申し訳ねえっす。。。
なんかネガティブな内容の感想しか書いてないのも、あれだね(失笑)
もっといい本があったら紹介したいです。