Hadoop / Spark Conference Japan 2019 に行ってきました(ついでにLTやってきた)

f:id:suganoo:20190315130109j:plain

昨日 2019/03/14木曜にきゅりあんにて
Hadoop / Spark Conference Japan 2019 が開催されていたので行ってきました。

hadoop.apache.jp
www.eventbrite.com

3年ぶりの開催だそうです。
Hadoopカンファレンスは久しぶりだったので楽しみにしてしまいました。

その時の感想をつらつらと書いてみます。

いろいろ感想

オンプレ使ってる人多い

午前のkeynoteで参加者アンケートの紹介がありました。

正確な数値を忘れてしまったのですが、オンプレで運用してる人がだいたい 190/310 で、2/3 の人がオンプレで運用しているようです。

いやーこれは意外でした。もうクラウドでいろいろやるのが主流なのかなーと思ってたので。
きちんと計算したことないんですが、クラウドはまだまだオンプレよりなにかとお金がかかりそうな感じがします。

Spark使ってる人多いね、Kafkaの注目度高いね

Spark関連

自分も使ってみたいなーと思ってるんですが、なかなか機会がなくて用途を探してます。
機械学習やAIが最近のトレンドですが、そのためによく使われるSparkがもうだいたいの人が使ってる感じですね。
そのせいか、C会場はSparkネタが多かったです。

自分が見れた講演でLINE社の「Spark SQL の性能改善の取り組み」は、クエリの実行計画から調査していってレスポンス改善していったところがなかなか面白かったです。

ImpalaでもCOMPUTE STATS コマンドで統計情報を取得してクエリのメモリ最適化をするとちょうど知ったところだったので、あーSpark SQLでもやるんだと学びました。
Spark SQLでもクエリの実行計画を見て改善してるんだから、自分とこのHiveでもImpalaでもやってみたいなと思いました。

またLINE社では 500台で30PBで運用してるとか。
管理はどうしてるのかなと聞いてみたらambaliで管理してるとか。
なるほど。

あとLIN社内製分析ツールであるOASIS が年内にOSS化されるらしいです。

Kafka関連

Kafka関連で唯一の公演だったのがこれ
「Apache Kafkaって本当に大丈夫？～実際にいじめてみたのでお伝えします～」です。

会場に入ると、席が満杯で注目度の高さがうかがえます。

講演者の質問でKafka使ったことある人ーとか挙手してましたが
だいたい半分くらいな感じでした(講演者は2/3と言ってたけど、主観です)。

そうなんですよね、「Kafkaには興味がある、けどもどういった用途で使うと有効なんだ？？？」って思いをしてる人が多いんじゃないでしょうか。
Linkedinが開発を始めてて、なんだかあちこちでその名前が聞かれるなあ、でも何に使ったらいいんだよーと自分も思ってます。たぶん多数の方も同じ思いなのではないでしょうか。

講演ではユースケースはあまりわかりませんでしたが、障害ケースでの振る舞いが話されていました。
当たり前だけど、本とか読んで自分で勉強してみないと実際の用途に使うなんて想像できないっす。

あとApache Kafkaの小冊子が配られててラッキーでした。
後で読んでみたいです。

昨日のHadoop Conference でもらったApache Kafka の小冊子読んでみる。 pic.twitter.com/Flqc3DSo5E
— suganoo@Go言語好きインフラの人 (@suganoo) 2019年3月15日

Kafkaのイベントあるらしいよ

#hcj2019 でこんなにKafkaが人気ってことは、ここで来月開催するKafka meetupの宣伝すれは皆さん来てくださるのかな…………🤔

先着は埋まってますがキャンセル出るかもなので是非参加登録お願いします！
Apache Kafka Meetup Japan #6 @Yahoo! JAPAN https://t.co/9adf5BnPO6 #kafkajp
— Takuma Tachibana (もじゃ) (@moja_0316) 2019年3月14日

HDFSのスケーラビリティの限界を突破

「HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み〜エクサバイト級の分散ストレージを目指して〜浅沼孝信（ヤフー株式会社）」

昨日のHadoop / Spark Conference Japan 2019の資料を公開しました。

HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み #hcj2019 https://t.co/souf1J3ChU
— あさぬー (@hayanige) 2019年3月15日

昼休み後にこの講演を見てみたんですが、これは個人的に一番面白かった内容でした。
やっぱ自分もHadoop運用してるからか、データ量がどんどんスケールしていってエクサバイト級になったら、あーそうだよねこういう障害でてくるよねって話が出て来て面白かったです。

router-based federation
- クラスタ分割してマルチクラスターにしたいけど、使うときには1つのクラスターとして使いたい。ざっくりイメージとして別々のHDをマウントしてるけどシンボリックリンクで一つのマウントディスクとしてアクセスできる、って感じ。
- これは便利そう。部署とかでクラスター分けたいし。
Observer Namenode
- アクセスが増えてくるとマスターNamenodeにアクセスが集中して負荷が高くなってしまう。
- Secondary Namenodeに対してReadだけ可能にして分散させる。
Stale read 問題
- NamenodeにアクセスしてファイルのあるDatanodeにファイルを取りに行ったけど、時間差でそのファイルが存在してなかったとか起きる、らしい。
- ファイルごとにstate id を付加させて、このファイル有効だよ・無効だよって判断できるidを持たせることでNamenodeのレスポンスの時点でちゃんとファイルがあることを返す。
Erasure Coding
- レプリケーションして保存してるとデータ量増えるとレプリカ用のデータめちゃくちゃ多くなるよねって問題。
- データブロックからパリティブロックを作ることで復旧のためのデータ量を抑える仕組み
- techblog.yahoo.co.jp