Hadoop / Spark Conference Japan 2019 に行ってきました(ついでにLTやってきた)

f:id:suganoo:20190315130109j:plain

昨日 2019/03/14木曜にきゅりあんにて
Hadoop / Spark Conference Japan 2019 が開催されていたので行ってきました。

hadoop.apache.jp
www.eventbrite.com

3年ぶりの開催だそうです。
Hadoopカンファレンスは久しぶりだったので楽しみにしてしまいました。

その時の感想をつらつらと書いてみます。

いろいろ感想

オンプレ使ってる人多い

午前のkeynoteで参加者アンケートの紹介がありました。

正確な数値を忘れてしまったのですが、オンプレで運用してる人が だいたい 190/310 で、2/3 の人がオンプレで運用しているようです。

いやーこれは意外でした。もうクラウドでいろいろやるのが主流なのかなーと思ってたので。
きちんと計算したことないんですが、クラウドはまだまだオンプレよりなにかとお金がかかりそうな感じがします。

Spark使ってる人多いね、Kafkaの注目度高いね

Spark関連

自分も使ってみたいなーと思ってるんですが、なかなか機会がなくて用途を探してます。
機械学習やAIが最近のトレンドですが、そのためによく使われるSparkがもうだいたいの人が使ってる感じですね。
そのせいか、C会場はSparkネタが多かったです。

自分が見れた講演でLINE社の「Spark SQL の性能改善の取り組み」は、クエリの実行計画から調査していってレスポンス改善していったところがなかなか面白かったです。

ImpalaでもCOMPUTE STATS コマンドで統計情報を取得してクエリのメモリ最適化をするとちょうど知ったところだったので、あーSpark SQLでもやるんだと学びました。
Spark SQLでもクエリの実行計画を見て改善してるんだから、自分とこのHiveでもImpalaでもやってみたいなと思いました。

またLINE社では 500台で30PBで運用してるとか。
管理はどうしてるのかなと聞いてみたらambaliで管理してるとか。
なるほど。

あとLIN社内製分析ツールであるOASIS が年内にOSS化されるらしいです。

Kafka関連

Kafka関連で唯一の公演だったのがこれ
「Apache Kafkaって本当に大丈夫?~実際にいじめてみたのでお伝えします~」です。

会場に入ると、席が満杯で注目度の高さがうかがえます。

講演者の質問でKafka使ったことある人ーとか挙手してましたが
だいたい半分くらいな感じでした(講演者は2/3と言ってたけど、主観です)。

そうなんですよね、「Kafkaには興味がある、けどもどういった用途で使うと有効なんだ???」って思いをしてる人が多いんじゃないでしょうか。
Linkedinが開発を始めてて、なんだかあちこちでその名前が聞かれるなあ、でも何に使ったらいいんだよーと自分も思ってます。たぶん多数の方も同じ思いなのではないでしょうか。

講演ではユースケースはあまりわかりませんでしたが、障害ケースでの振る舞いが話されていました。
当たり前だけど、本とか読んで自分で勉強してみないと実際の用途に使うなんて想像できないっす。

あとApache Kafkaの小冊子が配られててラッキーでした。
後で読んでみたいです。

Kafkaのイベントあるらしいよ


HDFSのスケーラビリティの限界を突破

「HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み 〜エクサバイト級の分散ストレージを目指して〜 浅沼 孝信(ヤフー株式会社)」

昼休み後にこの講演を見てみたんですが、これは個人的に一番面白かった内容でした。
やっぱ自分もHadoop運用してるからか、データ量がどんどんスケールしていってエクサバイト級になったら、あーそうだよねこういう障害でてくるよねって話が出て来て面白かったです。

  • router-based federation
    • クラスタ分割してマルチクラスターにしたいけど、使うときには1つのクラスターとして使いたい。ざっくりイメージとして別々のHDをマウントしてるけどシンボリックリンクで一つのマウントディスクとしてアクセスできる、って感じ。
    • これは便利そう。部署とかでクラスター分けたいし。
  • Observer Namenode
    • アクセスが増えてくるとマスターNamenodeにアクセスが集中して負荷が高くなってしまう。
    • Secondary Namenodeに対してReadだけ可能にして分散させる。
  • Stale read 問題
    • NamenodeにアクセスしてファイルのあるDatanodeにファイルを取りに行ったけど、時間差でそのファイルが存在してなかったとか起きる、らしい。
    • ファイルごとにstate id を付加させて、このファイル有効だよ・無効だよって判断できるidを持たせることでNamenodeのレスポンスの時点でちゃんとファイルがあることを返す。
  • Erasure Coding
    • レプリケーションして保存してるとデータ量増えるとレプリカ用のデータめちゃくちゃ多くなるよねって問題。
    • データブロックからパリティブロックを作ることで復旧のためのデータ量を抑える仕組み
    • techblog.yahoo.co.jp

↑これらは Hadoop-3.3.0 で入るそうです。
いやーこれは楽しみだな。

あと Ozoneの話
メタデータがめちゃくちゃ増えるとメタデータDBとして管理できなくなるよね。それを解決しましたってプロダクト。

懇親会で聞きましたがOzone開発者のArpitさん、Cloudera の方だそうです。

LTやってきました

また私事なのですが、LTやってきました。ででん!

www.slideshare.net

1月にHadoopカンファレンスの告知ページを上司が見つけて来ていただきまして、slackに貼ってました。

上司「LTとかやってみたらー」→俺「やるー!」って感じで申し込んでみました。

もう自分も40手前なのでここらで何かしら人前で発表する経験を得ておきたいなと思っていたところです。

これまで下っ端の経験ばかりで登壇できる人、登壇できるような経験がある人はうらやましいなーと思ってましたが、アピールすることに挑戦できるってうれしいですね。
20代のころのブラック仕事が思い返されます。。。

あと講演者にTシャツもらえるんですが、めちゃうれしかった。


バッテリー充電場所が(ほとんど)ない

ちょっとこれは困りました。。。
備え付けのコンセントでちょっぴり充電できましたが、会場にもあるとよかったなあと。


うまい弁当がタダ

お弁当が美味しかったのに、タダとか。。。マジでありがたい。。

余ってたみたいだからいくつか持って帰りたかったなあ。
家族にほんとに飯を食わすことができます。

Twtter #hjc2019

今回のカンファレンスの資料は様々な方がTwtterでアップしています。
#hjc2019 で探してみると見逃した資料が探せるかもしれませんよ。
↓↓↓
twitter.com

最後に

運営者の皆様方ほんとうにお疲れ様でした。
非常に学びになってやる気になる時間を過ごさせていただきました。


(3/19追記)講演スライド公開されました

講演のスライドが公開されたそうです。
hadoop.apache.jp