昨日 2019/03/14木曜にきゅりあんにて
Hadoop / Spark Conference Japan 2019 が開催されていたので行ってきました。
hadoop.apache.jp
www.eventbrite.com
3年ぶりの開催だそうです。
Hadoopカンファレンスは久しぶりだったので楽しみにしてしまいました。
その時の感想をつらつらと書いてみます。
いろいろ感想
オンプレ使ってる人多い
午前のkeynoteで参加者アンケートの紹介がありました。
正確な数値を忘れてしまったのですが、オンプレで運用してる人が だいたい 190/310 で、2/3 の人がオンプレで運用しているようです。
いやーこれは意外でした。もうクラウドでいろいろやるのが主流なのかなーと思ってたので。
きちんと計算したことないんですが、クラウドはまだまだオンプレよりなにかとお金がかかりそうな感じがします。
Spark使ってる人多いね、Kafkaの注目度高いね
Spark関連
自分も使ってみたいなーと思ってるんですが、なかなか機会がなくて用途を探してます。
機械学習やAIが最近のトレンドですが、そのためによく使われるSparkがもうだいたいの人が使ってる感じですね。
そのせいか、C会場はSparkネタが多かったです。
自分が見れた講演でLINE社の「Spark SQL の性能改善の取り組み」は、クエリの実行計画から調査していってレスポンス改善していったところがなかなか面白かったです。
ImpalaでもCOMPUTE STATS コマンドで統計情報を取得してクエリのメモリ最適化をするとちょうど知ったところだったので、あーSpark SQLでもやるんだと学びました。
Spark SQLでもクエリの実行計画を見て改善してるんだから、自分とこのHiveでもImpalaでもやってみたいなと思いました。
またLINE社では 500台で30PBで運用してるとか。
管理はどうしてるのかなと聞いてみたらambaliで管理してるとか。
なるほど。
あとLIN社内製分析ツールであるOASIS が年内にOSS化されるらしいです。
Kafka関連
Kafka関連で唯一の公演だったのがこれ
「Apache Kafkaって本当に大丈夫?~実際にいじめてみたのでお伝えします~」です。
会場に入ると、席が満杯で注目度の高さがうかがえます。
講演者の質問でKafka使ったことある人ーとか挙手してましたが
だいたい半分くらいな感じでした(講演者は2/3と言ってたけど、主観です)。
そうなんですよね、「Kafkaには興味がある、けどもどういった用途で使うと有効なんだ???」って思いをしてる人が多いんじゃないでしょうか。
Linkedinが開発を始めてて、なんだかあちこちでその名前が聞かれるなあ、でも何に使ったらいいんだよーと自分も思ってます。たぶん多数の方も同じ思いなのではないでしょうか。
講演ではユースケースはあまりわかりませんでしたが、障害ケースでの振る舞いが話されていました。
当たり前だけど、本とか読んで自分で勉強してみないと実際の用途に使うなんて想像できないっす。
あとApache Kafkaの小冊子が配られててラッキーでした。
後で読んでみたいです。
昨日のHadoop Conference でもらったApache Kafka の小冊子読んでみる。 pic.twitter.com/Flqc3DSo5E
— suganoo@Go言語好きインフラの人 (@suganoo) 2019年3月15日
Kafkaのイベントあるらしいよ
#hcj2019 でこんなにKafkaが人気ってことは、ここで来月開催するKafka meetupの宣伝すれは皆さん来てくださるのかな…………🤔
— Takuma Tachibana (もじゃ) (@moja_0316) 2019年3月14日
先着は埋まってますがキャンセル出るかもなので是非参加登録お願いします!
Apache Kafka Meetup Japan #6 @Yahoo! JAPAN https://t.co/9adf5BnPO6 #kafkajp
HDFSのスケーラビリティの限界を突破
「HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み 〜エクサバイト級の分散ストレージを目指して〜 浅沼 孝信(ヤフー株式会社)」
昨日のHadoop / Spark Conference Japan 2019の資料を公開しました。
— あさぬー (@hayanige) 2019年3月15日
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み #hcj2019 https://t.co/souf1J3ChU
昼休み後にこの講演を見てみたんですが、これは個人的に一番面白かった内容でした。
やっぱ自分もHadoop運用してるからか、データ量がどんどんスケールしていってエクサバイト級になったら、あーそうだよねこういう障害でてくるよねって話が出て来て面白かったです。
- router-based federation
- クラスタ分割してマルチクラスターにしたいけど、使うときには1つのクラスターとして使いたい。ざっくりイメージとして別々のHDをマウントしてるけどシンボリックリンクで一つのマウントディスクとしてアクセスできる、って感じ。
- これは便利そう。部署とかでクラスター分けたいし。
- Observer Namenode
- アクセスが増えてくるとマスターNamenodeにアクセスが集中して負荷が高くなってしまう。
- Secondary Namenodeに対してReadだけ可能にして分散させる。
- Stale read 問題
- NamenodeにアクセスしてファイルのあるDatanodeにファイルを取りに行ったけど、時間差でそのファイルが存在してなかったとか起きる、らしい。
- ファイルごとにstate id を付加させて、このファイル有効だよ・無効だよって判断できるidを持たせることでNamenodeのレスポンスの時点でちゃんとファイルがあることを返す。
- Erasure Coding
- レプリケーションして保存してるとデータ量増えるとレプリカ用のデータめちゃくちゃ多くなるよねって問題。
- データブロックからパリティブロックを作ることで復旧のためのデータ量を抑える仕組み
- techblog.yahoo.co.jp
↑これらは Hadoop-3.3.0 で入るそうです。
いやーこれは楽しみだな。
あと Ozoneの話
メタデータがめちゃくちゃ増えるとメタデータDBとして管理できなくなるよね。それを解決しましたってプロダクト。
懇親会で聞きましたがOzone開発者のArpitさん、Cloudera の方だそうです。
LTやってきました
また私事なのですが、LTやってきました。ででん!
1月にHadoopカンファレンスの告知ページを上司が見つけて来ていただきまして、slackに貼ってました。
上司「LTとかやってみたらー」→俺「やるー!」って感じで申し込んでみました。
もう自分も40手前なのでここらで何かしら人前で発表する経験を得ておきたいなと思っていたところです。
これまで下っ端の経験ばかりで登壇できる人、登壇できるような経験がある人はうらやましいなーと思ってましたが、アピールすることに挑戦できるってうれしいですね。
20代のころのブラック仕事が思い返されます。。。
あと講演者にTシャツもらえるんですが、めちゃうれしかった。
Tシャツめっちゃうれしいいよぉぉぉぉーーー‼️#hcj2019 pic.twitter.com/QPkMxKaweO
— suganoo@Go言語好きインフラの人 (@suganoo) 2019年3月14日
バッテリー充電場所が(ほとんど)ない
ちょっとこれは困りました。。。
備え付けのコンセントでちょっぴり充電できましたが、会場にもあるとよかったなあと。
バッテリー難民#hcj2019 pic.twitter.com/mzqQx2oe65
— suganoo@Go言語好きインフラの人 (@suganoo) 2019年3月14日
うまい弁当がタダ
お弁当が美味しかったのに、タダとか。。。マジでありがたい。。
余ってたみたいだからいくつか持って帰りたかったなあ。
家族にほんとに飯を食わすことができます。
Twtter #hjc2019
今回のカンファレンスの資料は様々な方がTwtterでアップしています。
#hjc2019 で探してみると見逃した資料が探せるかもしれませんよ。
↓↓↓
twitter.com
最後に
運営者の皆様方ほんとうにお疲れ様でした。
非常に学びになってやる気になる時間を過ごさせていただきました。
今日のHadoop Spark conference は楽しかったし勉強になったなあ。
— suganoo@Go言語好きインフラの人 (@suganoo) 2019年3月14日
ほんとにSpark とKafka 使ってみたくなった。
(3/19追記)講演スライド公開されました
講演のスライドが公開されたそうです。
hadoop.apache.jp