Elevator Pitch
大量データの分散処理フレームワークとして人気のApache Spark、 Scala製でありがながらも、PySparkのおかげでPythonエンジニアでも その強大なパワーにリーチ可能です。 しかし、例えばJavaの資産を使う場合等、どうしてもScala (or Java)の 力に頼らざるを得ない等、上司と揉めながらもPythonistaとして苦渋の決断を下す局面もきっとあるかと思います。私はつい最近経験しました。 本セッションでは、このようなApache Sparkによる分散処理基盤構築で遭遇した 修羅場をいかにして切り抜け、Pythonistaと平和的解決に至るまでを話したいと思います。
Description
以下のような構成を予定しております。
- Apache Sparkについて簡単におさらい (1分)
- 「Javaなんだから、Py4Jでなんとかならんの」「、、厳しいです。」 (1.5分)
- 平和的解決案:マイクロサービス化 (1.5分)
- まとめ (1分)
Notes
PyConJP2018きっかけで入社した現在の会社で4月より ビッグなデータ分散処理基盤構築を担当しております。 本セッションで扱う技術セットは、 Apache Spark, Amazon EMR, AWS Lambda, Python, Scala, Java