おくみん公式ブログ

おくみん公式ブログ

ZooKage: Hadoop on Kubernetes on Docker Desktop

ZooKage Architecture

Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。

Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません……

続きを読む

株式会社ドワンゴを退職しました

f:id:okumin:20190415001128j:plain

平成三十一年四月十四日をもって株式会社ドワンゴを退職しました。
そのご報告と、ほぼプログラミング経験のない自分をエンジニアとして採用し、様々な経験を積ませていただいたドワンゴの皆様へ感謝をお伝えしたいと思います。

続きを読む

Google Cloud Dataflow でアクセスログを監視して Google Cloud Functions で Slack へアラートを送信するの巻

f:id:okumin:20170818025111p:plain

Google Cloud Dataflow で Google BigQuery へストリーミング ETL するの巻』で加工したアクセスログを集計し、一定の条件を満たすと Slack へアラートを飛ばすシステムを作りました。
Apache Beam(Scio) + Google Cloud Dataflow を用いてログの集計と監視を行い、問題のあるアクセスが見つかったら Google Cloud Functions で Slack へ通知するという構成です。
ストリーミング ETL の記事と同様にその仕組みを紹介します。

続きを読む

Google Cloud Dataflow で Google BigQuery へストリーミング ETL するの巻

f:id:okumin:20170818025111p:plain

okumin.com のアクセスログを Google BigQuery で分析するために、ETL パイプラインを構築しました。
Apache Beam(Scio) + Google Cloud Dataflow を用いてログの加工及び BigQuery へのストリーミングインサートを行うという構成です。
この記事ではその全体像と個々のコンポーネントの簡単な説明を行います。

続きを読む