ZooKage 0.2.2をリリースしました。本バージョンを用いることで最新のHiveを手軽に試すことができます。
続きを読むHive Distributed Profiling Systemを簡単に実装する方法
TreasureData Tech Talk 2022で発表した内容の補足です。Hive Distributed Profiling Systemの実装方法について、プレゼンテーション中に説明しきれなかった部分を解説します。なお本記事は「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022」19日目の記事として執筆しました。
続きを読むTreasureData Tech Talk 2022で発表してきました #tdtechtalk
先日行われたTreasure Dataのイベントにて登壇させていただきました。タイトルは『Hive Distributed Profiling System in Treasure Data』。
ZooKage: Hadoop on Kubernetes on Docker Desktop
Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。
「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません……
続きを読む株式会社ドワンゴを退職しました
平成三十一年四月十四日をもって株式会社ドワンゴを退職しました。
そのご報告と、ほぼプログラミング経験のない自分をエンジニアとして採用し、様々な経験を積ませていただいたドワンゴの皆様へ感謝をお伝えしたいと思います。
Google Cloud Dataflow でアクセスログを監視して Google Cloud Functions で Slack へアラートを送信するの巻
『Google Cloud Dataflow で Google BigQuery へストリーミング ETL するの巻』で加工したアクセスログを集計し、一定の条件を満たすと Slack へアラートを飛ばすシステムを作りました。
Apache Beam(Scio) + Google Cloud Dataflow を用いてログの集計と監視を行い、問題のあるアクセスが見つかったら Google Cloud Functions で Slack へ通知するという構成です。
ストリーミング ETL の記事と同様にその仕組みを紹介します。