おくみん公式ブログ

おくみん公式ブログ

Apache Hive 4: 新しく追加されたUDFの紹介

Tuple Sketch UDFs 先日ついにApache Hive 4.0.0がリリースされました。おおよそ6年ぶりのメジャーアップデートということもあり、5000コミット以上もの変更をともなう大型リリースとなっています。 この記事ではHive 4にて追加されるUDFを紹介します。

分散処理OSSへのコントリビューション in 2023

Contributions to Apache Hive 2023年に取り組んだ分散処理OSSに対する貢献のまとめです。今年はApache Hiveのコミュニティが活性化したのでHiveやTezに対する貢献が多めです。 この記事は『Distributed computing (Apache Spark, Hadoop, Kafka, ...)のカレ…

ZooKageでHive 4を試せるようにしました

ZooKage 0.2.2をリリースしました。本バージョンを用いることで最新のHiveを手軽に試すことができます。

Hive Distributed Profiling Systemを簡単に実装する方法

TreasureData Tech Talk 2022で発表した内容の補足です。Hive Distributed Profiling Systemの実装方法について、プレゼンテーション中に説明しきれなかった部分を解説します。なお本記事は「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Adve…

Hive on Tezのメトリクスを任意のデータ基盤に蓄積する方法

HistoryLoggingServiceのAPIを用いてHive on Tezのメトリクスをデータプラットフォームに保存するという、ややマニアックなテクニックを紹介します。本記事は「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022」14日目の記…

TreasureData Tech Talk 2022で発表してきました #tdtechtalk

先日行われたTreasure Dataのイベントにて登壇させていただきました。タイトルは『Hive Distributed Profiling System in Treasure Data』。

ZooKage: Hadoop on Kubernetes on Docker Desktop

Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。

株式会社ドワンゴを退職しました

平成三十一年四月十四日をもって株式会社ドワンゴを退職しました。 そのご報告と、ほぼプログラミング経験のない自分をエンジニアとして採用し、様々な経験を積ませていただいたドワンゴの皆様へ感謝をお伝えしたいと思います。

Google Cloud Dataflow でアクセスログを監視して Google Cloud Functions で Slack へアラートを送信するの巻

『Google Cloud Dataflow で Google BigQuery へストリーミング ETL するの巻』で加工したアクセスログを集計し、一定の条件を満たすと Slack へアラートを飛ばすシステムを作りました。 Apache Beam(Scio) + Google Cloud Dataflow を用いてログの集計と監…

Google Cloud Dataflow で Google BigQuery へストリーミング ETL するの巻

okumin.com のアクセスログを Google BigQuery で分析するために、ETL パイプラインを構築しました。 Apache Beam(Scio) + Google Cloud Dataflow を用いてログの加工及び BigQuery へのストリーミングインサートを行うという構成です。 この記事ではその全…

Influent 0.3.0 をリリースしました #fluentd

Java 版 Fluentd サーバ、Influent の新バージョンをリリースしました。

マストドンぼっちインスタンス on GCP のランニングコスト #mastodon

GCP

mstdn.okumin.com 5月分の請求額をまとめてみました。 マストドン弱小インスタンスのコスト感をお伝えします。

Influent ベンチマーク - Part 3 #fluentd

Java 製 Fluentd サーバ、Influent のベンチマーク第三弾です。 今回は Influent マルチスレッド化の成果と、Fluentd 0.14 で導入されたマルチプロセスワーカーの性能を計測しました。

Amazon Aurora のアーキテクチャまとめ

AWS

先日公開された『Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases』を読みました。 興味深かった部分や疑問に思った(あんまりわかってない)部分をまとめておきます。 AWS は詳しくないので、ところどころ間違…

今流行りの #mastodon on Google Container Engine

簡単に作れそうだったので、GKE を使って自分専用のマストドンインスタンスを立ててみました。 せっかくなのでその構成を紹介します。 https://mstdn.okumin.com/

Influent ベンチマーク - Part 2 #fluentd

Java 版 Fluentd サーバである、Influent のベンチマーク第二弾です。 MessagePack デシリアライズ処理を改善したので、その効果を測定します。

Failurewall 0.1.1 をリリースしました #scala

scala.concurrent.Future を安全便利に扱うためのライブラリ、Failurewall の新バージョンをリリースしました。 テストコードやビルド設定のリファクタリングを除くと、変更は以下の二点です。 * StopwatchFailurewall 追加 * Scala 2.12 対応

Influent ベンチマーク - Part 1 #fluentd

Java 版 Fluentd サーバである、Influent のベンチマークを取ってみました。今回は第一弾で、今後も性能を改善しながら、都度ベンチマーク結果を載せていく予定です。

okumin.com が GCP 上で不死鳥のように蘇りました #GCP

壊れて動かなくなっていたおくみん公式サイト(okumin.com)を復活させました。 新しい okumin.com はただの静的サイトですが、裏では色々と新しいことに挑戦しています。

Influent が Fluentd Related Projects の仲間になりました

先日公開した Influent を、http://www.fluentd.org/ の Related Projects に載せていただきました。

C++ で Apache Kafka を実装してみた

『C++11/14 コア言語』を読んで C++ に惹かれ、使ってみたくなったので、Apache Kafka を実装してみました。

ScalaMatsuri 2016 で LT してきました #ScalaMatsuri

5分で導入!Failurewall で障害対策 from okumin 人がたくさんいてとても緊張しました。 関連リンク GitHub - failurewall/failurewall: Destroys failures. マイクロサービスにおける障害と Failurewall - Qiita

おくみん公式ブログはじめました

アルファブロガーになりたいです。