Apache Hive 4.0.1がリリースされました

Hadoop ビッグデータ

2024年10月2日にHive 4.0.1がリリースされました。 Apache Hive 4.0.1 released!!!Announcement:https://t.co/uKQDaJMmYfRelease Notes:https://t.co/6mkVL9oc0QDockerHub:https://t.co/JQfWzAZTWHThanx to all the contributors who worked towards this re…

2024-07-08

Apache Hive 4: パフォーマンス改善まとめ

Hadoop ビッグデータ

Shared Work Optimizer 少し間が空いてしまいましたが、引き続きHive 4に関するアップデートを紹介していきます。今回はパフォーマンス改善についてまとめてみます。

2024-05-12

Apache Hive 4: 新しく追加されたUDFの紹介

Hadoop ビッグデータ

Tuple Sketch UDFs 先日ついにApache Hive 4.0.0がリリースされました。おおよそ6年ぶりのメジャーアップデートということもあり、5000コミット以上もの変更をともなう大型リリースとなっています。この記事ではHive 4にて追加されるUDFを紹介します。

2023-12-25

分散処理OSSへのコントリビューション in 2023

ビッグデータ

Contributions to Apache Hive 2023年に取り組んだ分散処理OSSに対する貢献のまとめです。今年はApache Hiveのコミュニティが活性化したのでHiveやTezに対する貢献が多めです。この記事は『Distributed computing (Apache Spark, Hadoop, Kafka, ...)のカレ…

2023-03-04

ZooKageでHive 4を試せるようにしました

Hadoop Kubernetes ビッグデータ

ZooKage 0.2.2をリリースしました。本バージョンを用いることで最新のHiveを手軽に試すことができます。

2022-12-19

Hive Distributed Profiling Systemを簡単に実装する方法

Hadoop ビッグデータ

TreasureData Tech Talk 2022で発表した内容の補足です。Hive Distributed Profiling Systemの実装方法について、プレゼンテーション中に説明しきれなかった部分を解説します。なお本記事は「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Adve…

2022-12-14

Hive on Tezのメトリクスを任意のデータ基盤に蓄積する方法

Hadoop ビッグデータ

HistoryLoggingServiceのAPIを用いてHive on Tezのメトリクスをデータプラットフォームに保存するという、ややマニアックなテクニックを紹介します。本記事は「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022」14日目の記…

2022-12-06

TreasureData Tech Talk 2022で発表してきました #tdtechtalk

Hadoop ビッグデータ

先日行われたTreasure Dataのイベントにて登壇させていただきました。タイトルは『Hive Distributed Profiling System in Treasure Data』。

#hadoop #hive #Java

2020-12-25

ZooKage: Hadoop on Kubernetes on Docker Desktop

ビッグデータ Hadoop Kubernetes

Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。

2017-08-20

Google Cloud Dataflow でアクセスログを監視して Google Cloud Functions で Slack へアラートを送信するの巻

GCP ビッグデータ

『Google Cloud Dataflow で Google BigQuery へストリーミング ETL するの巻』で加工したアクセスログを集計し、一定の条件を満たすと Slack へアラートを飛ばすシステムを作りました。 Apache Beam(Scio) + Google Cloud Dataflow を用いてログの集計と監…

2017-08-20

Google Cloud Dataflow で Google BigQuery へストリーミング ETL するの巻

GCP ビッグデータ

okumin.com のアクセスログを Google BigQuery で分析するために、ETL パイプラインを構築しました。 Apache Beam(Scio) + Google Cloud Dataflow を用いてログの加工及び BigQuery へのストリーミングインサートを行うという構成です。この記事ではその全…

おくみん公式ブログ

おくみん公式ブログ

ビッグデータ

Apache Hive 4.0.1がリリースされました

Apache Hive 4: パフォーマンス改善まとめ

Apache Hive 4: 新しく追加されたUDFの紹介

分散処理OSSへのコントリビューション in 2023

ZooKageでHive 4を試せるようにしました

Hive Distributed Profiling Systemを簡単に実装する方法

Hive on Tezのメトリクスを任意のデータ基盤に蓄積する方法

TreasureData Tech Talk 2022で発表してきました #tdtechtalk

ZooKage: Hadoop on Kubernetes on Docker Desktop

Google Cloud Dataflow でアクセスログを監視して Google Cloud Functions で Slack へアラートを送信するの巻

Google Cloud Dataflow で Google BigQuery へストリーミング ETL するの巻