2025 年 4 月 Apache Hudi 社區新聞

2025年05月08日12:53:10 科技 1984

歡迎閱讀由 Onehouse.ai^[1]為您帶來的2025年4月版Hudi通訊！本月，我們將為您帶來另一輪令人興奮的社區更新、技術深度探討以及展示Apache Hudi如何推動現代數據湖倉架構邊界的真實案例。

參加由Onehouse、Confluent、Databricks和DBT Labs於2025年5月21日主辦的OpenXData^[2]- 今年面向數據從業者的頂級開放數據架構教育活動。

社區博客/社交媒體

📙博客/視頻

從沼澤到溪流：Apache Hudi如何改變現代數據湖[3] - Everton Gomede

在這篇文章中，Everton Gomede討論了如何利用Apache Hudi解決傳統數據湖的挑戰，如數據質量問題、更新複雜性和性能下降。他強調了Hudi如何通過寫時複製（Copy-on-Write）和合併讀取（Merge-on-Read）存儲、增量數據處理以及Spark生態系統內的事務能力等功能提供解決方案。

在Apache Hudi Lakehouse平台中引入二級索引[4] - Dipankar Mazumdar, Aditya Goenka

這篇博客介紹了Apache Hudi 1.0中的二級索引，實現了對非主鍵列的高效查詢。通過維護二級鍵與記錄位置之間的映射，Hudi減少了數據掃描並加速了查詢性能。目前可用於Apache Spark，計劃在未來版本中支持Flink、Presto和Trino。

集成Apache Doris和Hudi進行數據查詢和遷移[5] - Li YY

這篇博客探討了如何集成Apache Doris和Apache Hudi，以實現大數據環境中的高效聯邦查詢、實時分析和無縫數據遷移。通過使用Doris的高性能查詢引擎和Hudi的實時數據管理能力，組織可以實現靈活且經濟高效的數據分析解決方案。

如何在AWS Glue中讀取較舊版本的Hudi表[6] - Sagar Lakshmipathy

Sagar Lakshmipathy概述了如何在默認使用較新Hudi版本（例如v0.12.x）的AWS Glue環境中讀取較舊版本的Apache Hudi表（例如v0.8.x）。通過在Hadoop設置中配置HoodieROTablePathFilter，用戶可以確保兼容性並成功使用AWS Glue作業或筆記本查詢舊版Hudi表。

📱社交媒體

現代數據架構：將數據庫遷移到AWS上的可擴展數據湖倉[7]

在這篇文章中，Roman展示了如何將傳統數據庫現代化為可擴展的基於AWS的數據湖倉。他詳細介紹了使用AWS DMS、Glue、Lambda和帶有Apache Hudi的EMR的管道，以啟用增量更新、實時洞察和PB級分析——為AI、BI和治理數據湖倉用例解鎖數據。

Apache Hudi Streamer[8]

Shashank深入探討了Apache Hudi Streamer，這是實時數據管道背後的工具。他解釋了它如何支持低延遲攝取、upsert操作、模式演化和時間旅行 - 將批處理ETL轉變為流式管道，用於欺詐檢測和大規模個性化推薦等用例。

Apache Hudi優化[9]

Nishant分享了優化Apache Hudi以提高成本效益和性能的實用經驗，涵蓋智能壓縮、高級索引、小文件調優、分區和Parquet優化 - 所有這些都旨在減少EMR、S3和Athena成本，同時保持管道快速和可靠。

為什麼Apache Hudi在您的數據架構中值得一席之地[10]

這篇文章強調了Apache Hudi在現代數據架構中的突出地位，專註於其實時攝取、高效upsert/delete操作和靈活的存儲模式（COW和MOR）。它強調了Hudi的開放設計、與流行引擎的集成以及簡化CDC和數據重新處理的時間旅行和增量拉取等功能。

社區活動

Hudi團隊參加VeloxCon 2025

Apache Hudi PMC成員Shiyan Xu代表Hudi參加了VeloxCon^[11]2025。他的演講探討了Hudi-rs（Apache Hudi的原生Rust實現）如何實現與Velox引擎的緊密集成，為查詢性能帶來重大改進。錄像應該很快就會提供！

項目更新

GitHub ❤️⭐️ https://github.com/apache/hudi

• PR#13176[12]、PR#13239[13]、PR#13110[14]：這些增強改進了Spark Web UI的可見性，通過顯示Hudi DELETE、MERGE INTO和UPDATE語句的完整DAG，使得跟蹤、調試和優化查詢執行計劃變得更加容易。
• PR#13129[15]：通過使數據源讀取器能夠使用SparkHoodieTableFileIndex進行文件列表，繞過元數據表，從而增加了在Databricks Spark運行時上查詢Hudi表的支持。
• PR#13200[16]：棄用對Flink 1.14的支持。

Hudi資源

入門指南 🏁

如果您剛開始使用Apache Hudi，以下是一些深入了解實際方面的快速指南。

• Apache Spark^[17]
• Apache Flink^[18]
• Docker演示^[19]

官方文檔 📗

• https://hudi.apache.org/docs/next/overview

加入Slack 🤝

討論問題、幫助他人並向社區學習。我們的Slack頻道是4000多名Hudi用戶的家園。

• https://join.slack.com/t/apache-hudi/shared_invite/zt-2ggm1fub8-_yt4Reu9djwqqVRFC7X49g

社交媒體 📱

加入我們的社交渠道，了解從深度技術概念到技巧和社區中發生的有趣事情。

• LinkedIn: https://www.linkedin.com/company/apache-hudi/
• Twitter/X: https://twitter.com/apachehudi
• Youtube: https://www.youtube.com/@apachehudi/featured

每周辦公時間 💼

Hudi PMC成員/提交者將舉辦辦公時間，以幫助交互式回答問題，先到先得。這是提出任何疑問的絕佳機會。

• https://hudi.apache.org/community/office_hours

有興趣為Hudi做貢獻？👨🏻‍💻

Apache Hudi社區歡迎任何人的貢獻！以下是您可以參與的幾種方式。

• https://hudi.apache.org/contribute/how-to-contribute

數據生態系統其他動態

• 無盤、無狀態、無領導者 – 現代數據流的漫畫指南^[20]- Sijie Guo | StreamNative
• 自定義Flink窗口的案例：擴展您的流用例^[21]- Pedro Mazala | Evoura
• Uber的Ray on Kubernetes之旅：資源管理^[22]- Uber工程
• 我們關閉了Snowflake - 這就是原因^[23]- Arturas Tutkus | Kayak
• 研究論文 - Lance：通過自適應結構編碼實現列式存儲中的高效隨機訪問^[24]

如果您對文檔、內容創意或項目有任何反饋，請給我們留言！

引用鏈接

[1]Onehouse.ai:http://onehouse.ai/

[2]OpenXData:https://www.openxdata.ai/#details

[3]從沼澤到溪流：Apache Hudi如何改變現代數據湖:https://medium.com/aimonks/from-swamp-to-stream-how-apache-hudi-transforms-the-modern-data-lake-8a938f517ea1

[4]在Apache Hudi Lakehouse平台中引入二級索引:https://hudi.apache.org/blog/2025/04/02/secondary-index/

[5]集成Apache Doris和Hudi進行數據查詢和遷移:https://dzone.com/articles/integrate-apache-doris-hudi-data-querying-migration

[6]如何在AWS Glue中讀取較舊版本的Hudi表:https://medium.com/@sagarlakshmipathy/how-to-read-an-older-version-hudi-table-in-aws-glue-e26e8e87cc87

[7]現代數據架構：將數據庫遷移到AWS上的可擴展數據湖倉:https://www.linkedin.com/posts/romanceresnak_aws-datamigration-lakehousearchitecture-activity-7323285299969597441-REpw?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU

[8]Apache Hudi Streamer:https://www.linkedin.com/posts/shashank219_dataengineering-activity-7320294522280636416-RVUS?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU

[9]Apache Hudi優化:https://www.linkedin.com/posts/nishant-panwar18_bigdata-costoptimization-etl-activity-7315351709516460034-oZ9h?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU

[10]為什麼Apache Hudi在您的數據架構中值得一席之地:https://www.linkedin.com/posts/ehenein_dataengineering-apachehudi-bigdata-activity-7323548039623716864-CIGX?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU

[11]VeloxCon:https://veloxcon.io/

[12]PR#13176:https://github.com/apache/hudi/pull/13176

[13]PR#13239:https://github.com/apache/hudi/pull/13239

[14]PR#13110:https://github.com/apache/hudi/pull/13110

[15]PR#13129:https://github.com/apache/hudi/pull/13129

[16]PR#13200:https://github.com/apache/hudi/pull/13200

[17]Apache Spark:https://hudi.apache.org/docs/next/quick-start-guide

[18]Apache Flink:https://hudi.apache.org/docs/next/flink-quick-start-guide

[19]Docker演示:https://hudi.apache.org/docs/next/docker_demo

[20]無盤、無狀態、無領導者 – 現代數據流的漫畫指南:https://streamnative.io/blog/diskless-stateless-leaderless---a-comic-guide-to-modern-data-streaming

[21]自定義Flink窗口的案例：擴展您的流用例:https://pedromazala.substack.com/p/the-case-for-a-custom-window-in-flink

[22]Uber的Ray on Kubernetes之旅：資源管理:https://www.uber.com/en-CA/blog/ubers-journey-to-ray-on-kubernetes-resource-management/

[23]我們關閉了Snowflake - 這就是原因:https://arturastutkus.substack.com/p/we-shut-down-snowflake-and-heres?r=3nzb0&utm_campaign=post&utm_medium=web&triedRedirect=true

[24]Lance：通過自適應結構編碼實現列式存儲中的高效隨機訪問:https://arxiv.org/abs/2504.15247