
歡迎閱讀由 Onehouse.ai[1]為您帶來的2025年4月版Hudi通訊!本月,我們將為您帶來另一輪令人興奮的社區更新、技術深度探討以及展示Apache Hudi如何推動現代數據湖倉架構邊界的真實案例。
參加由Onehouse、Confluent、Databricks和DBT Labs於2025年5月21日主辦的OpenXData[2]- 今年面向數據從業者的頂級開放數據架構教育活動。

社區博客/社交媒體
📙博客/視頻
從沼澤到溪流:Apache Hudi如何改變現代數據湖[3] - Everton Gomede

在這篇文章中,Everton Gomede討論了如何利用Apache Hudi解決傳統數據湖的挑戰,如數據質量問題、更新複雜性和性能下降。他強調了Hudi如何通過寫時複製(Copy-on-Write)和合併讀取(Merge-on-Read)存儲、增量數據處理以及Spark生態系統內的事務能力等功能提供解決方案。
在Apache Hudi Lakehouse平台中引入二級索引[4] - Dipankar Mazumdar, Aditya Goenka

這篇博客介紹了Apache Hudi 1.0中的二級索引,實現了對非主鍵列的高效查詢。通過維護二級鍵與記錄位置之間的映射,Hudi減少了數據掃描並加速了查詢性能。目前可用於Apache Spark,計劃在未來版本中支持Flink、Presto和Trino。
集成Apache Doris和Hudi進行數據查詢和遷移[5] - Li YY

這篇博客探討了如何集成Apache Doris和Apache Hudi,以實現大數據環境中的高效聯邦查詢、實時分析和無縫數據遷移。通過使用Doris的高性能查詢引擎和Hudi的實時數據管理能力,組織可以實現靈活且經濟高效的數據分析解決方案。
如何在AWS Glue中讀取較舊版本的Hudi表[6] - Sagar Lakshmipathy

Sagar Lakshmipathy概述了如何在默認使用較新Hudi版本(例如v0.12.x)的AWS Glue環境中讀取較舊版本的Apache Hudi表(例如v0.8.x)。通過在Hadoop設置中配置HoodieROTablePathFilter,用戶可以確保兼容性並成功使用AWS Glue作業或筆記本查詢舊版Hudi表。
📱社交媒體
現代數據架構:將數據庫遷移到AWS上的可擴展數據湖倉[7]

在這篇文章中,Roman展示了如何將傳統數據庫現代化為可擴展的基於AWS的數據湖倉。他詳細介紹了使用AWS DMS、Glue、Lambda和帶有Apache Hudi的EMR的管道,以啟用增量更新、實時洞察和PB級分析——為AI、BI和治理數據湖倉用例解鎖數據。
Apache Hudi Streamer[8]

Shashank深入探討了Apache Hudi Streamer,這是實時數據管道背後的工具。他解釋了它如何支持低延遲攝取、upsert操作、模式演化和時間旅行 - 將批處理ETL轉變為流式管道,用於欺詐檢測和大規模個性化推薦等用例。
Apache Hudi優化[9]

Nishant分享了優化Apache Hudi以提高成本效益和性能的實用經驗,涵蓋智能壓縮、高級索引、小文件調優、分區和Parquet優化 - 所有這些都旨在減少EMR、S3和Athena成本,同時保持管道快速和可靠。
為什麼Apache Hudi在您的數據架構中值得一席之地[10]

這篇文章強調了Apache Hudi在現代數據架構中的突出地位,專註於其實時攝取、高效upsert/delete操作和靈活的存儲模式(COW和MOR)。它強調了Hudi的開放設計、與流行引擎的集成以及簡化CDC和數據重新處理的時間旅行和增量拉取等功能。
社區活動
Hudi團隊參加VeloxCon 2025

Apache Hudi PMC成員Shiyan Xu代表Hudi參加了VeloxCon[11]2025。他的演講探討了Hudi-rs(Apache Hudi的原生Rust實現)如何實現與Velox引擎的緊密集成,為查詢性能帶來重大改進。錄像應該很快就會提供!
項目更新

GitHub ❤️⭐️ https://github.com/apache/hudi
• PR#13176[12]、PR#13239[13]、PR#13110[14]:這些增強改進了Spark Web UI的可見性,通過顯示Hudi DELETE、MERGE INTO和UPDATE語句的完整DAG,使得跟蹤、調試和優化查詢執行計劃變得更加容易。
• PR#13129[15]:通過使數據源讀取器能夠使用SparkHoodieTableFileIndex進行文件列表,繞過元數據表,從而增加了在Databricks Spark運行時上查詢Hudi表的支持。
• PR#13200[16]:棄用對Flink 1.14的支持。
Hudi資源
入門指南 🏁
如果您剛開始使用Apache Hudi,以下是一些深入了解實際方面的快速指南。
• Apache Spark[17]
• Apache Flink[18]
• Docker演示[19]
官方文檔 📗
• https://hudi.apache.org/docs/next/overview
加入Slack 🤝
討論問題、幫助他人並向社區學習。我們的Slack頻道是4000多名Hudi用戶的家園。
• https://join.slack.com/t/apache-hudi/shared_invite/zt-2ggm1fub8-_yt4Reu9djwqqVRFC7X49g
社交媒體 📱
加入我們的社交渠道,了解從深度技術概念到技巧和社區中發生的有趣事情。
• LinkedIn: https://www.linkedin.com/company/apache-hudi/
• Twitter/X: https://twitter.com/apachehudi
• Youtube: https://www.youtube.com/@apachehudi/featured
每周辦公時間 💼
Hudi PMC成員/提交者將舉辦辦公時間,以幫助交互式回答問題,先到先得。這是提出任何疑問的絕佳機會。
• https://hudi.apache.org/community/office_hours
有興趣為Hudi做貢獻?👨🏻💻
Apache Hudi社區歡迎任何人的貢獻!以下是您可以參與的幾種方式。
• https://hudi.apache.org/contribute/how-to-contribute
數據生態系統其他動態
• 無盤、無狀態、無領導者 – 現代數據流的漫畫指南[20]- Sijie Guo | StreamNative
• 自定義Flink窗口的案例:擴展您的流用例[21]- Pedro Mazala | Evoura
• Uber的Ray on Kubernetes之旅:資源管理[22]- Uber工程
• 我們關閉了Snowflake - 這就是原因[23]- Arturas Tutkus | Kayak
• 研究論文 - Lance:通過自適應結構編碼實現列式存儲中的高效隨機訪問[24]
如果您對文檔、內容創意或項目有任何反饋,請給我們留言!
引用鏈接
[1]
Onehouse.ai:http://onehouse.ai/
[2]
OpenXData:https://www.openxdata.ai/#details
[3]
從沼澤到溪流:Apache Hudi如何改變現代數據湖:https://medium.com/aimonks/from-swamp-to-stream-how-apache-hudi-transforms-the-modern-data-lake-8a938f517ea1
[4]
在Apache Hudi Lakehouse平台中引入二級索引:https://hudi.apache.org/blog/2025/04/02/secondary-index/
[5]
集成Apache Doris和Hudi進行數據查詢和遷移:https://dzone.com/articles/integrate-apache-doris-hudi-data-querying-migration
[6]
如何在AWS Glue中讀取較舊版本的Hudi表:https://medium.com/@sagarlakshmipathy/how-to-read-an-older-version-hudi-table-in-aws-glue-e26e8e87cc87
[7]
現代數據架構:將數據庫遷移到AWS上的可擴展數據湖倉:https://www.linkedin.com/posts/romanceresnak_aws-datamigration-lakehousearchitecture-activity-7323285299969597441-REpw?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[8]
Apache Hudi Streamer:https://www.linkedin.com/posts/shashank219_dataengineering-activity-7320294522280636416-RVUS?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[9]
Apache Hudi優化:https://www.linkedin.com/posts/nishant-panwar18_bigdata-costoptimization-etl-activity-7315351709516460034-oZ9h?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[10]
為什麼Apache Hudi在您的數據架構中值得一席之地:https://www.linkedin.com/posts/ehenein_dataengineering-apachehudi-bigdata-activity-7323548039623716864-CIGX?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU
[11]
VeloxCon:https://veloxcon.io/
[12]
PR#13176:https://github.com/apache/hudi/pull/13176
[13]
PR#13239:https://github.com/apache/hudi/pull/13239
[14]
PR#13110:https://github.com/apache/hudi/pull/13110
[15]
PR#13129:https://github.com/apache/hudi/pull/13129
[16]
PR#13200:https://github.com/apache/hudi/pull/13200
[17]
Apache Spark:https://hudi.apache.org/docs/next/quick-start-guide
[18]
Apache Flink:https://hudi.apache.org/docs/next/flink-quick-start-guide
[19]
Docker演示:https://hudi.apache.org/docs/next/docker_demo
[20]
無盤、無狀態、無領導者 – 現代數據流的漫畫指南:https://streamnative.io/blog/diskless-stateless-leaderless---a-comic-guide-to-modern-data-streaming
[21]
自定義Flink窗口的案例:擴展您的流用例:https://pedromazala.substack.com/p/the-case-for-a-custom-window-in-flink
[22]
Uber的Ray on Kubernetes之旅:資源管理:https://www.uber.com/en-CA/blog/ubers-journey-to-ray-on-kubernetes-resource-management/
[23]
我們關閉了Snowflake - 這就是原因:https://arturastutkus.substack.com/p/we-shut-down-snowflake-and-heres?r=3nzb0&utm_campaign=post&utm_medium=web&triedRedirect=true
[24]
Lance:通過自適應結構編碼實現列式存儲中的高效隨機訪問:https://arxiv.org/abs/2504.15247