2025 年 4 月 Apache Hudi 社區新聞

2025年05月08日12:53:10 科技 1984
2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
Hudi Banner

歡迎閱讀由 Onehouse.ai[1]為您帶來的2025年4月版Hudi通訊!本月,我們將為您帶來另一輪令人興奮的社區更新、技術深度探討以及展示Apache Hudi如何推動現代數據湖倉架構邊界的真實案例。

參加由Onehouse、Confluent、Databricks和DBT Labs於2025年5月21日主辦的OpenXData[2]- 今年面向數據從業者的頂級開放數據架構教育活動。

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
OpenXData

社區博客/社交媒體

📙博客/視頻

從沼澤到溪流:Apache Hudi如何改變現代數據湖[3] - Everton Gomede

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞

數據湖轉型圖

在這篇文章中,Everton Gomede討論了如何利用Apache Hudi解決傳統數據湖的挑戰,如數據質量問題、更新複雜性和性能下降。他強調了Hudi如何通過寫時複製(Copy-on-Write)和合併讀取(Merge-on-Read)存儲、增量數據處理以及Spark生態系統內的事務能力等功能提供解決方案。

在Apache Hudi Lakehouse平台中引入二級索引[4] - Dipankar Mazumdar, Aditya Goenka

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
二級索引架構

這篇博客介紹了Apache Hudi 1.0中的二級索引,實現了對非主鍵列的高效查詢。通過維護二級鍵與記錄位置之間的映射,Hudi減少了數據掃描並加速了查詢性能。目前可用於Apache Spark,計劃在未來版本中支持Flink、Presto和Trino。

集成Apache Doris和Hudi進行數據查詢和遷移[5] - Li YY

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
Doris和Hudi集成

這篇博客探討了如何集成Apache Doris和Apache Hudi,以實現大數據環境中的高效聯邦查詢、實時分析和無縫數據遷移。通過使用Doris的高性能查詢引擎和Hudi的實時數據管理能力,組織可以實現靈活且經濟高效的數據分析解決方案。

如何在AWS Glue中讀取較舊版本的Hudi表[6] - Sagar Lakshmipathy

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
AWS Glue與Hudi

Sagar Lakshmipathy概述了如何在默認使用較新Hudi版本(例如v0.12.x)的AWS Glue環境中讀取較舊版本的Apache Hudi表(例如v0.8.x)。通過在Hadoop設置中配置HoodieROTablePathFilter,用戶可以確保兼容性並成功使用AWS Glue作業或筆記本查詢舊版Hudi表。

📱社交媒體

現代數據架構:將數據庫遷移到AWS上的可擴展數據湖倉[7]

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
AWS數據遷移

在這篇文章中,Roman展示了如何將傳統數據庫現代化為可擴展的基於AWS的數據湖倉。他詳細介紹了使用AWS DMS、Glue、Lambda和帶有Apache Hudi的EMR的管道,以啟用增量更新、實時洞察和PB級分析——為AI、BI和治理數據湖倉用例解鎖數據。

Apache Hudi Streamer[8]

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
Hudi Streamer

Shashank深入探討了Apache Hudi Streamer,這是實時數據管道背後的工具。他解釋了它如何支持低延遲攝取、upsert操作、模式演化和時間旅行 - 將批處理ETL轉變為流式管道,用於欺詐檢測和大規模個性化推薦等用例。

Apache Hudi優化[9]

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
Hudi優化策略

Nishant分享了優化Apache Hudi以提高成本效益和性能的實用經驗,涵蓋智能壓縮、高級索引、小文件調優、分區和Parquet優化 - 所有這些都旨在減少EMR、S3和Athena成本,同時保持管道快速和可靠。

為什麼Apache Hudi在您的數據架構中值得一席之地[10]

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
Hudi數據架構

這篇文章強調了Apache Hudi在現代數據架構中的突出地位,專註於其實時攝取、高效upsert/delete操作和靈活的存儲模式(COW和MOR)。它強調了Hudi的開放設計、與流行引擎的集成以及簡化CDC和數據重新處理的時間旅行和增量拉取等功能。

社區活動

Hudi團隊參加VeloxCon 2025

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
VeloxCon 2025

Apache Hudi PMC成員Shiyan Xu代表Hudi參加了VeloxCon[11]2025。他的演講探討了Hudi-rs(Apache Hudi的原生Rust實現)如何實現與Velox引擎的緊密集成,為查詢性能帶來重大改進。錄像應該很快就會提供!

項目更新

2025 年 4 月 Apache Hudi 社區新聞 - 天天要聞
Hudi項目

GitHub ❤️⭐️ https://github.com/apache/hudi

  • PR#13176[12]PR#13239[13]PR#13110[14]這些增強改進了Spark Web UI的可見性,通過顯示Hudi DELETE、MERGE INTO和UPDATE語句的完整DAG,使得跟蹤、調試和優化查詢執行計劃變得更加容易。

  • PR#13129[15]通過使數據源讀取器能夠使用SparkHoodieTableFileIndex進行文件列表,繞過元數據表,從而增加了在Databricks Spark運行時上查詢Hudi表的支持。

  • PR#13200[16]棄用對Flink 1.14的支持。

Hudi資源

入門指南 🏁

如果您剛開始使用Apache Hudi,以下是一些深入了解實際方面的快速指南。

  • • Apache Spark[17]

  • Apache Flink[18]

  • Docker演示[19]

官方文檔 📗

  • • https://hudi.apache.org/docs/next/overview

加入Slack 🤝

討論問題、幫助他人並向社區學習。我們的Slack頻道是4000多名Hudi用戶的家園。

  • • https://join.slack.com/t/apache-hudi/shared_invite/zt-2ggm1fub8-_yt4Reu9djwqqVRFC7X49g

社交媒體 📱

加入我們的社交渠道,了解從深度技術概念到技巧和社區中發生的有趣事情。

  • LinkedIn: https://www.linkedin.com/company/apache-hudi/

  • Twitter/X: https://twitter.com/apachehudi

  • Youtube: https://www.youtube.com/@apachehudi/featured

每周辦公時間 💼

Hudi PMC成員/提交者將舉辦辦公時間,以幫助交互式回答問題,先到先得。這是提出任何疑問的絕佳機會。

  • • https://hudi.apache.org/community/office_hours

有興趣為Hudi做貢獻?👨🏻‍💻

Apache Hudi社區歡迎任何人的貢獻!以下是您可以參與的幾種方式。

  • • https://hudi.apache.org/contribute/how-to-contribute

數據生態系統其他動態

  • • 無盤、無狀態、無領導者 – 現代數據流的漫畫指南[20]- Sijie Guo | StreamNative

  • • 自定義Flink窗口的案例:擴展您的流用例[21]- Pedro Mazala | Evoura

  • Uber的Ray on Kubernetes之旅:資源管理[22]- Uber工程

  • • 我們關閉了Snowflake - 這就是原因[23]- Arturas Tutkus | Kayak

  • • 研究論文 - Lance:通過自適應結構編碼實現列式存儲中的高效隨機訪問[24]

如果您對文檔、內容創意或項目有任何反饋,請給我們留言!

引用鏈接

[1]Onehouse.ai:http://onehouse.ai/

[2]OpenXData:https://www.openxdata.ai/#details

[3]從沼澤到溪流:Apache Hudi如何改變現代數據湖:https://medium.com/aimonks/from-swamp-to-stream-how-apache-hudi-transforms-the-modern-data-lake-8a938f517ea1

[4]在Apache Hudi Lakehouse平台中引入二級索引:https://hudi.apache.org/blog/2025/04/02/secondary-index/

[5]集成Apache Doris和Hudi進行數據查詢和遷移:https://dzone.com/articles/integrate-apache-doris-hudi-data-querying-migration

[6]如何在AWS Glue中讀取較舊版本的Hudi表:https://medium.com/@sagarlakshmipathy/how-to-read-an-older-version-hudi-table-in-aws-glue-e26e8e87cc87

[7]現代數據架構:將數據庫遷移到AWS上的可擴展數據湖倉:https://www.linkedin.com/posts/romanceresnak_aws-datamigration-lakehousearchitecture-activity-7323285299969597441-REpw?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU

[8]Apache Hudi Streamer:https://www.linkedin.com/posts/shashank219_dataengineering-activity-7320294522280636416-RVUS?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU

[9]Apache Hudi優化:https://www.linkedin.com/posts/nishant-panwar18_bigdata-costoptimization-etl-activity-7315351709516460034-oZ9h?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU

[10]為什麼Apache Hudi在您的數據架構中值得一席之地:https://www.linkedin.com/posts/ehenein_dataengineering-apachehudi-bigdata-activity-7323548039623716864-CIGX?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAe2ProBHdAyUIZhBrUpAkbJdP0HvCi1uAU

[11]VeloxCon:https://veloxcon.io/

[12]PR#13176:https://github.com/apache/hudi/pull/13176

[13]PR#13239:https://github.com/apache/hudi/pull/13239

[14]PR#13110:https://github.com/apache/hudi/pull/13110

[15]PR#13129:https://github.com/apache/hudi/pull/13129

[16]PR#13200:https://github.com/apache/hudi/pull/13200

[17]Apache Spark:https://hudi.apache.org/docs/next/quick-start-guide

[18]Apache Flink:https://hudi.apache.org/docs/next/flink-quick-start-guide

[19]Docker演示:https://hudi.apache.org/docs/next/docker_demo

[20]無盤、無狀態、無領導者 – 現代數據流的漫畫指南:https://streamnative.io/blog/diskless-stateless-leaderless---a-comic-guide-to-modern-data-streaming

[21]自定義Flink窗口的案例:擴展您的流用例:https://pedromazala.substack.com/p/the-case-for-a-custom-window-in-flink

[22]Uber的Ray on Kubernetes之旅:資源管理:https://www.uber.com/en-CA/blog/ubers-journey-to-ray-on-kubernetes-resource-management/

[23]我們關閉了Snowflake - 這就是原因:https://arturastutkus.substack.com/p/we-shut-down-snowflake-and-heres?r=3nzb0&utm_campaign=post&utm_medium=web&triedRedirect=true

[24]Lance:通過自適應結構編碼實現列式存儲中的高效隨機訪問:https://arxiv.org/abs/2504.15247

科技分類資訊推薦

一鍵批量解綁APP賬號!中國聯通「二次號碼煥新」服務正式上線 - 天天要聞

一鍵批量解綁APP賬號!中國聯通「二次號碼煥新」服務正式上線

快科技5月8日消息,如今大量手機APP都與手機賬號強綁定,帶來很多便捷的同時,也讓「二次號碼」的用戶非常苦惱。「二次號碼」也就是運營商回收後重新啟用號碼,以往經常有用戶遇到無法註冊使用互聯網應用或登錄到前任機主賬號等問題,甚至還會出現頻繁收到前任機主的驗證碼、電話。為了應對這種情況,工信部指導基礎電信企...
72888元!徠卡發佈M11-P Safari特別版相機:精緻如藝術品 - 天天要聞

72888元!徠卡發佈M11-P Safari特別版相機:精緻如藝術品

快科技5月8日消息,今日,徠卡正式發佈了M11 - P Safari特別版相機,其售價為72888元。這款相機在外觀設計上獨具匠心。它採用了經典的橄欖綠配色,以人造革材質進行橄欖綠覆皮,頂蓋則採用同色啞光漆面,營造出一種復古而神秘的氛圍。尤為引人注目的是,它用銀色螺絲取代了經典的「可樂標」,給人一種新穎又不失格調的視覺...
曝三星S25系列增產80萬台 由250萬台上調至330萬台 - 天天要聞

曝三星S25系列增產80萬台 由250萬台上調至330萬台

【CNMO科技消息】據外媒報道,三星正在加快提升旗艦手機的產量,以應對當前市場環境中的不確定性。韓國媒體透露,三星計劃在5月份額外生產80萬台Galaxy S25系列手機,這一舉動很可能是為了在關稅政策變動前儘可能多地將產品送入美國市場。 根據消息,三星已通知其零部件供應商,將在本月內生產共計1620萬台手機和平板設備,...
京東全球招人!薪酬不設上限 - 天天要聞

京東全球招人!薪酬不設上限

5月8日,「京東招聘」微信公眾號發佈消息,宣布「京東TGT—頂尖青年技術天才計劃」全球啟動。據介紹,該計劃面向全球高校本碩博在校生、應屆生及畢業兩年內的技術人才開放招募,旨在與全球技術天才一起,基於京東豐富的業務場景探索前沿技術、用技術創造更多美好。在人才培養方面,京東表示將採取「技術導師+業務導師+成長...
小米太難了?緊急撤回更新或許只是開始 - 天天要聞

小米太難了?緊急撤回更新或許只是開始

話說從上次意外發生至今,小米汽車一直處在風口浪尖。近日,小米汽車又發佈《關於大家關心問題的回答》,談到了最近爭議的限制馬力和碳纖維雙風道前艙蓋。其中,關於限制馬力的更新說道,已暫停了這次推送。至於已升級的少量用戶,小米汽車將會在下個版本更新