字節跳動自研 OpenBMC 方案成功上線,STE 團隊工程師都做了哪些事?

2021年11月12日15:41:03 科技 1024

OpenBMC 是 Linux Foundation 組織里的一個項目,也是目前開源 BMC 里方案最成熟、社區最活躍的項目。日前,我們得知字節跳動系統部 STE 團隊自研的 OpenBMC,已在內部成功上線,並穩定運行了兩個多月。這也是字節跳動首次正式上線並初步產品化的 OpenBMC 方案。

為此,我們專訪了字節跳動系統部 STE 團隊工程師,他為我們分享了字節跳動自研 OpenBMC 的布局和推進過程。

傳統 BMC 生態封閉,及時響應困難重重

BMC 是服務器上的管理模塊,它包含獨立的 SoC 以及 SoC 上運行的系統,完成對服務器的管理、監控、並對外提供服務。對於服務器來說是不可或缺的重要組成部分。

目前服務器 BMC 的方案里,部分廠商有完全自研的方案,部分廠商則會基於 IBV (Independent BMC Vendor) 的商業 BMC 進行定製化開發,但這些都是閉源的,服務器使用者無法掌控 BMC 的完整功能。

同時,商業 BMC 也具有諸多局限,比如一些不必要的功能,可能影響網絡和系統穩定性;修復 bug、漏洞往往需要反饋 ODM 廠商,甚至需要 IBV 支持,這使得修復時間過長;部分 bug 只在特定環境下復現,更增加了修復的難度。

隨着互聯網的不斷發展,數據中心的不斷壯大,對數據中心服務的運維需求,也越來越呈現出精細化、定製化的趨勢。

嚴重依賴各 ODM 廠商、IBV 的傳統 BMC 開發模式,開發周期長,無法實時響應互聯網多變的需求。一個更加開放、更加現代的 BMC 方案,成為當務之急。

功能新架構優,OpenBMC 成字節跳動首選

OpenBMC 是 Linux Foundation 里的一個開源項目,它方案成熟、社區活躍,受到 IBMGoogle、Facebook、IntelInspur 等國內外各大廠商的支持。

在架構方面,OpenBMC 支持 Aspeed、Nuvoton 等多種 BMC 芯片,以及 x86、ARM、OpenPOWER 等多種服務器架構,更是採用 Linux kernel 5.15、SySTEmd 249 (249.4+)、GCC 11.2.0、C++20 等最新的現代化技術架構。

字節跳動自研 OpenBMC 方案成功上線,STE 團隊工程師都做了哪些事? - 天天要聞

OpenBMC 解決方案流程一覽

但是 OpenBMC 最初是為了解決國外企業的數據中心需求設計開發的,無法完全適配國內互聯網數據中心需求。基於 OpenBMC,結合字節跳動服務器管理和運維,開發自研版本,成為更理想的選擇。

從社區版本到落地應用,OpenBMC 在字節跳動產品化

為了加快 OpenBMC 與字節跳動內部業務的適配,STE 團隊調研了 OpenBMC 社區里,各個模塊的技術方案,對比字節跳動內部對服務器的管理和運維,挑選出適用的方案。

字節跳動自研 OpenBMC 方案成功上線,STE 團隊工程師都做了哪些事? - 天天要聞

OpenBMC 在字節跳動產品化過程示意圖

對於能滿足字節跳動內部需求的模塊,STE 團隊決定直接使用社區版本;對於額外的需求,則會基於社區模塊,添加並增強功能,最終形成一個完整的解決方案,進行深度測試。

STE 團隊工程師,為我們分享了具體的方案:

  • 對於 x86 specfic 的模塊,復用 Intel 的模塊,例如 PECI,node-manager
  • 對於 power control,復用x86-power-control
  • 對於各類傳感器,基於現有的entity-manager/dbus-sensors/virtual-sensor,添加 yaml 來定義需要的 sensor
  • 對於風扇控制,復用phosphor-pid-control並添加了單、雙轉子的檢測和適配
  • 對於 FRU,根據硬件情況改造相關代碼,使其支持非標準 FRU 格式
  • 對於 SEL,實現新的統一的 logging 方式,把 log entry 轉化為標準 SEL
  • 對於 code-update,基於phopsphor-bmc-code-mgmt添加了 BIOS、CPLD、FPGA 等模塊的支持
  • 對於字節跳動內部的管理、運維,新增了代碼來完成線上的適配工作

此外, STE 團隊也在字節跳動內部搭建了 CI 服務器,完成了自動化的編譯和測試,並且與開源社區的 Gerrit 打通:

  • 對於內部的每一個 Push/MergeRequest,會跑 CI
  • 對於每一次編譯,都會通過 QEMU 來跑基本的測試
  • 對於重要的 release tag,還會通過 HW CI 在實際服務器上驗證
  • 對於開源社區里meta-bytedance的每一個改動,也會跑編譯和 QEMU CI

積極呼籲行業合作,共同參與社區共建

據 STE 團隊工程師介紹,OpenBMC 項目目前已經在兩種不同配置的機器上順利完成上線,並持續穩定運行了兩個多月。

同時,STE 團隊的工程師們,也在 OpenBMC 開源社區里提交了涉及新 feature 及 bug fix 的諸多 commits,目前已經成為了 OpenBMC Technical Oversight Forum (TOF) 的一員。

  • https://github.com/search?p=1&q=org%3Aopenbmc+bytedance.com&type=Commits
  • https://github.com/openbmc/docs/blob/master/tof/contract.md

未來,字節跳動系統部 STE 團隊將在更多的平台上持續研發 OpenBMC,來更好、更快速地支持服務器的管理和運維。工程師還表示,在後續開發中,STE 團隊希望能與更多廠商進行全方位、多維度的緊密合作共建,共同開發更符合國內互聯網數據中心需求的開源 BMC 方案。

專訪最後,STE 團隊的工程師也充分表達了對於優秀人才的渴求,歡迎對新技術、開源感興趣的小夥伴加入字節跳動系統部 STE 團隊,用最新的 kernel、最新的編譯器,寫最 modern 的 C++。


關於字節跳動系統部 STE 團隊:

字節跳動系統部 STE 團隊 (STE=System Technologies & Engineering,系統技術與工程) 一直致力於操作系統內核與虛擬化、系統基礎軟件與基礎庫的構建和性能優化、超大規模數據中心的系統穩定性和可靠性建設、新硬件與軟件的協同設計等基礎技術領域的研發與工程化落地,具備全面的基礎軟件工程能力,為字節上層業務保駕護航。同時,團隊積極關注社區技術動向,擁抱開源和標準。

更多招聘信息,可聯繫 [email protected] 獲取。

科技分類資訊推薦

“抖音商城618好物節”消費數據發布,超值購成交額同比增長150% - 天天要聞

“抖音商城618好物節”消費數據發布,超值購成交額同比增長150%

勇礪商業評論 曾憲勇今年,在助力消費提質擴容的同時,抖音電商也注重購物體驗,從品控質檢、發貨時效、物流體驗、售後服務等方面加強專屬保障,聯合商家為用戶提供家電“以舊換新”、生鮮鮮花“壞了包退”等服務權益。抖音超市在全國215座城市推出“送貨上門”服務,不上門平台最高賠付100元,讓消費者買得省心舒心。6月2...
Ultra 9款比Ultra 7款便宜的1.2kg滿配超輕薄本,有啥優缺點? - 天天要聞

Ultra 9款比Ultra 7款便宜的1.2kg滿配超輕薄本,有啥優缺點?

前些日子點評了ThinkPad X1 Carbon,關注的人很多,不過同樣也有很多讀者反饋說:對於普通的家用或個體購買,X1 Carbon的確偏貴,有沒有價格更實惠且品質同樣出色的國際大品牌超輕薄本呢?答案是有的,華碩靈耀14 2024款就是不錯選擇,1.2kg超輕薄,5999元~6499元,同樣是酷睿Ultra平台,且配置規格和性能表現其實比X1 Ca..
配置拉滿,一加 Ace 3V領銜兩千價位市場! - 天天要聞

配置拉滿,一加 Ace 3V領銜兩千價位市場!

在智能手機市場競爭激烈、新品層出不窮的今天,出現了越來越多的極致性價比的產品,而一加 Ace 3V正是以其強悍的性能和親民的價格,成為兩千元價位段的一顆耀眼明星。這不僅是一款手機,更是一加為追求高性能體驗的用戶精心準備的一份大禮。性能小怪獸,動力全開一加 Ace 3V內置高通驍龍7+ Gen3處理器,作為與驍龍8 Gen3“...
一加Ace3 Pro官宣:27日發布 還有手錶和平板 - 天天要聞

一加Ace3 Pro官宣:27日發布 還有手錶和平板

21日消息,今天,一加手機官方正式官宣了一加Ace3 Pro新機的發布會時間。“【送全加桶】6 月 27 日 19:00,一加夏季性能生態新品發布會,#一加Ace3Pro#攜一眾性能新品,正式登場。這是一加史上首場「性能生態」發布會,旗艦性
星紀魅族無界智行開放平台2.0上線 助力車企快速定製智能座艙 - 天天要聞

星紀魅族無界智行開放平台2.0上線 助力車企快速定製智能座艙

【太平洋科技資訊】星紀魅族副總裁彭翻在媒體溝通會上表示,其智能座艙行業解決方案“無界智行開放平台 2.0”將於今年年底上線,該平台將幫助車企快速製作一套擁有自主品牌風格的智能座艙 OS 系統,並通過在線編輯器及實時預覽的功能進行動態調整。彭翻還透露,星紀魅族聯合億咖通打造的 Flyme Auto 智能座艙解決方案正在推...
周鴻禕、楊元慶熱議AI,2024世界智能產業博覽會展示超40個大模型|鈦媒體AGI - 天天要聞

周鴻禕、楊元慶熱議AI,2024世界智能產業博覽會展示超40個大模型|鈦媒體AGI

(圖片來源:鈦媒體App編輯拍攝)6月20日至23日,2024世界智能產業博覽會(WIC,簡稱世界智博會)在天津舉行。本次博覽會由天津市人民政府和重慶市人民政府聯合主辦,是兩地分別打造的世界性智能產業平台合併後的首次亮相。展覽面積達10萬平方米,設置人工智能、智能網聯汽車、智能製造等10大主題展區,500餘家企業和機構參...