位元組跳動自研 OpenBMC 方案成功上線,STE 團隊工程師都做了哪些事?

2021年11月12日15:41:03 科技 1024

OpenBMC 是 Linux Foundation 組織里的一個項目,也是目前開源 BMC 里方案最成熟、社區最活躍的項目。日前,我們得知位元組跳動系統部 STE 團隊自研的 OpenBMC,已在內部成功上線,並穩定運行了兩個多月。這也是位元組跳動首次正式上線並初步產品化的 OpenBMC 方案。

為此,我們專訪了位元組跳動系統部 STE 團隊工程師,他為我們分享了位元組跳動自研 OpenBMC 的布局和推進過程。

傳統 BMC 生態封閉,及時響應困難重重

BMC 是伺服器上的管理模塊,它包含獨立的 SoC 以及 SoC 上運行的系統,完成對伺服器的管理、監控、並對外提供服務。對於伺服器來說是不可或缺的重要組成部分。

目前伺服器 BMC 的方案里,部分廠商有完全自研的方案,部分廠商則會基於 IBV (Independent BMC Vendor) 的商業 BMC 進行定製化開發,但這些都是閉源的,伺服器使用者無法掌控 BMC 的完整功能。

同時,商業 BMC 也具有諸多局限,比如一些不必要的功能,可能影響網路和系統穩定性;修復 bug、漏洞往往需要反饋 ODM 廠商,甚至需要 IBV 支持,這使得修復時間過長;部分 bug 只在特定環境下復現,更增加了修復的難度。

隨著互聯網的不斷發展,數據中心的不斷壯大,對數據中心服務的運維需求,也越來越呈現出精細化、定製化的趨勢。

嚴重依賴各 ODM 廠商、IBV 的傳統 BMC 開發模式,開發周期長,無法實時響應互聯網多變的需求。一個更加開放、更加現代的 BMC 方案,成為當務之急。

功能新架構優,OpenBMC 成位元組跳動首選

OpenBMC 是 Linux Foundation 里的一個開源項目,它方案成熟、社區活躍,受到 IBMGoogle、Facebook、IntelInspur 等國內外各大廠商的支持。

在架構方面,OpenBMC 支持 Aspeed、Nuvoton 等多種 BMC 晶元,以及 x86、ARM、OpenPOWER 等多種伺服器架構,更是採用 Linux kernel 5.15、SySTEmd 249 (249.4+)、GCC 11.2.0、C++20 等最新的現代化技術架構。

位元組跳動自研 OpenBMC 方案成功上線,STE 團隊工程師都做了哪些事? - 天天要聞

OpenBMC 解決方案流程一覽

但是 OpenBMC 最初是為了解決國外企業的數據中心需求設計開發的,無法完全適配國內互聯網數據中心需求。基於 OpenBMC,結合位元組跳動伺服器管理和運維,開發自研版本,成為更理想的選擇。

從社區版本到落地應用,OpenBMC 在位元組跳動產品化

為了加快 OpenBMC 與位元組跳動內部業務的適配,STE 團隊調研了 OpenBMC 社區里,各個模塊的技術方案,對比位元組跳動內部對伺服器的管理和運維,挑選出適用的方案。

位元組跳動自研 OpenBMC 方案成功上線,STE 團隊工程師都做了哪些事? - 天天要聞

OpenBMC 在位元組跳動產品化過程示意圖

對於能滿足位元組跳動內部需求的模塊,STE 團隊決定直接使用社區版本;對於額外的需求,則會基於社區模塊,添加並增強功能,最終形成一個完整的解決方案,進行深度測試。

STE 團隊工程師,為我們分享了具體的方案:

  • 對於 x86 specfic 的模塊,復用 Intel 的模塊,例如 PECI,node-manager
  • 對於 power control,復用x86-power-control
  • 對於各類感測器,基於現有的entity-manager/dbus-sensors/virtual-sensor,添加 yaml 來定義需要的 sensor
  • 對於風扇控制,復用phosphor-pid-control並添加了單、雙轉子的檢測和適配
  • 對於 FRU,根據硬體情況改造相關代碼,使其支持非標準 FRU 格式
  • 對於 SEL,實現新的統一的 logging 方式,把 log entry 轉化為標準 SEL
  • 對於 code-update,基於phopsphor-bmc-code-mgmt添加了 BIOS、CPLD、FPGA 等模塊的支持
  • 對於位元組跳動內部的管理、運維,新增了代碼來完成線上的適配工作

此外, STE 團隊也在位元組跳動內部搭建了 CI 伺服器,完成了自動化的編譯和測試,並且與開源社區的 Gerrit 打通:

  • 對於內部的每一個 Push/MergeRequest,會跑 CI
  • 對於每一次編譯,都會通過 QEMU 來跑基本的測試
  • 對於重要的 release tag,還會通過 HW CI 在實際伺服器上驗證
  • 對於開源社區里meta-bytedance的每一個改動,也會跑編譯和 QEMU CI

積極呼籲行業合作,共同參與社區共建

據 STE 團隊工程師介紹,OpenBMC 項目目前已經在兩種不同配置的機器上順利完成上線,並持續穩定運行了兩個多月。

同時,STE 團隊的工程師們,也在 OpenBMC 開源社區里提交了涉及新 feature 及 bug fix 的諸多 commits,目前已經成為了 OpenBMC Technical Oversight Forum (TOF) 的一員。

  • https://github.com/search?p=1&q=org%3Aopenbmc+bytedance.com&type=Commits
  • https://github.com/openbmc/docs/blob/master/tof/contract.md

未來,位元組跳動系統部 STE 團隊將在更多的平台上持續研發 OpenBMC,來更好、更快速地支持伺服器的管理和運維。工程師還表示,在後續開發中,STE 團隊希望能與更多廠商進行全方位、多維度的緊密合作共建,共同開發更符合國內互聯網數據中心需求的開源 BMC 方案。

專訪最後,STE 團隊的工程師也充分表達了對於優秀人才的渴求,歡迎對新技術、開源感興趣的小夥伴加入位元組跳動系統部 STE 團隊,用最新的 kernel、最新的編譯器,寫最 modern 的 C++。


關於位元組跳動系統部 STE 團隊:

位元組跳動系統部 STE 團隊 (STE=System Technologies & Engineering,系統技術與工程) 一直致力於操作系統內核與虛擬化、系統基礎軟體與基礎庫的構建和性能優化、超大規模數據中心的系統穩定性和可靠性建設、新硬體與軟體的協同設計等基礎技術領域的研發與工程化落地,具備全面的基礎軟體工程能力,為位元組上層業務保駕護航。同時,團隊積極關注社區技術動向,擁抱開源和標準。

更多招聘信息,可聯繫 [email protected] 獲取。

科技分類資訊推薦

微軟出於安全考慮推遲推出 AI 功能「Recall」,將先在小範圍內預覽 - 天天要聞

微軟出於安全考慮推遲推出 AI 功能「Recall」,將先在小範圍內預覽

站長之家(ChinaZ.com) 6 月 15 日消息:微軟公司表示,他們將不會在下周發布的新電腦中推出「Recall」功能。這一功能利用人工智慧技術跟蹤計算機使用情況,但出於隱私風險的考慮,微軟決定先在小範圍內進行預覽。Recall 功能可以記錄從網路瀏覽到語音聊天的所有歷史,並將其存儲在電腦上。用戶在需要回憶幾個月前做過的事情...
Google 支持的 Tempus AI 在納斯達克首次亮相,首日交易上漲 9% - 天天要聞

Google 支持的 Tempus AI 在納斯達克首次亮相,首日交易上漲 9%

站長之家(ChinaZ.com) 6月15日消息:Tempus AI 是一家利用人工智慧(AI)解讀醫療測試的診斷公司,旨在幫助醫生為患者提供更準確的治療方案。周五,該公司在納斯達克首次亮相,股票代碼為「TEM」,開盤後股價一度上漲了 15%。Tempus AI 周四以每股 37 美元的價格發行了 1110 萬股,處於初始目標區間 35 至 37 美元的高端
蘋果的新人工智慧排除了超過 90% 的當前 iPhone 用戶 - 天天要聞

蘋果的新人工智慧排除了超過 90% 的當前 iPhone 用戶

站長之家(ChinaZ.com) 6月15日消息:等待了近兩年後,Apple 終於踏上了生成式人工智慧(AI)的潮流。在全球開發者大會(WWDC)上,Apple CEO Tim Cook 宣布了這一重大消息。在主題演講的開幕式上,Cook 表示:「我很高興我們將推出意義深遠的新智能功能,希望這能激發開發者的靈感,使用戶感到愉悅,並使我們的平台變得更智...
小米手機出貨量Q1在8個國家居首! - 天天要聞

小米手機出貨量Q1在8個國家居首!

小米手機出貨量Q1在8個國家居首小米手機在8個國家居首勢不可擋前言近日,一則關於小米手機出貨量在8個國家/地區位居榜首的消息引發了大家的關注。這無疑凸顯了小米品牌在全球範圍內的強大實力。作為全球第三大智能手機廠商,小米持續深耕全球市場,在激
微信又出了一個新功能,讓我們聊天更有趣,我也是剛剛學會的! - 天天要聞

微信又出了一個新功能,讓我們聊天更有趣,我也是剛剛學會的!

微信作為日常生活中不可或缺的通訊工具,最近推出了新功能,讓聊天更有趣。該功能充分利用微信收藏,發送圖片和視頻時可以同時附上語音和文字。如此,與朋友聊天時不僅能通過照片或視頻直觀展示內容,還能用語音表達情感,使聊天更生動。然而,很多人不知如何
三星Galaxy Z Fold6 / Flip6詳細參數信息提前曝光,或下月發布 - 天天要聞

三星Galaxy Z Fold6 / Flip6詳細參數信息提前曝光,或下月發布

多方爆料顯示,三星有望在今年7月發布新一代的摺疊屏手機——三星Galaxy Z Fold6和Galaxy Z Flip6。隨著發布時間的臨近,兩款新機的詳細參數信息也被提前曝光。據爆料,三星Galaxy Z Fold6展開時的尺寸為153.5 x 132.6 x 5.6毫米,摺疊時的尺寸為153.5 x 68.1 x 12.1毫米,機身重239克,提供深藍色
小米15或9月量產,年末旗艦扎堆發布 - 天天要聞

小米15或9月量產,年末旗艦扎堆發布

近日,高通官方正式確認了今年驍龍峰會活動的時間。高通官網信息顯示,Snapdragon Summit 2024(驍龍峰會 2024)將在 10 月 21 日~10 月 23 日期間舉辦。就此來看,全新一代的驍龍8旗艦移動平台在今年10月23日之前就會正式到來。相較於去年的發布時間再次提前。如果各手機品牌的新機發布時間也隨之提前的話,那麼今年10月應...
iQOO 13再曝:2K直屏+單點超聲波,電池容量或超6000mAh - 天天要聞

iQOO 13再曝:2K直屏+單點超聲波,電池容量或超6000mAh

去年11月,iQOO 12系列正式發布,包括iQOO 12和iQOO 12 Pro兩款機型,售價3999元起。現在,隨著時間的推進,關於iQOO 13系列的消息也陸續出現了。數碼博主@數碼閑聊站 此前曾透露,iQOO 13系列或只推出一款機型,Pro版本可能被取消。該博主日前的一份爆料中又提到:「褲褲子驍龍8G4新機,「目前」單杯工程機配置還是比較均...