字节跳动自研 OpenBMC 方案成功上线,STE 团队工程师都做了哪些事?

2021年11月12日15:41:03 科技 1024

OpenBMC 是 Linux Foundation 组织里的一个项目,也是目前开源 BMC 里方案最成熟、社区最活跃的项目。日前,我们得知字节跳动系统部 STE 团队自研的 OpenBMC,已在内部成功上线,并稳定运行了两个多月。这也是字节跳动首次正式上线并初步产品化的 OpenBMC 方案。

为此,我们专访了字节跳动系统部 STE 团队工程师,他为我们分享了字节跳动自研 OpenBMC 的布局和推进过程。

传统 BMC 生态封闭,及时响应困难重重

BMC 是服务器上的管理模块,它包含独立的 SoC 以及 SoC 上运行的系统,完成对服务器的管理、监控、并对外提供服务。对于服务器来说是不可或缺的重要组成部分。

目前服务器 BMC 的方案里,部分厂商有完全自研的方案,部分厂商则会基于 IBV (Independent BMC Vendor) 的商业 BMC 进行定制化开发,但这些都是闭源的,服务器使用者无法掌控 BMC 的完整功能。

同时,商业 BMC 也具有诸多局限,比如一些不必要的功能,可能影响网络和系统稳定性;修复 bug、漏洞往往需要反馈 ODM 厂商,甚至需要 IBV 支持,这使得修复时间过长;部分 bug 只在特定环境下复现,更增加了修复的难度。

随着互联网的不断发展,数据中心的不断壮大,对数据中心服务的运维需求,也越来越呈现出精细化、定制化的趋势。

严重依赖各 ODM 厂商、IBV 的传统 BMC 开发模式,开发周期长,无法实时响应互联网多变的需求。一个更加开放、更加现代的 BMC 方案,成为当务之急。

功能新架构优,OpenBMC 成字节跳动首选

OpenBMC 是 Linux Foundation 里的一个开源项目,它方案成熟、社区活跃,受到 IBMGoogle、Facebook、IntelInspur 等国内外各大厂商的支持。

在架构方面,OpenBMC 支持 Aspeed、Nuvoton 等多种 BMC 芯片,以及 x86、ARM、OpenPOWER 等多种服务器架构,更是采用 Linux kernel 5.15、SySTEmd 249 (249.4+)、GCC 11.2.0、C++20 等最新的现代化技术架构。

字节跳动自研 OpenBMC 方案成功上线,STE 团队工程师都做了哪些事? - 天天要闻

OpenBMC 解决方案流程一览

但是 OpenBMC 最初是为了解决国外企业的数据中心需求设计开发的,无法完全适配国内互联网数据中心需求。基于 OpenBMC,结合字节跳动服务器管理和运维,开发自研版本,成为更理想的选择。

从社区版本到落地应用,OpenBMC 在字节跳动产品化

为了加快 OpenBMC 与字节跳动内部业务的适配,STE 团队调研了 OpenBMC 社区里,各个模块的技术方案,对比字节跳动内部对服务器的管理和运维,挑选出适用的方案。

字节跳动自研 OpenBMC 方案成功上线,STE 团队工程师都做了哪些事? - 天天要闻

OpenBMC 在字节跳动产品化过程示意图

对于能满足字节跳动内部需求的模块,STE 团队决定直接使用社区版本;对于额外的需求,则会基于社区模块,添加并增强功能,最终形成一个完整的解决方案,进行深度测试。

STE 团队工程师,为我们分享了具体的方案:

  • 对于 x86 specfic 的模块,复用 Intel 的模块,例如 PECI,node-manager
  • 对于 power control,复用x86-power-control
  • 对于各类传感器,基于现有的entity-manager/dbus-sensors/virtual-sensor,添加 yaml 来定义需要的 sensor
  • 对于风扇控制,复用phosphor-pid-control并添加了单、双转子的检测和适配
  • 对于 FRU,根据硬件情况改造相关代码,使其支持非标准 FRU 格式
  • 对于 SEL,实现新的统一的 logging 方式,把 log entry 转化为标准 SEL
  • 对于 code-update,基于phopsphor-bmc-code-mgmt添加了 BIOS、CPLD、FPGA 等模块的支持
  • 对于字节跳动内部的管理、运维,新增了代码来完成线上的适配工作

此外, STE 团队也在字节跳动内部搭建了 CI 服务器,完成了自动化的编译和测试,并且与开源社区的 Gerrit 打通:

  • 对于内部的每一个 Push/MergeRequest,会跑 CI
  • 对于每一次编译,都会通过 QEMU 来跑基本的测试
  • 对于重要的 release tag,还会通过 HW CI 在实际服务器上验证
  • 对于开源社区里meta-bytedance的每一个改动,也会跑编译和 QEMU CI

积极呼吁行业合作,共同参与社区共建

据 STE 团队工程师介绍,OpenBMC 项目目前已经在两种不同配置的机器上顺利完成上线,并持续稳定运行了两个多月。

同时,STE 团队的工程师们,也在 OpenBMC 开源社区里提交了涉及新 feature 及 bug fix 的诸多 commits,目前已经成为了 OpenBMC Technical Oversight Forum (TOF) 的一员。

  • https://github.com/search?p=1&q=org%3Aopenbmc+bytedance.com&type=Commits
  • https://github.com/openbmc/docs/blob/master/tof/contract.md

未来,字节跳动系统部 STE 团队将在更多的平台上持续研发 OpenBMC,来更好、更快速地支持服务器的管理和运维。工程师还表示,在后续开发中,STE 团队希望能与更多厂商进行全方位、多维度的紧密合作共建,共同开发更符合国内互联网数据中心需求的开源 BMC 方案。

专访最后,STE 团队的工程师也充分表达了对于优秀人才的渴求,欢迎对新技术、开源感兴趣的小伙伴加入字节跳动系统部 STE 团队,用最新的 kernel、最新的编译器,写最 modern 的 C++。


关于字节跳动系统部 STE 团队:

字节跳动系统部 STE 团队 (STE=System Technologies & Engineering,系统技术与工程) 一直致力于操作系统内核与虚拟化、系统基础软件与基础库的构建和性能优化、超大规模数据中心的系统稳定性和可靠性建设、新硬件与软件的协同设计等基础技术领域的研发与工程化落地,具备全面的基础软件工程能力,为字节上层业务保驾护航。同时,团队积极关注社区技术动向,拥抱开源和标准。

更多招聘信息,可联系 [email protected] 获取。

科技分类资讯推荐

“抖音商城618好物节”消费数据发布,超值购成交额同比增长150% - 天天要闻

“抖音商城618好物节”消费数据发布,超值购成交额同比增长150%

勇砺商业评论 曾宪勇今年,在助力消费提质扩容的同时,抖音电商也注重购物体验,从品控质检、发货时效、物流体验、售后服务等方面加强专属保障,联合商家为用户提供家电“以旧换新”、生鲜鲜花“坏了包退”等服务权益。抖音超市在全国215座城市推出“送货上门”服务,不上门平台最高赔付100元,让消费者买得省心舒心。6月2...
Ultra 9款比Ultra 7款便宜的1.2kg满配超轻薄本,有啥优缺点? - 天天要闻

Ultra 9款比Ultra 7款便宜的1.2kg满配超轻薄本,有啥优缺点?

前些日子点评了ThinkPad X1 Carbon,关注的人很多,不过同样也有很多读者反馈说:对于普通的家用或个体购买,X1 Carbon的确偏贵,有没有价格更实惠且品质同样出色的国际大品牌超轻薄本呢?答案是有的,华硕灵耀14 2024款就是不错选择,1.2kg超轻薄,5999元~6499元,同样是酷睿Ultra平台,且配置规格和性能表现其实比X1 Ca..
配置拉满,一加 Ace 3V领衔两千价位市场! - 天天要闻

配置拉满,一加 Ace 3V领衔两千价位市场!

在智能手机市场竞争激烈、新品层出不穷的今天,出现了越来越多的极致性价比的产品,而一加 Ace 3V正是以其强悍的性能和亲民的价格,成为两千元价位段的一颗耀眼明星。这不仅是一款手机,更是一加为追求高性能体验的用户精心准备的一份大礼。性能小怪兽,动力全开一加 Ace 3V内置高通骁龙7+ Gen3处理器,作为与骁龙8 Gen3“...
一加Ace3 Pro官宣:27日发布 还有手表和平板 - 天天要闻

一加Ace3 Pro官宣:27日发布 还有手表和平板

21日消息,今天,一加手机官方正式官宣了一加Ace3 Pro新机的发布会时间。“【送全加桶】6 月 27 日 19:00,一加夏季性能生态新品发布会,#一加Ace3Pro#携一众性能新品,正式登场。这是一加史上首场“性能生态”发布会,旗舰性
星纪魅族无界智行开放平台2.0上线 助力车企快速定制智能座舱 - 天天要闻

星纪魅族无界智行开放平台2.0上线 助力车企快速定制智能座舱

【太平洋科技资讯】星纪魅族副总裁彭翻在媒体沟通会上表示,其智能座舱行业解决方案“无界智行开放平台 2.0”将于今年年底上线,该平台将帮助车企快速制作一套拥有自主品牌风格的智能座舱 OS 系统,并通过在线编辑器及实时预览的功能进行动态调整。彭翻还透露,星纪魅族联合亿咖通打造的 Flyme Auto 智能座舱解决方案正在推...
周鸿祎、杨元庆热议AI,2024世界智能产业博览会展示超40个大模型|钛媒体AGI - 天天要闻

周鸿祎、杨元庆热议AI,2024世界智能产业博览会展示超40个大模型|钛媒体AGI

(图片来源:钛媒体App编辑拍摄)6月20日至23日,2024世界智能产业博览会(WIC,简称世界智博会)在天津举行。本次博览会由天津市人民政府和重庆市人民政府联合主办,是两地分别打造的世界性智能产业平台合并后的首次亮相。展览面积达10万平方米,设置人工智能、智能网联汽车、智能制造等10大主题展区,500余家企业和机构参...