AI行业2024年的宏大叙事:把省钱贯彻到底


AI领域,曾经是一掷千金的豪赌,如今却变成了捉襟见肘的较量。当贾扬清点赞华人团队JetMoE大模型以10万美元成本媲美数十亿美元的LLaMA2时,人们才惊觉:原来AI也可以这么省钱!而这背后的功臣,正是默默无闻的MoE架构。


MoE,这个曾经被舆论边缘化的技术,如今却站在了AI的风口浪尖。人们突然发现,这个看似不起眼的架构,竟能像一把锋利的剑,直插AI成本的软肋。它就像一位低调的剑客,在AI江湖中默默修炼,终于等来了大放异彩的时刻。


全球AI圈都在为资金短缺而发愁,无论是硅谷巨头还是中国新秀,都在这场资金大战中捉襟见肘。大模型就像个“碎钞机”,让人望而生畏。而MoE架构的出现,就像一道曙光,照亮了AI企业前行的道路。


MoE架构的神奇之处在于,它能在保证性能的同时,大幅降低训练和推理成本。开发者可以在巨型模型上横向扩展,增加参数量,而不需要承担高昂的成本。同时,MoE架构还可以选择只启用部分专家子模型,实现性能与成本的平衡。这种灵活性和可扩展性,让MoE架构成为了AI企业的救星。


然而,MoE架构并非完美无缺。它的训练难度很大,尤其是如何保证每个“专家”都能得到充分训练,这是一个棘手的问题。门控网络的选择和样本分配的不平衡,都可能影响模型的训练效果和最终性能。但即便如此,MoE架构依然是当前AI领域最具潜力的技术之一。


对于国内AI企业而言,MoE架构更是意义非凡。在芯片和资金双重压力下,国内企业急需一种能够降低成本、提高效率的解决方案。而MoE架构正好满足了这一需求。国内已经有一些企业开始尝试应用MoE架构,并取得了不错的进展。MiniMax作为最早发力MoE架构的企业之一,已经获得了头部资本的认可和投资。而APUS联合新旦智能训练的大模型APUS-xDAN更是宣布即将开源,为行业提供了更多的选择和可能性。


当然,并不是所有企业都选择拥抱MoE架构。有些企业选择了另一条路:开发小模型。面壁智能发布的端侧模型Minicam就是一个例子。他们追求的是更合理的训练方式,而不是单纯的堆模型参数量。这种思路虽然与MoE架构不同,但同样是为了降低成本、提高效率。


在这场AI省钱大作战中,MoE架构无疑成为了最耀眼的明星。它以其独特的优势和潜力,为AI企业带来了新的希望和机遇。但同时,我们也应该清醒地认识到,MoE架构并非万能的解决方案。它也有自己的局限性和挑战。未来,我们还需要不断探索和创新,寻找更多适合AI发展的技术和路径。