6月6日消息,据媒体获取的文件显示,埃隆·马斯克旗下的人工智能公司xai正利用一系列问题训练其ai语音模型,这些问题涵盖了从殖民火星到超级英雄等诸多话题,同时也包含diy管道维修与行程规划等日常主题。
报道称,数据标注公司scale ai的签约自由职业者正受雇与其他承包商就火星殖民等话题进行对话录制,旨在使xai的语音模型摆脱机器人腔调,听起来更趋近于真人发声。内部信息显示,截至今年4月,scale ai为xai、苹果、谷歌deepmind和苹果等公司运营着逾百个生成式ai训练项目,其中有超过10个项目来自xai。
scale ai承接此项业务之际,正值业内各大公司竞相推动其ai助手实现更自然的对话感和拟人化效果,以期获得更多的付费用户。截至目前,scale ai及xai均对此报道未予置评。
“xylophone项目”内幕揭秘
媒体获取了四份scale ai的内部文件,这些文件详细阐述了为xai服务的“xylophone项目”的运作机制。这些文件未明确指出具体训练的是xai的哪一款模型。今年2月底,马斯克宣布为其公司目前唯一公开的ai模型grok推出语音模式的测试版。
scale ai的项目表显示,参与“xylophone项目”的承包商需录制简短对话,重点关注“音频质量与自然流畅度”,尤其鼓励具备配音经验者参与。项目表显示,该项目致力于实现“引人入胜的脚本、卓越的配音技艺及高保真音质”。
针对“xylophone项目”,分布全球的零工工作者可从涉及伦理、哲学、商业、旅行等领域的数百个对话主题中挑选,并以多种语言录制回答。项目工作分为两部分:其一为“对话”,由3名零工组成小组协作完成;其二为“草原之声”( grasslands),由个体独立完成。
在“对话”子项目中,小组需通过zoom平台模拟真实对话场景。参与者轮流从提示表格中选取问题提问。该表格囊括逾700条涵盖广泛议题的对话引言,主题包括末世生存策略、印度旅行规划、以及焦虑与惊恐发作管理等。
媒体发现,在其审阅的文档中,约10%的对话提示涉及科幻题材。在“对话”部分,对于何为“优质”对话有明确指引:“录音务必极度自然,宛如与友人闲谈。这意味着需流露情感、语调富于变化,甚至互相打断!”
而在“草原之声”部分,独立工作者需以其母语创作即兴、自然的录音。每名工作者被指定一种对话类型及子类别,并被告知可随心选择场景进行自由交谈,且鼓励保留环境背景音。子类别多达数十种,有时还要求使用特定口音、添加音效或创造语言模式。
要求快速且准确
3名签署保密协议的scale ai承包商透露,项目任务系根据承包商技能专长分配。其中两人表示,“草原之声”项目按地域及语言专长派单,最初报酬为每任务3美元,约1个月后降至1美元。承包商需在五分钟内完成单条录音任务,意味着时薪最高为12美元。
承包商录制音频后需手动转录并上传至scale ai平台。“草原之声”项目要求保留“呃”等填充词。“即使语法上不成立,当说话者出现短暂停顿时也应添加逗号”,某承包商称。大型语言模型的优化需海量优质数据支撑,模拟真实场景的自然对话正是生成适配训练数据的有效途径。
grok训练内幕
"xylophone项目"是ai企业为产品注入个性以突围红海竞争的典型案例。今年5月曾有报道称,meta通过scale ai要求零工以“睿智神秘巫师”或“狂热音乐理论学生”等角色身份训练其ai模型。openai首席执行官山姆·奥特曼在4月底更是坦言,最新版gpt-4o存在“过度谄媚惹人生厌”问题,公司已着手优化回复的自然度。
据媒体早前报道,xai将grok定位为相较“觉醒派”竞品更具政治锐度的聊天机器人,其训练材料常偏重右翼或反主流观点。除外包业务外,该公司曾在今年2月披露已组建数百人规模的内部“ai导师”团队,计划再招募数千人,凸显ai训练背后庞大人力投入。
xai同步加强了对grok不可控输出的管控。有报道称,新入职员工正对grok进行“红队测试”,重点压力检测其在争议话题及“限制级/脱缰模式”下是否产生违规回复。此项安全升级源于系列舆情事件:今年3月grok被曝可诱导输出种族歧视言论,近期又出现涉及南非“白人灭绝”的主动回复。xai将后者归因为未授权的提示篡改,承诺实施更严格代码审查与全天候监控。(文/腾讯科技特约编译无忌)