综述
小时候你有没有幻想过,自己可以像童话故事一样听懂动物的“语言”,自由自在地和各种动物实现交流?最近,谷歌的一项研究让幻想照进现实。AI模型“DolphinGemma”横空出世,成功破译了海豚的“语言”。
这个仅有400M大小的AI模型,能直接在谷歌Pixel设备上运行。DeepMind的CEO哈萨比斯透露,下一个要破解的目标就是狗。不过,这个海豚语言模型的"词汇量"究竟有多大?它真的能实现人类与海豚的跨物种对话吗?
AI如何听懂海豚
让AI理解海豚的“语言”,原理上和教会AI理解人类语言类似。就好比你打字时,输入法会猜测你下一个词是什么。谷歌的DolphinGemma也用了类似的逻辑,只不过它的学习对象是一连串海豚的哨声,短脉冲和嘶鸣。
通过持续的训练,DolphinGemma如同其他语言大模型学习人类语言那样,从海量的海豚发声数据中逐步摸索出了它们的"语法规则"。
这个模型的秘诀在于两大核心技术。第一是SoundStream音频分词器,它就像给声音配字幕的工具,能把海豚千变万化的叫声转化为计算机看得懂的信号,精准“拆解”它们的发声片段用以学习。
第二是基于序列预测的模型架构,它能分析这些声音碎片之间的关系,试着预测海豚一段“对话”中下一个可能出现的音节。当然,其规则要比输入法联想复杂得多。
训练模型的核心数据来自一个坚持了40年的研究项目:“野生海豚计划”(WDP)。自1985年起,这个非营利组织的科学家就在巴哈马群岛追踪一群大西洋斑点海豚,他们为每只海豚命名,记录活动轨迹,收集海量的水下音频资料并分析整理,用于研究。
例如,研究人员发现斑点海豚母亲会在幼崽觅食后,用特定的哨声序列呼唤它们回家。正是无数个这些声音与行为“配对”的案例,成了AI理解海豚世界的“启蒙教材”。
未来,这个仅400M大小,能在手机上运行的模型将随科学家潜入海底进行实时分析。届时研究人员只需一部手机,AI就能即时"翻译"海豚的交流内容,为海洋生物研究提供全新的技术支撑。
当前的局限性
虽然DolphinGemma的诞生是跨时代性的,但这并不代表人类真正地破译了海豚的语言。
举个简单例子:当一个人类妈妈对孩子说“回家吃饭”,这句话不仅传递了“要求回家”这个明确信息,还可能隐含担忧或催促的情绪信息。孩子回到家是吃红烧肉还是“皮带炒肉”,就隐藏在妈妈喊话的语气中。
科学家当下只是破解了海豚发出某段声音时,海豚在做什么或将要做什么的信息,简单将为关联了起来,至于海豚能否像人类一样结合声音创造抽象含义,比如在声音中融入情绪,是 “回忆昨天的潮水”还是“提醒远处有鲨鱼”,科学家仍一无所知。
为了向真正的“交流”迈进,谷歌和WDP正在努力教会海豚新的“语言”。团队开发了一套名为CHAT(鲸类动物听力增强遥感)的系统,它能发出人工合成的类似海豚声,每个声音对应特定物品,比如海藻,海草或人类戴的围巾。
比如,当研究者按下按钮,设备发出类似海豚声的同时,递上一把海草。研究者希望通过这种方式,教会海豚新的“单词”,海豚若能学会用同样的声音回应,就实现了原始的“语言教学”。
不过,当下技术仍面临一道天然门槛:海豚也有“方言”。DolphinGemma的训练数据全部来自巴哈马群岛的小型斑点海豚社群,但在其他海域的同类,可能会栖息环境不同演化出不同的发声方式,AI模型若没学过对应的“口音”,几乎不可能听懂。
为此,谷歌计划在今年夏季开源DolphinGemma,鼓励全球科学家上传不同海域的海豚声音数据,以丰富海豚语言的数据库。
AI跨物种潜力
你可能会好奇:为什么谷歌先盯上了海豚,而不是研究更常见的家养宠物猫或狗?这主要基于两个关键原因。
首先是海豚高超的的“语言天赋”,它们的交流方式几乎是动物中最接近我们人类的。海豚的发声需要靠鼻腔附近一对特殊组织振动,原理类似人类的声带发声;二是海豚有着堪比人类社会的复杂社会群落,成员会合作捕猎,照顾幼崽,甚至为去世的同伴哀鸣。
同时研究还发现,海豚能通过不同声音的组合来表达复杂意图,这与人类用句子传递信息的逻辑不谋而合。正是这种相似性让海豚成为突破口,但AI的潜力远不止于此。
比如CETI(鲸类翻译倡议)项目,专门用于抹香鲸研究。抹香鲸通过类似摩斯电码般,一连串的"哒哒"声来交流,该项目已收集了60多头抹香鲸的8000余条声音密码,正在解析其中的规律。
又比如另一个研究团队的“地球物种项目”,正在致力于利用AI,解码大象,白鲸,乌鸦等更多物种的语言,以实现跨物种交流。当然,最值得期待的还是DeepMind团队下一步计划。团队CEO哈萨比斯透露:“我想对话的下一个对象,就是我家的狗。”
相比海豚,狗与人类的互动更频繁,收集数据也更方便。如果某天手机上装个软件,就能看懂自家狗子扒门是想散步还是饿了,这场面想想大概就让无数宠物主人兴奋无比了。
结尾
或许未来某天,你戴着智能设备去海洋馆,不仅能看见海豚跃出水面的优美身姿,还能实时看到它们"对话"字幕:"日常打卡迎接两脚兽,好无聊!""我为什么不能和小美一个缸"...这样的场景是不是比科幻电影还带劲?
不过话说回来,动物语言被破译,是否会导致人类滥用这种能力?比如用虚假信号引诱鲸群靠近渔船,或是强制改变动物的行为。科技让我们离动物更近,在打开跨物种对话大门的同时,人类更要把握好这把"双刃剑",让科技来传递善意而非伤害。