蘋果研究破解AI“英語口音”難題,提升多語言自然性

IT之家 5 月 17 日消息,蘋果與多國高校及研究院聯合發布最新成果,揭示了大語言模型存在的“英語思維定式”問題,並提出創新解決方案。IT之家注意到,科研人員中不乏中國學者的存在。

研究人員針對非英語語種輸出中普遍存在的語法與詞彙偏差問題展開了深度剖析,測試覆蓋中文、法語、英語(基於維基百科)語料。

測試發現,即使專為中文優化的 Qwen 模型,其母語表現仍落後人類水平;Meta 的 Llama 3.1 綜合表現最佳,但自然度仍存在顯著差距;所有模型在非英語輸出中均殘留英語語法結構。

換句話說,即使模型在用中文或法語進行對話,但它仍在用英語進行“思考”,而且非英語輸出仍然遵循類似英語的語法和詞彙模式。

針對大語言模型的遣詞造句,研究團隊提出兩項量化指標:

  • 詞彙自然性(Lexical Naturalness):評估 LLM 用詞是否符合母語習慣

  • 句法自然性(Syntactic Naturalness):檢驗 LLM 語句是否貼合本土語法

為了縮小差距,研究人員通過“回譯法”自動生成訓練樣本,將人工撰寫的流暢中文內容先翻譯成英文,再逆向翻譯成帶有 "翻譯腔" 的“反面”樣本。利用這類對比數據訓練模型加強自然表達能力,在保持基準性能的前提下顯著改善語言輸出質量。

論文地址:

  • https://arxiv.org/abs/2410.15956