蘋果研究破解AI「英語口音」難題,提升多語言自然性

2025年05月17日07:12:02 教育 1436

IT之家 5 月 17 日消息,蘋果與多國高校及研究院聯合發佈最新成果,揭示了大語言模型存在的「英語思維定式」問題,並提出創新解決方案。IT之家注意到,科研人員中不乏中國學者的存在。

蘋果研究破解AI「英語口音」難題,提升多語言自然性 - 天天要聞

研究人員針對非英語語種輸出中普遍存在的語法與詞彙偏差問題展開了深度剖析,測試覆蓋中文、法語、英語(基於維基百科)語料。

測試發現,即使專為中文優化的 Qwen 模型,其母語表現仍落後人類水平;Meta 的 Llama 3.1 綜合表現最佳,但自然度仍存在顯著差距;所有模型在非英語輸出中均殘留英語語法結構。

換句話說,即使模型在用中文或法語進行對話,但它仍在用英語進行「思考」,而且非英語輸出仍然遵循類似英語的語法和詞彙模式。

蘋果研究破解AI「英語口音」難題,提升多語言自然性 - 天天要聞

針對大語言模型的遣詞造句,研究團隊提出兩項量化指標:

  • 詞彙自然性(Lexical Naturalness):評估 LLM 用詞是否符合母語習慣

  • 句法自然性(Syntactic Naturalness):檢驗 LLM 語句是否貼合本土語法

為了縮小差距,研究人員通過「回譯法」自動生成訓練樣本,將人工撰寫的流暢中文內容先翻譯成英文,再逆向翻譯成帶有 "翻譯腔" 的「反面」樣本。利用這類對比數據訓練模型加強自然表達能力,在保持基準性能的前提下顯著改善語言輸出質量。

論文地址:

  • https://arxiv.org/abs/2410.15956

教育分類資訊推薦

2024年廣州民辦學校比2023年減少37所 - 天天要聞

2024年廣州民辦學校比2023年減少37所

南都訊 記者楊曉彤 7月1日,廣州市教育局發佈《2024年廣州市教育事業發展統計公報》。根據2024年廣州市教育事業統計數據結果顯示,全市共有各級各類學校3895所,在校生302.03萬人,專任教師19.24萬人。學前教育2024年在園幼兒同比下降8.11%2024年,全市共有幼兒園2224所。比上年減少22所,下降0.98%。其中,普惠性幼兒園18...
10點不到,全部賣空!今天正式回歸:很多人直呼去晚了 - 天天要聞

10點不到,全部賣空!今天正式回歸:很多人直呼去晚了

「就等這一口!」經過4個月的禁漁期,杭州「老饕」們期待許久的第一口江鮮於今天正式「上岸」。今早7點多,位於上城區九堡沿江的楊公漁碼頭的「楊公魚市」人頭攢動。刀魚、翹嘴、包頭魚、江鰻……你在魚市能見到的,都是供不應求的「搶手貨」。「五點多,第一網就捕上來了,馬上就賣完了,很多老客一大早就在這裡等着的……...
司法部發佈《行政複議工作白皮書(2024)》 - 天天要聞

司法部發佈《行政複議工作白皮書(2024)》

6月30日,司法部發佈《行政複議工作白皮書(2024)》(下稱「白皮書」)。白皮書從行政複議在全面依法治國工作布局中的地位、吸納行政爭議作用發揮、通過調解和解實質化解行政爭議、監督依法行政、服務企業高質量發展、配套制度機制建設、基礎能力建設等七個方面對2024年行政複議工作進行了梳理分析,全面總結各地、各部門...
讀完本科讀大專?河南一高職院校已多年招收本科生 - 天天要聞

讀完本科讀大專?河南一高職院校已多年招收本科生

「先上本科後大專?以為是玩梗,沒想到竟然是真的!」近日,鄭州鐵路職業技術學院2025年單獨考試招生章程中,多個專業備註招生的對象是本科畢業生,引起了網民關注。「專升本」一時成為網絡熱門話題。大皖新聞記者注意到,該校已經連續多年招收本科畢業生,人數和專業數逐步增加。7月1日,鄭州鐵路職業技術學院一位工作人員...