苹果研究破解 AI“英语口音”难题,提升多语言自然性
作者:五福软件园时间:2025-05-18 19:19:12
本站 5 月 17 日消息,苹果与多国高校及研究院联合发布最新成果,揭示了大语言模型存在的“英语思维定式”问题,并提出创新解决方案。本站注意到,科研人员中不乏中国学者的存在。
研究人员针对非英语语种输出中普遍存在的语法与词汇偏差问题展开了深度剖析,测试覆盖中文、法语、英语(基于维基百科)语料。
测试发现,即使专为中文优化的 Qwen 模型,其母语表现仍落后人类水平;Meta 的 Llama 3.1 综合表现最佳,但自然度仍存在显著差距;所有模型在非英语输出中均残留英语语法结构。
换句话说,即使模型在用中文或法语进行对话,但它仍在用英语进行“思考”,而且非英语输出仍然遵循类似英语的语法和词汇模式。
针对大语言模型的遣词造句,研究团队提出两项量化指标:
https://arxiv.org/abs/2410.15956
词汇自然性(Lexical Naturalness):评估 LLM 用词是否符合母语习惯
句法自然性(Syntactic Naturalness):检验 LLM 语句是否贴合本土语法
为了缩小差距,研究人员通过“回译法”自动生成训练样本,将人工撰写的流畅中文内容先翻译成英文,再逆向翻译成带有 "翻译腔" 的“反面”样本。利用这类对比数据训练模型加强自然表达能力,在保持基准性能的前提下显著改善语言输出质量。
论文地址:
相关文章
-
苹果研究破解 AI“英语口音”难题,提升多语言自然性
本站 5 月 17 日消息,苹果与多国高校及研究院联合发布最新成果,揭示了大语言模型存在的“英语思维定式”问题,并提出创新解决方案。本站注意到,科研人员中不乏中国学者的存在。研究人员针对非英语语种输出
-
上海:到 2027 年完成部署 5G 基站超 12 万个,5G-A 基站超 3 万个
本站 5 月 16 日消息,《上海市通信管理局关于推动本市基础电信企业高质量发展的指导意见(2025—2027 年)》今日发布,本站从中获悉,上海市通信管理局将推进七个方面、20 条举措,为巩固提升信
-
开鸿 BotBook 笔记本、BotMini 主机发布:预装开源鸿蒙 KaihongOS,售价 6999 元起
感谢本站网友 软媒新友2071036 的线索投递! 本站 5 月 15 日消息,深开鸿今日发布了开鸿 BotBook 笔记本、BotMini 主机产品,限
-
中国科学院国家天文台成功构建嫦娥六号着陆区高精度地形数据集
感谢本站网友 独爱依兰 的线索投递! 本站 5 月 14 日消息,嫦娥六号于 2024 年 6 月 2 日成功着陆在月球背面南极-艾特肯盆地 (SPA)
-
日本将谷歌、TikTok、雅虎等纳入监管,要求科技公司加大打击有害信息力度
本站 5 月 2 日消息,日本总务省于 4 月 30 日宣布,已将 Meta、X、TikTok 等五家公司纳入《信息流通平台对策法》的监管范围。该法律要求平台加快处理非法或有害内容的删除请求,并提高平
-
大众今年 Q1 净利大幅下滑,纯电车型销量暴增带来“甜蜜负担”
本站 5 月 2 日消息,大众集团 2025 年第一季度税后利润大幅下滑 40 6%,降至 21 8 亿欧元(本站注:现汇率约合 179 34 亿元人民币)。乍看之下可能会以为“销量疲软”,但实际上交