新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几
作者:五福软件园时间:2025-05-22 12:46:14
本站 5 月 17 日消息,根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错成绩,但在日常生活中最基础的“看钟”“算日子”这类事情上,却频繁出错 —— 要么读不准指针位置,要么算不出星期几。
研究人员在 2025 年“国际学习表征会议”( ICLR )上介绍了这项发现,有关的论文已经在 arXiv 上发布,目前尚未通过同行评审。
爱丁堡大学研究员、论文作者 Rohit Saxena 表示:“人类从小就能掌握时间与日历概念,而 AI 在这方面的不足,是一个值得警惕的信号。”他指出,若要将 AI 应用于现实生活中对时间敏感的场景,比如排班、自动化流程或辅助技术,这类基本能力的缺陷必须解决。
研究团队向多个具备图文处理能力大语言模型的输入了一组专门制作的时钟与日历图像,受测模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。测试结果显示,这些模型在判断时钟时间或推算日期星期的任务上,正确率都未超过一半。
Saxena 表示:“过去的 AI 训练依赖大量带标签的例子,而读时钟需要的是空间推理。模型不仅要识别指针是否重叠,还要理解角度、分辨各种风格的表盘,比如罗马数字或艺术化设计。这远比单纯识别‘这是一个时钟’更复杂。”
日历问题同样难住了 AI。例如在“每年第 153 天是星期几”这类问题上,错误率依然居高不下。研究显示,AI 读时钟的正确率仅为 38.7%,判断日历的准确率更低,只有 26.3%。
Saxena 解释道:“对传统计算机来说,算术轻而易举,但对大模型而言则不然。AI 并不执行算法,而是依靠从训练数据中学到的模式来预测答案。”他指出,虽然 AI 有时能答对问题,但其推理过程缺乏一致性,也不基于固定规则,这正是研究所揭示的差距。
研究还揭示了另一个问题,即当 AI 的训练样本缺乏某类现象时,比如闰年或复杂的日历规则,其表现往往更差。Saxena 表示:“即使模型了解‘闰年’这一概念,也不代表它们能将这个知识正确应用到具体的视觉判断中。”
本站从报道中获悉,研究强调了两个方面的改进方向:一是训练数据应包含更多具有代表性的示例;二是应重新审视 AI 如何整合逻辑推理与空间感知,尤其是在处理不常遇到的任务时。
相关文章
-
新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几
本站 5 月 17 日消息,根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错
-
新突破:湖南大学科研团队成功开发超低电压双极电化学海水提铀新技术
本站 5 月 16 日消息,铀作为核能的重要原料,对全球核工业的可持续性发展具有重要战略意义。近年来,核电规模的不断扩大推动了铀需求的显著增长,然而陆地上的铀矿资源储量有限,而海水中铀资源储存约 45
-
马斯克 4000 亿薪酬被推翻,特斯拉修改公司章程打压股东诉讼
北京时间 5 月 17 日,据彭博社报道,在埃隆・马斯克 (Elon Musk) 的天价薪酬被股东诉讼推翻后,特斯拉公司正采取措施防止未来再次出现此类情况。马斯克特斯拉在周五晚间披露,已修改公司章程,
-
小米 REDMI 平板 2 抢先看:11 英寸屏幕、9000mAh 电池、Helio G100 Ultra 芯片
本站 5 月 20 日消息,科技媒体 ytechb 昨日(5 月 19 日)发布博文,分享了 REDMI 平板 2 的渲染图、详细规格以及价格信息。颜色方面,该平板将以 Graphite Gray(石
-
英睿达发布 14.9 GB/s 的 T710 固态硬盘与 8TB 容量 X10 便携式 SSD
本站 5 月 20 日消息,美光英睿达在2025 台北国际电脑展(Computex 2025)上发布了新一代 PCIe 5 0 固态硬盘 T710 及 X10 系列便携式存储设备。其中 T710 凭借
-
科技昨夜今晨 0518:华为 Pura 80 下月发布;小米玄戒 O1 不仅仅用于手机;字节跳动被曝调整福利政策...
“科技昨夜今晨”时间,大家好,现在是 2025 年 5 月 18 日星期日,今天的重要科技资讯有:1、卢伟冰:搭载小米自研玄戒 O1 芯片的不仅仅是手机在 5 月 17 日晚的剧透直播活动中,小米集团