首页 > 科技活动 > 科技活动 > 微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

发布时间:2026-02-22 20:09:21

2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨”,而这种感觉如今有了科学依据。

据 Windows Central 今日报道,微软研究院与赛富时(Salesforce)联合发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的“智力”本身并未显著下降 —— 其核心能力仅降低约 15%—— 但“不可靠性”却飙升 112%。也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即便是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设(IT之家注:可能是指第一印象),模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。

其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为 0—— 这一常用于确保一致性的技巧 —— 对此类对话衰减几乎没有防护作用。

这一发现对当前 AI 行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。

目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

科技活动更多>>

2027款梅赛德斯-奔驰S级正式发布,搭载惊喜平曲轴V8发动机 加韩开展磋商 推动韩系车企在加拿大落地建厂 6G核心技术突破:三星联合KT完成7GHz频段X-MIMO技术验证,下行速率3Gbps AI时代的认知裂谷与K型分化:你是那1%吗? 中国汽车海外产销体系崛起:2025年海外销量破900万台 春晚机器人刷屏背后:中美差距不在算法,而在供应链试错成本 OpenAI硬件团队曝光:Jony Ive亲自带队,比苹果更苹果 微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112% 铃木拟将泰国工厂出售给福特 三菱帕杰罗2026款确认在泰国生产,计划于2026年底或2027年初全球发布 特斯拉Cybertruck首次在中东地区开启交付,阿联酋成首个海外交付市场 一体化智能底盘再迎新进展,时代智能与印尼IBC等签约战略合作 特斯拉逐步取消FSD一次性买断选项,Robotaxi车队新增多位置摄像头清洗装置 一汽-大众公布2026年计划:全年13款新车油电混共进 重塑30万级豪华越野,捷途纵横G700核心零部件配套供应商一览 2026奇瑞汽车AI之夜定档明晚:超级AI智能体、迅龙秒充即将登场 山东新规:电动车进楼入户将面临罚款 个人最高罚500元 Ericsson爱立信拟在总部所在地瑞典裁撤约1600个职位 首次国产芯片全程训练!智谱联合华为开源新模型登顶全球第一 奕境首款车型谍照曝光:华为乾崑与东风联手打造,计划2026年4月北京车展正式亮相 首次:智谱华为合作GLM-Image模型登顶Hugging Face Trending 首个月球酒店开放预订 计划2032年开业 去美国试了最新的特斯拉FSD+Grok,我有点被震惊了… 2026年上半年发布!极氪全新中大型SUV的官方谍照曝光 轴距再长42mm!新一代奥迪A6L实车曝光,预计1月15日正式亮相 哈基米豆浆带火九阳股价?抽象经济,年轻人为啥为热梗疯狂买单 过去的2025年,互联网为什么疯狂“买地”? 龙芯最新GPU:性能提升400%?但还是7年前Nvidia的水平 雷军等小米高管评论区被冲后!徐洁云回应投放大熊:向米粉道歉 铜价一吨超10万!“铝代铜”,一台空调成本省300多元,董明珠、雷军为何不用?