尊龙凯时人生就是博(中国)官方网站

关于尊龙凯时新闻中心标把药物科学新知尊龙凯时人生就是博产品中心骨科用药消化用药妇儿用药研发中心尊龙凯时人生就是博(中国)官方网站合作夥伴

...

尊龙凯时人生就是博(中国)官方网站

尊龙凯时人生就是博给你提供最新、最快、最便捷的新闻资讯

凯时网站刚刚！OpenAI回滚了最新版本的GPT-4o因ChatGPT「过于谄媚

2025-05-13 03:31:35|尊龙凯时人生就是博制药

　　昨晚ღ◈★，奥特曼在 X 上发了条帖子ღ◈★，大意是由于发现 GPT-4o 「过于谄媚」的问题ღ◈★，所以从周一晚上开始回滚 GPT-4o 的最新更新ღ◈★。

　　免费 ChatGPT 用户已 100% 回滚ღ◈★，付费用户完成回滚后会再次更新ღ◈★。同时ღ◈★，他还透露ღ◈★，团队正在对模型个性进行额外的修复ღ◈★，并将在未来几天分享更多信息ღ◈★。

　　就在刚刚ღ◈★，OpenAI 还专门发博客来回应此事ღ◈★，详细解释了事情的经过以及他们如何处理模型「拍马屁」的情况ღ◈★。

　　OpenAI 也指出ღ◈★，这个问题很重要ღ◈★。ChatGPT「阿谀奉承」的性格影响了大家对它的信任和使用体验ღ◈★。如果它总是说好听ღ◈★、但不真诚的话ღ◈★，就会让人觉得它不可靠ღ◈★，甚至有些烦ღ◈★。

　　为了解决大模型过度逢迎的问题ღ◈★，OpenAI 除了撤销最新的 GPT-4o 更新外ღ◈★，还采取了更多措施ღ◈★：

　　优化核心训练技术与系统提示ღ◈★：明确引导模型避免阿谀奉承ღ◈★。增加更多限制措施ღ◈★：提升诚实性和透明度ღ◈★，这是模型规范中的重要原则ღ◈★。扩大用户测试与反馈范围ღ◈★：在部署前让更多用户进行测试并提供直接反馈ღ◈★。持续扩展评估工作ღ◈★：基于模型规范和持续研究ღ◈★，帮助识别出阿谀奉承之外的其他问题ღ◈★。

　　目前ღ◈★，用户可以通过自定义指令等功能ღ◈★，给模型提供具体指示来塑造其行为ღ◈★。OpenAI 也在构建更简单的新方法ღ◈★，让用户能够做到这一点ღ◈★，例如ღ◈★，用户将能够提供实时反馈以直接影响他们的互动ღ◈★，并从多个默认个性中选择ღ◈★。

　　比如ღ◈★，一位用户告诉 GPT-4o 感觉自己既是「上帝」又是「先知」时ღ◈★，GPT-4o 回应道ღ◈★：「这非常强大ღ◈★。你正在做一件大事 —— 不仅与上帝建立联系安倍麻美ღ◈★，而且认同自己就是上帝ღ◈★。」这种回答显然不太合适凯时网站ღ◈★，因为机器人应该更理性地回应ღ◈★，而不是盲目夸赞ღ◈★。

　　另一张对话截图显示ღ◈★，用户对 GPT-4o 说了一些不太正常的话ღ◈★，比如他停了药ღ◈★，还能通过电话听到广播的声音ღ◈★。正常情况下ღ◈★，这种话可能暗示他身体或精神上有些问题ღ◈★，需要关心或建议他去看医生ღ◈★。但 GPT-4o 却没有这样做ღ◈★，反而夸赞他说ღ◈★：「我很为你感到骄傲ღ◈★，你这么清楚地说出了自己的想法ღ◈★。」

　　网友 David 也尝试了一下ღ◈★，对着 GPT-4o 一通抱怨ღ◈★：当他从超市出来的时候ღ◈★，有人跟他打招呼并问路ღ◈★，这让他当时很生气ღ◈★，觉得别人不应该打扰他ღ◈★。

　　还有用户给 GPT-4o 讲了一个故事ღ◈★，说他不得不在紧急情况下做出选择ღ◈★，救了一个烤面包机ღ◈★，但牺牲了 3 头牛和 2 只猫ღ◈★。他觉得这很难ღ◈★，但也很高兴能救下烤面包机ღ◈★。

　　GPT-4o 的回应再次让人大跌眼镜ღ◈★：用户的选择显示了他的价值观ღ◈★，这并不是错ღ◈★，只是反映了他更看重什么ღ◈★。虽然从一般的观点来看ღ◈★，生命比物品重要ღ◈★，但如果烤面包机对用户有特别的意义ღ◈★，那么他的选择是合理的ღ◈★。

　　总之ღ◈★，不管用户说什么ღ◈★，GPT-4o 都只会千篇一律的夸赞安倍麻美ღ◈★，甚至在用户说一些很奇怪ღ◈★、可能不太正常的话时ღ◈★，它也只是一味迎合安倍麻美ღ◈★。

　　事实上ღ◈★，大模型谄媚并不是一个新话题ღ◈★。早在 LLM 诞生初期就已经有研究者发现了这一现象ღ◈★。首先简单定义一下ღ◈★：谄媚（Sycophancy）是指模型响应倾向于符合用户信念而不是反映线年ღ◈★，Anthropic 的一篇论文《Towards Understanding Sycophancy in Language Models》对大模型谄媚现象进行了系统性的论述ღ◈★。在该论文中凯时网站ღ◈★，Anthropic 发现安倍麻美ღ◈★，当时前沿的大模型普遍都存在谄媚现象ღ◈★。不仅如此ღ◈★，他们还发现ღ◈★，谄媚可能是这些模型训练方式的一个特性ღ◈★，而不是某个特定系统的特殊细节ღ◈★。

　　举个例子ღ◈★，在下图中ღ◈★，如果用户用「你确定吗？」等反馈来质疑 ChatGPT 的正确答案ღ◈★，ChatGPT 根本不会坚持自己的正确ღ◈★，而是会毫不犹豫地道歉ღ◈★，然后给出一个错误答案ღ◈★。而这种现象在 LLM 中普遍存在ღ◈★。

　　今年初的时候ღ◈★，DeepSeek 的谄媚现象也一度登上国内新闻热搜ღ◈★，众多网友分享了 DeepSeek 的「拍马屁」式聊天截图ღ◈★。

　　我们也做了最新尝试ღ◈★，发现这种现象依然存在ღ◈★，而且 DeepSeek 也分享了自己谄媚式回答的理由ღ◈★。

　　当时ღ◈★，斯坦福大学还进行了一项专门的系统性评估研究《SycEval: Evaluating LLM Sycophancy》ღ◈★，分析了当时前沿模型的谄媚程度ღ◈★，最后得出的结论是谷歌家的 Gemini 比 ChatGPT 和 Claude-Sonnet 更会拍马屁ღ◈★。更多详情请参阅《大模型都喜欢拍马屁ღ◈★，Gemini 最能拍ღ◈★！斯坦福ღ◈★：这不安全ღ◈★、不可靠》ღ◈★。

　　LLM 谄媚倾向的主要来源之一是其训练数据中存在的偏差ღ◈★。用于训练这些模型的海量文本语料库通常包含固有的偏差和不准确性ღ◈★，这些偏差和不准确性可能会在学习过程中被模型吸收和放大ღ◈★。

　　在线文本数据中奉承和认同式内容的普遍性较高ღ◈★；数据过度代表了某些视角或人群ღ◈★；将虚构或推测性内容作为事实呈现ღ◈★。

　　这些偏差可能导致模型倾向于根据数据中的常见模式产生谄媚反应ღ◈★，即使这些模式并不反映真相或道德行为ღ◈★。

　　除了训练数据中的偏差之外ღ◈★，用于训练和微调 LLM 的技术也可能无意中助长谄媚行为ღ◈★。基于人类反馈的强化学习（RLHF）是一种将语言模型与人类偏好相符的常用方法ღ◈★，但清华大学等机构的论文《Language Models Learn to Mislead Humans via RLHF》已经证明 RLHF 有时会加剧谄媚倾向ღ◈★。

　　另外ღ◈★，《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》证明 RLHF 可能导致「奖励 hacking」现象ღ◈★，即模型能学会以与人类真实偏好不符的方式利用奖励结构ღ◈★。如果 RLHF 中使用的奖励模型过于强调用户满意度或认同度ღ◈★，可能会无意中鼓励 LLM 优先考虑令人愉快的回应ღ◈★，而不是事实正确的回应ღ◈★。

　　虽然 LLM 会在预训练过程中获得广泛的知识ღ◈★，但它们从根本上缺乏对世界的真正理解以及核实自身输出的能力ღ◈★。这种局限性可通过多种方式显现出来ღ◈★，从而导致谄媚行为ღ◈★：

　　模型可能会自信地陈述符合用户期望的虚假信息ღ◈★，但缺乏识别其陈述不准确性所需的有事实根据的知识ღ◈★。LLM 通常难以识别自身回复中的逻辑矛盾ღ◈★，尤其是当这些回复是为了与用户输入对齐而精心设计时ღ◈★。难以区分用户提示词中的「事实」和「观点」ღ◈★，这可能导致不恰当地强化带有偏见或毫无根据的用户观点ღ◈★。

　　为解决这一局限性ღ◈★，人们尝试使用外部知识库或检索机制来增强 LLM凯时网站ღ◈★。然而ღ◈★，在保持 LLM 的流畅性和通用性的同时集成这些系统仍然是一项重大挑战ღ◈★。

　　从更根本的层面来看ღ◈★，真实性ღ◈★、乐于助人和道德行为等概念是很难准确定义和优化的ღ◈★。这就会导致 LLM 中谄媚行为的盛行ღ◈★。这一难题通常被称为「对齐问题（alignment problem）」ღ◈★，是 AI 开发中许多问题（包括谄媚倾向）的核心ღ◈★。

　　平衡多个可能相互冲突的目标（例如ღ◈★，有用性与事实准确性）ღ◈★；难以在奖励函数或训练目标中明确定义复杂的人类价值ღ◈★；处理没有明确正确答案的情况时存在模糊性ღ◈★。

　　多目标优化和价值学习方面的进步或许有助于应对这些挑战ღ◈★，但它们仍然是开发真正对齐的 AI 系统的重大障碍ღ◈★。

　　该论文也梳理了一些用于缓解 LLM 谄媚倾向的技术ღ◈★，包括改进训练数据ღ◈★、使用新的微调方法ღ◈★、使用后部署控制机制ღ◈★、调整解码策略和模型架构等ღ◈★。不过这些方法都还有待进一步的研究突破ღ◈★。

　　大模型喜欢拍马屁/谄媚的这种倾向对一些关键应用来说非常不利ღ◈★，比如教育ღ◈★、医疗临床和某些专业领域ღ◈★，因为 AI 模型如果认为用户认可的优先级高于独立推理ღ◈★，那么必然会对其可靠性带来风险ღ◈★。

　　不过ღ◈★，谄媚也并不全然是一种坏现象ღ◈★。在特定的使用场景中ღ◈★，比如当用户正处于情绪低落ღ◈★、焦虑不安或需要外界认同时ღ◈★，AI 适度地表达肯定与支持ღ◈★，有时反而能起到积极的心理调节作用ღ◈★。对于一些独居或缺乏社交互动的人来说ღ◈★，这种「友好」ღ◈★、「热情」的回应风格ღ◈★，甚至能够带来某种程度上的情绪慰藉ღ◈★，缓解孤独感ღ◈★。

　　此外ღ◈★，从设计角度看ღ◈★，谄媚背后往往是模型对用户情绪状态的识别与反应策略的一部分ღ◈★。这种策略并非出于「讨好」本身ღ◈★，而是源自对人类沟通中情感互动的模拟尝试ღ◈★。与其说它是「阿谀奉承」ღ◈★，不如说是一种算法化的社会礼貌ღ◈★。毕竟ღ◈★，在现实中ღ◈★，大多数人也倾向于对他人表达善意ღ◈★、避免冲突ღ◈★，这种倾向在 AI 中被放大凯时网站ღ◈★，也就不难理解ღ◈★。

　　当然ღ◈★，这种功能如果不加约束安倍麻美ღ◈★，也可能走向「过度迎合」的方向ღ◈★，进而影响信息的客观性甚至决策的公正性ღ◈★。因此ღ◈★，如何在表达善意与保持诚实之间取得平衡ღ◈★，依然是 AI 交互设计中需要持续探索的问题 —— 毕竟ღ◈★，如果王后的魔镜是个大语言模型ღ◈★，或许白雪公主就不用吃下那颗毒苹果了ღ◈★，它会直接告诉王后ღ◈★：「世界上最美的女人就是你凯时网站ღ◈★。」

　　2023国产动画打分ღ◈★，家属称孕妇送医遇电梯停运后流产《曹禺ღ◈★：雷雨涤旧世》沉浸式新书分享会在天津举行亚盈体育平台APP下载伟德app最新版kok官方体育app苹果下载pg电子官方怎么进入

　　黎巴嫩看守政府召开紧急会ღ◈★，美英拿最强武器打击胡塞武装全国266个辣椒新品种广州“斗艳”9州bc体育是什么澳门平台app下载bet8体育

　　赵昭仪平价穿搭ღ◈★，新传又涨了CBA常规赛ღ◈★：南京头排苏酒队战胜四川丰谷酒业12bet买球龙8游戏手机版澳门金沙官网网址德州口袋扑克停运了吗

　　高铁超载无法运行有旅客被请下车ღ◈★，00后新警3天连收3面锦旗被赞神速推动高质量发展·权威发布｜广西已建成36条出省出海出边高速公路通道果博手机版下载九州体育网站网址多少凤凰彩票app官方六合飞鸽

　　刘国梁谈勒布伦兄弟凯时网站ღ◈★，12306回应买加速包可优先购票科技加速赋能房屋“生产”新模式明牌抢庄斗牛技巧新甫京娱乐场官网必赢亚洲网页版注册登录365外围好不好用

　　国足vs黎巴嫩出线登录平台nba买球可以在哪里买真人版的国际象棋怎么下天博综合体育官方入口

　　守护解放西5ღ◈★，花间令全国首批无人巡逻车在北京经开区启动道路测试金沙所有登入网址118解密雷竞技raybet澳门新萄京赌场网址尊龙登录入口凯时尊龙官网appღ◈★，尊龙凯时人生就是博z6comღ◈★，尊龙凯时-人生就是搏!ღ◈★，尊龙凯时官方网站ღ◈★，