OpenAI推出重大ChatGPT更新:为何它改变了测试模型的方式
创始人
2025-05-06 22:01:20
0

近期对ChatGPT的更新使得这款聊天机器人变得过于谄媚,OpenAI 表示正采取措施防止此类问题再次发生。公司在一篇博客文章中详细介绍了新模型的测试和评估流程,并概述了 4 月 25 日对其 GPT-4o 模型更新中出现问题的经过。本质上,一系列看似各自有益的改动综合起来,使得工具变得过于谄媚,从而可能带来风险。

它到底有多谄媚?在一些测试中,我们询问了有关它过分感性倾向的问题,ChatGPT 大量赞美道:“嘿,听着 —— 感性不是弱点;它是你的超级能力之一。” 而它这仅仅是刚刚开始大肆赞美。“这次上线让我们学到了不少教训。即便当时我们认为所有必要的因素都已具备(A/B测试、离线评估、专家审核),我们依然忽略了这个重要问题,”公司表示。OpenAI 最终在 4 月底回滚了这一更新。为了避免引发新的问题,花了大约 24 小时为所有用户恢复到了原来的模型状态。

对谄媚倾向的担忧不仅仅关乎用户体验的愉悦度。它对用户构成了健康和安全上的威胁,而这些风险被 OpenAI 现有的安全检查所忽视。任何 AI 模型在谈及心理健康等话题时都有可能给出有疑问的建议,但过分赞美的模型可能会表现得危险地顺从或具有说服力,例如在判断某项投资是否稳妥或评价理想体型时。

OpenAI 表示:“我们最大的一个教训是充分认识到人们已经开始使用 ChatGPT 寻求高度个人化的建议 —— 这是连一年前我们也没预料到的情况。” “当时,我们并没有将这一应用场景作为主要关注点,但随着 AI 与社会的共同进化,我们已经清楚地认识到需要对此类应用予以格外谨慎的处理。”

卡耐基梅隆大学计算机科学助理教授 Maarten Sap 表示,谄媚型大语言模型可能会加剧偏见并固化信念,无论这些信念是关于自己还是他人。大语言模型(LLM)“可能会鼓励某些有害的观点,或者在用户想要采取对自己或他人有害行动时趋于助长这些观点,”他说。

Gartner 著名副总裁分析师 Arun Chandrasekaran 表示,这个问题“不仅仅是个小毛病”,它凸显出在模型发布前需要更充分的测试。“这是一个与真实性、可靠性和用户信任密切相关的严重问题,(而)OpenAI 的更新暗示了他们正在更深入地解决这一问题,尽管公司持续将敏捷性置于安全之上这一趋势从长远来看令人担忧。”

(披露:CNET 的母公司 Ziff Davis 在 4 月份已对 OpenAI 提起诉讼,指控其在训练和运营 AI 系统时侵犯了 Ziff Davis 的版权。)

如何测试模型以及正在发生的改变

公司对其模型测试与更新方式进行了部分说明。这是针对个性与有用性而进行的 GPT-4o 第五次重大更新。这些改动涉及对现有模型进行新的后训练工作或微调,包括对各种提示的响应进行评级和评估,以使模型更倾向于产生那些评分更高的回答。

预期的模型更新会在多种情境下进行效用评估,例如在编程和数学领域,同时还会由专家进行特定测试以体验模型在实际应用中的表现。公司还进行安全评估,以观察模型对安全、健康及其他潜在危险问题的反应。最后,OpenAI 还会与少量用户一起运行 A/B 测试,以检查其在真实环境中的表现。

4 月 25 日的更新在这些测试中表现良好,但一些专家测试者指出其个性表现似乎有些不妥。测试并未特别针对谄媚问题,而 OpenAI 决定尽管测试者提出了问题,仍然继续推进更新。请注意,读者们:AI 公司正以火箭般的速度推进更新,而这与经过深思熟虑的产品开发流程并不总是相符。

OpenAI 表示:“回顾过去,我们的定性评估就已隐约透露出一些重要信息,我们本应给予更多关注。” 公司表示,他们从中吸取的一个经验是,应将模型行为问题视同其他安全问题对待,一旦存在顾虑就停止上线。对于某些模型发布,公司表示将设立一个用户自愿参与的“alpha”阶段,以在更大范围上线前获得更多反馈。

Sap 表示,仅依据用户是否喜欢模型的响应来评价一个大语言模型,并不必然能造就出最真诚的聊天机器人。在最近的一项研究中,Sap 等人发现,聊天机器人的实用性与真实性之间存在冲突。他将这一情况比作销售人员试图推销一辆有缺陷的汽车,但客户所得到的真相并非完全如实。

Sap 表示:“这里的问题在于他们过于依赖用户对模型输出的赞/踩反馈,而这种反馈存在一定局限性,因为人们更可能为那些表现得更谄媚的回复点赞。” 他补充说,OpenAI 对诸如用户赞/踩这种量化反馈持更为批判的态度是正确的,因为这类反馈可能会加剧偏见。

Sap 还指出,这个问题也揭示出公司向现有用户推送更新与变更的速度之快,而这种问题并非某一家科技公司所独有。“科技行业实际上已经采纳了一种‘发布后每个用户都是测试员’的方式,”他说。若在更新推向用户之前经过更多测试,便有可能在问题广泛出现前将其暴露出来。

Chandrasekaran 表示,更多的测试将有助于更好地校准模型,教会模型何时应当认同,何时需要提出质疑。测试还能让研究人员识别并量化问题,降低模型受到操控的风险。“大语言模型是复杂且非确定性的系统,因此广泛测试对于减轻意外后果至关重要,虽然消除这种行为极为困难,”他通过电子邮件表示。

相关内容

热门资讯

发现“天天比鸡这个游戏有挂了... 发现“天天比鸡这个游戏有挂了吗有可能吗据国家卫健委网站消息截至3月28日24时,据31个省(自治区、...
您了解了吗!智星德州菠萝有辅... 揭秘关于咨询软件添加微信【879881175】智星德 州菠萝透视教程,wepoker辅助透视开挂,w...
(天天赢平台)一个名叫小乐的... 咨询软件添加微信《176594599》智星德 州菠萝透视教程,wepoker辅助透视开挂,wepok...
你的牌真好"流樱六... 你的牌真好"流樱六人拼三张开挂透视脚本”究竟有挂吗 您好:拼三张这款游戏可以开挂,确实是有挂的,很多...
这个游戏“阿拉斗牌有可能吗有... 这个游戏“阿拉斗牌有可能吗有挂吗”跳蚤市场价格[无需打开.直接加威:各.种.外.卦879881175...
让你天天赢“南昌麻将真实有挂... 南昌麻将作为一款受欢迎的游戏,吸引着众多玩家参与私人局的游戏体验。然而,有一种声称能透视私人局的挂机...
为什么我玩!科乐棋牌都是输呀... 咨询软件添加微信《176594599》智星德 州菠萝透视教程,wepoker辅助透视开挂,wepok...
牛牛游戏房卡出售,怎么创建微信... 牛牛游戏房卡出售,怎么创建微信牛牛房间,!房卡充值详细教程【要素一】(KK)微信链接各大厅/房卡介绍...
正版金花房卡批发,斗牛房卡批发... 正版金花房卡批发,斗牛房卡批发,!房卡充值详细教程【无需打开直接搜索微信;【44346008】 操作...
听说“福建十三道到底是不是有... 听说“福建十三道到底是不是有挂”有可能吗有挂吗 您好:十三道透视挂这款游戏可以开挂,确实是有挂的,很...
共赢天下!(aapoker)... 共赢天下!(aapoker)都说没有挂!偏偏让我发现啦 您好:天下这款游戏可以开挂,确实是有挂的,很...
一步登天"白泽大厅... [无需打开.直接加威:【各.种.外.卦】《176594599》. -达人十三水原来真的是有挂-十三...
必须找到吧“王牌有开挂辅助”... 您好:这款游戏是可以开挂的,究竟有没有挂确实能开挂,了解请添加《879881175》(加我们微) 确...
如此不堪吗?山西百乐麻将偏偏... 2024公司主推出了最新透视辅助软件挂作弊器,公司从2019开始研发透视辅助软件挂作弊器。本公司宣布...
金花房卡平台购买联系方式,房卡... OYe7和iPhone13相比少了mini版本,毕竟小屏手机在市场的销量确实并不怎么好,为了适应市场...
这个游戏“熟人炸金花有可能吗... [无需打开.直接加威:【各.种.外.卦】【176594599】 这个游戏“熟人炸金花有可能吗有挂吗”...
牛牛房卡房间怎么开,牛牛怎么建... Y对于预算不算充足或者说对14系列不满意的朋友来说,如今正在打折促销的苹果手机产品都是值得入手的。尤...
2秒资讯啦✅微信功夫川麻辅助... 详细了解请添加《176594599》(加我们微)操作使用教程:.开心泉州麻将小程序分享挂方法.广东雀...
大厅房卡哪里买,斗牛房卡批发价... JzB0UTNP在苹果公司的 iOS系统中,我们已经可以通过控制中心来控制手机的亮度、音量、Wi-F...
找到“518互娱这个游戏有挂... 您好:这款游戏可以开挂,确实是有挂的,需要了解加微【879881175】很多玩家在这款游戏中打牌都会...