ChatGPT、Gemini 和类似工具正越来越多地被用作健康顾问。像 "我头痛--可能是什么原因?"或 "我肩膀疼--我什么时候应该去看医生?"这样的问题现在对这些聊天机器人来说已经是家常便饭了。但麻省理工学院(MIT)的一项新研究表明,并非所有用户都能得到这些常见问题的相同答案。
该研究发表于 6 月 23 日,。题为"媒介即信息:非临床信息如何影响 LLMs 中的临床决策"的研究,探讨了语气、写作风格或格式等看似无关的因素如何影响人工智能系统给出的医疗建议。
为了衡量语言和风格对人工智能聊天机器人决策的影响程度,研究人员建立了一个 "扰动框架"。通过这一工具,他们可以创建同一医疗查询的不同版本--修改后包括不确定性、戏剧性措辞、错别字或大小写不一致等元素。然后,他们在四个大型语言模型上测试了这些变化:GPT-4、LLaMA-3-70B、LLaMA-3-8B 和 Palmyra-Med(一种专为医疗用途设计的模型)。
尤其受影响的是女性、非二元人群、非技术用户和非母语人士
麻省理工学院的研究结果很明显:一个人的书写方式会严重影响他们从人工智能聊天机器人那里获得的医疗建议。一些用户,根据他们的写作风格或语气,更有可能收到过于谨慎的建议。其中一个最显著的结果是:即使询问的医疗内容完全相同,女性也更常被告知要自己处理症状,或更少被建议去看医生。
写作时语气犹豫、语言简单或偶尔出现错别字的人似乎也处于劣势。这通常会影响到非专家、健康知识有限的人或语言能力较弱的人,尤其是母语非英语的人。
研究人员强调,在人工智能系统广泛应用于医疗保健领域之前,必须对其进行全面测试--不仅是平均测试,还要在不同用户群体中进行测试。仅凭平均准确率并不能说明一个模型的公平性或可靠性,尤其是当用户表达自己的方式与常人不同时。
YouTube:在赞美与起鸡皮疙瘩之间
在随附的 YouTube 视频中,这项研究因其巧妙而逼真的设计而备受赞誉,但研究结果却被描述为 "令人不安",甚至 "令人不寒而栗"。语气或格式等表面因素会影响医疗建议,这与人们普遍认为人工智能是客观中立的想法背道而驰。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名