领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
《英国医学杂志》圣诞刊的一项研究发现,在广泛用于发现痴呆症早期迹象的测试中,几乎所有领先的大型语言模型或“聊天机器人”都表现出轻度认知障碍的迹象。
研究结果还显示,“老”版本的聊天机器人,如老年患者,在测试中表现更差。作者表示,这些发现“挑战了人工智能将很快取代人类医生的假设”。
人工智能领域的巨大进步引发了人们对聊天机器人是否能超越人类医生的一系列兴奋和恐惧的猜测。
多项研究表明,大型语言模型(LLM) 在一系列医学诊断任务上表现非常出色,但它们对认知能力下降等人类缺陷的敏感性尚未得到检验。
为了填补这一知识空白,研究人员使用蒙特利尔认知评估 (MoCA) 测试评估了领先的、公开的 LLM 的认知能力——ChatGPT 版本 4 和 4o(由 OpenAI 开发)、Claude 3.5“Sonnet”(由 Anthropic 开发)以及 Gemini 版本 1 和 1.5(由 Alphabet 开发)。
MoCA 测试被广泛用于检测认知障碍和痴呆症的早期迹象,通常用于老年人。通过一系列简短的任务和问题,它评估注意力、记忆力、语言、视觉空间技能和执行功能等能力。最高分为 30 分,26 分或以上通常被认为是正常的。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。