GPT-4V在美国医学执照考试(USMLE)上的表现
研究人员用GPT 4V对美国医学执照考试(USMLE)中的问题进行了测试:
- GPT-4V在美国医学执照考试(USMLE)中的整体准确率达到了90.7%。
- GPT-4V在图像问题上的表现超过了大多数医学生。
- 当GPT-4V回答正确时,其解释几乎与领域专家相当
研究方法:
1、研究者使用了来自美国医学执照考试(USMLE)、医学生的USMLE题库(AMBOSS)和诊断放射学资格核心考试(DRQCE)的多项选择题(包含图像)来测试GPT-4V的准确性和解释质量。
2、GPT-4V与两个最先进的LLM(GPT-4和ChatGPT)进行了比较。
3、研究还评估了医疗专业人员对GPT-4V解释的偏好和反馈,并展示了一个案例场景,说明如何将GPT-4V用于临床决策支持。
研究结果:
1、整体表现:GPT-4V在美国医学执照考试(USMLE)中的整体准确率达到了90.7%。超过了ChatGPT(58.4%)和GPT-4(83.6%)。这是一个相当高的比例,特别是考虑到这个考试的难度和复杂性。
2、图像问题的表现:对于包含图像的问题,GPT-4V的准确率分别为86.2%、73.1%和62.0%。相当于AMBOSS医学生的70至80百分位。
AMBOSS是一个广泛使用的医学学习平台,医学生通常使用它来准备考试。这里的“70至80百分位”意味着GPT-4V在处理这些问题时的表现好于70%到80%的使用AMBOSS平台的医学生。
换句话说,GPT-4V在这些特定问题上几乎可以和顶尖的医学生相媲美。
3、不同医学子领域的表现:在不同的医学子领域中,GPT-4V的表现有所不同。例如,在免疫学和耳鼻喉科领域,它的准确率达到了100%,而在解剖学和急诊医学领域,准确率则降至25%。
4、错误回答的解释质量:当GPT-4V回答错误时,18.2%的错误答案包含了虚构文本,45.5%存在推理错误,76.3%对图像的理解有误。这些数据显示,虽然GPT-4V在大多数情况下表现良好,但在错误回答时,其解释质量会显著下降。
5、医生提示的影响:当医生给予GPT-4V简短的提示后,它的错误率平均降低了40.5%。而对更难的测试题目,性能提升更明显。这表明,与专业人士的协作可以显著提高AI模型的表现。
详细介绍:https://t.co/8N69rq5x5m
论文:https://t.co/hUhKtDB5qZ
点击图片查看原图
点击图片查看原图