GPT-4V在美国医学执照考试（USMLE）上的表现研究人员用GPT 4V对美国医学执照考试（USMLE）中的问题进行了测试：- GPT-4V在美国医学执照考试（USMLE）中的整体准确率达到了90.7%。- GPT-4V在图像问题上的表现超过了大多数医学生。- 当GPT-4V回答正确时，其解释几乎与领域专家相当研究方法：…

发布时间: 2023-11-24 10:41:01

1分

数据加载中

GPT-4V在美国医学执照考试（USMLE）上的表现
研究人员用GPT 4V对美国医学执照考试（USMLE）中的问题进行了测试：
- GPT-4V在美国医学执照考试（USMLE）中的整体准确率达到了90.7%。
- GPT-4V在图像问题上的表现超过了大多数医学生。
- 当GPT-4V回答正确时，其解释几乎与领域专家相当
研究方法：…
IT技术
( twitter.com )

GPT-4V在美国医学执照考试（USMLE）上的表现

研究人员用GPT 4V对美国医学执照考试（USMLE）中的问题进行了测试：

- GPT-4V在美国医学执照考试（USMLE）中的整体准确率达到了90.7%。

- GPT-4V在图像问题上的表现超过了大多数医学生。

- 当GPT-4V回答正确时，其解释几乎与领域专家相当

研究方法：

1、研究者使用了来自美国医学执照考试（USMLE）、医学生的USMLE题库（AMBOSS）和诊断放射学资格核心考试（DRQCE）的多项选择题（包含图像）来测试GPT-4V的准确性和解释质量。

2、GPT-4V与两个最先进的LLM（GPT-4和ChatGPT）进行了比较。

3、研究还评估了医疗专业人员对GPT-4V解释的偏好和反馈，并展示了一个案例场景，说明如何将GPT-4V用于临床决策支持。

研究结果：

1、整体表现：GPT-4V在美国医学执照考试（USMLE）中的整体准确率达到了90.7%。超过了ChatGPT（58.4%）和GPT-4（83.6%）。这是一个相当高的比例，特别是考虑到这个考试的难度和复杂性。

2、图像问题的表现：对于包含图像的问题，GPT-4V的准确率分别为86.2%、73.1%和62.0%。相当于AMBOSS医学生的70至80百分位。

AMBOSS是一个广泛使用的医学学习平台，医学生通常使用它来准备考试。这里的“70至80百分位”意味着GPT-4V在处理这些问题时的表现好于70%到80%的使用AMBOSS平台的医学生。

换句话说，GPT-4V在这些特定问题上几乎可以和顶尖的医学生相媲美。

3、不同医学子领域的表现：在不同的医学子领域中，GPT-4V的表现有所不同。例如，在免疫学和耳鼻喉科领域，它的准确率达到了100%，而在解剖学和急诊医学领域，准确率则降至25%。

4、错误回答的解释质量：当GPT-4V回答错误时，18.2%的错误答案包含了虚构文本，45.5%存在推理错误，76.3%对图像的理解有误。这些数据显示，虽然GPT-4V在大多数情况下表现良好，但在错误回答时，其解释质量会显著下降。

5、医生提示的影响：当医生给予GPT-4V简短的提示后，它的错误率平均降低了40.5%。而对更难的测试题目，性能提升更明显。这表明，与专业人士的协作可以显著提高AI模型的表现。

详细介绍：https://t.co/8N69rq5x5m
论文：https://t.co/hUhKtDB5qZ