微软研究团队改进了之前的Medprompt提示策略,使GPT-4在MMLU上的表现达到了90.10%,这是迄今为止GPT-4在该测试上取得的最高分数。
超越了不久刚发布的Gemini Ultra的90.04%😅
在微软研究团队开发的Medprompt+策略中,GPT-4模型使用一种特定的策略来决定最终的答案。
这个策略考虑了模型对不同候选答案的置信度,也就是模型认为每个答案正确的可能性。
具体来说,当GPT-4使用Medprompt+策略回答问题时,它不仅生成答案,还评估每个答案的置信度。这个置信度是基于模型内部计算的,反映了模型对自己给出的答案有多确信。
然后,GPT-4根据这些置信度来选择最终答案。如果模型对某个答案的置信度很高,那么这个答案就更有可能被选为最终答案。
这种方法使得GPT-4在回答问题时更加精确,因为它不仅仅是随机选择答案,而是基于对每个可能答案的置信度来做出更加有根据的选择。
这表明,通过系统化的提示工程和策略创新,可以显著提高大型语言模型在复杂任务上的性能。
微软公布了其最新的研究成果和Medprompt+ 仓库。
详细内容:https://t.co/bPlnlqO4sU
Medprompt+ 仓库:https://t.co/IBq2SMaHDv
点击图片查看原图
点击图片查看原图
点击图片查看原图