微软研究团队改进了之前的Medprompt提示策略，使GPT-4在MMLU上的表现达到了90.10%，这是迄今为止GPT-4在该测试上取得的最高分数。超越了不久刚发布的Gemini Ultra的90.04%😅在微软研究团队开发的Medprompt+策略中，GPT-4模型使用一种特定的策略来决定最终的答案。…

发布时间: 2023-12-13 14:21:01

1分

数据加载中

微软研究团队改进了之前的Medprompt提示策略，使GPT-4在MMLU上的表现达到了90.10%，这是迄今为止GPT-4在该测试上取得的最高分数。
超越了不久刚发布的Gemini Ultra的90.04%😅
在微软研究团队开发的Medprompt+策略中，GPT-4模型使用一种特定的策略来决定最终的答案。…
IT技术
( twitter.com )

微软研究团队改进了之前的Medprompt提示策略，使GPT-4在MMLU上的表现达到了90.10%，这是迄今为止GPT-4在该测试上取得的最高分数。

超越了不久刚发布的Gemini Ultra的90.04%😅

在微软研究团队开发的Medprompt+策略中，GPT-4模型使用一种特定的策略来决定最终的答案。

这个策略考虑了模型对不同候选答案的置信度，也就是模型认为每个答案正确的可能性。

具体来说，当GPT-4使用Medprompt+策略回答问题时，它不仅生成答案，还评估每个答案的置信度。这个置信度是基于模型内部计算的，反映了模型对自己给出的答案有多确信。

然后，GPT-4根据这些置信度来选择最终答案。如果模型对某个答案的置信度很高，那么这个答案就更有可能被选为最终答案。

这种方法使得GPT-4在回答问题时更加精确，因为它不仅仅是随机选择答案，而是基于对每个可能答案的置信度来做出更加有根据的选择。

这表明，通过系统化的提示工程和策略创新，可以显著提高大型语言模型在复杂任务上的性能。

微软公布了其最新的研究成果和Medprompt+ 仓库。

详细内容：https://t.co/bPlnlqO4sU

Medprompt+ 仓库：https://t.co/IBq2SMaHDv

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

「牛逼的七」评估地缘政治风险之微软篇。
微软近年来对中国研究者可以从事的项目进行了限制，典型案例是去年秋天起，微软不允许中国研究者加入可以提前使用GPT-4的小型团队。…
时政
( twitter.com)

4个月前 • 雨夜漫步大祭司 • -- 点击 0 评论

🚨突发新闻：埃隆·马斯克 (Elon Musk) 和 Twitter 刚刚宣布成立新的人工智能公司 xAI。

xAI 的目标是了解宇宙的真实本质。

该团队此前曾在 DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉…
IT技术
( twitter.com)

10个月前 • GPTDAOCN • -- 点击 0 评论

微软正在将中国最优秀的AI研究雇员迁往加拿大。设在北京和上海的“微软亚洲研究院”是微软在美国之外规模最大的研究机构，1998年开张，现有300多名顶级研究人员，培育了中国互联网业大半壁江山的领军人物（抖音、小米、阿里、联想等）。一…
时政
( twitter.com)

11个月前 • 徒步的骑手 • -- 点击 0 评论

瑞典研究团队的一项新研究发现，高脂高糖饮食会改变深度睡眠时的脑电波，可能导致睡眠质量下降。
时政
( www.zaobao.com.sg)

1年前 • 联合早报 Lianhe Zaobao • -- 点击 0 评论

闪电预览

传微软中国 AI 团队「打包」赴美内部人士：部分员工确实收到调动
微软中国区 Azure 人工智能团队的几个组集体打包去美国和澳大利亚
收到邮件的人在 6 月 7 日之前要下决定，不走就裁员。涉及大约数百人，微软美国还可帮助解决家属签证。截至发稿前，微软暂无回应。
时政
( twitter.com)

18天前 • 小互 • -- 点击 0 评论

诬陷赵紫阳的阴谋从1989年5月下旬就开始了。我曾任国家体改委所属的中国经济体制改革研究所的综合研究室主任，这个体改所被称为赵紫阳的经济改革智囊团，因此，早在六四前半个月，国家安全部和公安部的两个工作组便已进驻该所，开始了全面整肃。我当时在西柏林的德国经济研究所做访问学者，访问计划已…
时政
( twitter.com)

1个月前 • 朱韵和 • -- 点击 0 评论

IT技术

「牛逼的七」评估地缘政治风险之微软篇。
微软近年来对中国研究者可以从事的项目进行了限制，典型案例是去年秋天起，微软不允许中国研究者加入可以提前使用GPT-4的小型团队。…
时政
( twitter.com)

时政

🚨突发新闻：埃隆·马斯克 (Elon Musk) 和 Twitter 刚刚宣布成立新的人工智能公司 xAI。

xAI 的目标是了解宇宙的真实本质。

该团队此前曾在 DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉…
IT技术
( twitter.com)

IT技术

时政

瑞典研究团队的一项新研究发现，高脂高糖饮食会改变深度睡眠时的脑电波，可能导致睡眠质量下降。
时政
( www.zaobao.com.sg)

时政

时政

微软已经放弃 Surface Duo 2，现在内部计划是研究柔性屏可折叠设备，同时微软也在研究传统形态的安卓机，也就是单个大屏幕的设备。
大陆资讯
( www.landiannews.com)

大陆资讯

#新闻微软CEO纳德拉称，OpenAI创始人Sam Altman和原总裁Brockman将加入微软，领导新的微软AI团队；微软仍致力于与OpenAI的合作关系。
时政
( twitter.com)

时政

东南大学团队关于“LK99”的研究进展：观测到LK99材料在110K（-163℃）以下的零电阻现象
大陆资讯
( bbs.hupu.com)

大陆资讯

时政

IT技术

「牛逼的七」评估地缘政治风险之微软篇。 微软近年来对中国研究者可以从事的项目进行了限制，典型案例是去年秋天起，微软不允许中国研究者加入可以提前使用GPT-4的小型团队。… 时政 ( twitter.com)

时政

🚨突发新闻：埃隆·马斯克 (Elon Musk) 和 Twitter 刚刚宣布成立新的人工智能公司 xAI。 xAI 的目标是了解宇宙的真实本质。 该团队此前曾在 DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉… IT技术 ( twitter.com)

IT技术

时政

瑞典研究团队的一项新研究发现，高脂高糖饮食会改变深度睡眠时的脑电波，可能导致睡眠质量下降。 时政 ( www.zaobao.com.sg)

时政

时政

微软已经放弃 Surface Duo 2，现在内部计划是研究柔性屏可折叠设备，同时微软也在研究传统形态的安卓机，也就是单个大屏幕的设备。 大陆资讯 ( www.landiannews.com)

大陆资讯

#新闻 微软CEO纳德拉称，OpenAI创始人Sam Altman和原总裁Brockman将加入微软，领导新的微软AI团队；微软仍致力于与OpenAI的合作关系。 时政 ( twitter.com)

时政

东南大学团队关于“LK99”的研究进展：观测到LK99材料在110K（-163℃）以下的零电阻现象 大陆资讯 ( bbs.hupu.com)

大陆资讯

时政

创建一个新帐户

登录

「牛逼的七」评估地缘政治风险之微软篇。
微软近年来对中国研究者可以从事的项目进行了限制，典型案例是去年秋天起，微软不允许中国研究者加入可以提前使用GPT-4的小型团队。…
时政
( twitter.com)

🚨突发新闻：埃隆·马斯克 (Elon Musk) 和 Twitter 刚刚宣布成立新的人工智能公司 xAI。

xAI 的目标是了解宇宙的真实本质。

该团队此前曾在 DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉…
IT技术
( twitter.com)

瑞典研究团队的一项新研究发现，高脂高糖饮食会改变深度睡眠时的脑电波，可能导致睡眠质量下降。
时政
( www.zaobao.com.sg)

微软已经放弃 Surface Duo 2，现在内部计划是研究柔性屏可折叠设备，同时微软也在研究传统形态的安卓机，也就是单个大屏幕的设备。
大陆资讯
( www.landiannews.com)

#新闻微软CEO纳德拉称，OpenAI创始人Sam Altman和原总裁Brockman将加入微软，领导新的微软AI团队；微软仍致力于与OpenAI的合作关系。
时政
( twitter.com)

东南大学团队关于“LK99”的研究进展：观测到LK99材料在110K（-163℃）以下的零电阻现象
大陆资讯
( bbs.hupu.com)