微软和中国科学院的研究人员发布一种增强数学推理能力的模型:WizardMath。
其性能超越GPT3.5和Google的PaLM-2等模型。
他们通过一种名为“Reinforcement Learning from Evol-Instruct Feedback”(RLEIF)的新方法进行微调,提高了Llama-2的数学推理能力。
在两个数学推理基准测试GSM8k和MATH上,WizardMath展示了远超所有开源LLM的性能,分别提高了+24.8和+9.2。值得注意的是,WizardMath还大大超过了OpenAI的ChatGPT-3.5、Anthropic的Claude Instant-1、Google的PaLM-2等模型。
WizardMath的详细信息和模型权重已在GitHub和Hugging Face上公开。
论文:https://t.co/13sAcOgpoy
GitHub:https://t.co/b2sQUQLzdk
Hugging Face:https://t.co/AzsPjudTlJ
点击图片查看原图