微软今天发布小模型 Phi-2 的新闻关注度还蛮大的,只有2.7B参数(Llama 2最小的模型都是 7B的),模型越小就对设备要求越低,甚至于移动设备都能运行。但模型的能力又跟模型的训练量和参数量息息相关,数据量越大参数越大能力越强。
微软的解决方案是提升数据质量,通过专注于高质量的“教科书级”数据,训练数据混合了专门为教授模型常识推理和广泛知识(包括科学、日常生活和心理理论等)而设计的合成数据集。此外,还精心挑选了基于教育价值和内容质量筛选的网络数据,进一步丰富了训练语料库。
Phi-2 的训练数据有 1.4 T 个 token,在 96 块 A100 GPU 上训练了 14 天。
Phi-2 是一个基础模型,没有经过人类反馈强化学习(RLHF)的校准,也没有进行过指令式微调。
从能力上来说,据微软自己公布的数据:2.7B 的 Phi-2 超过了目前开源领域表现最好的 Mistral 和 Llama-2 7B 和 13B,编程能力甚至超过了 Llama-2-70B。
至于是不是真的这么强还得看看用户的反馈。
详情可以看官方博客:https://t.co/wcyMqDToHO
也可以看我翻译的版本:《Phi-2:小语言模型的非凡实力 [译]》
https://t.co/P61ZVXkSEV