微软今天发布小模型 Phi-2 的新闻关注度还蛮大的，只有2.7B参数（Llama 2最小的模型都是 7B的），模型越小就对设备要求越低，甚至于移动设备都能运行。但模型的能力又跟模型的训练量和参数量息息相关，数据量越大参数越大能力越强。…

发布时间: 2023-12-13 14:20:25

1分

数据加载中

2

1

0

微软今天发布小模型 Phi-2 的新闻关注度还蛮大的，只有2.7B参数（Llama 2最小的模型都是 7B的），模型越小就对设备要求越低，甚至于移动设备都能运行。但模型的能力又跟模型的训练量和参数量息息相关，数据量越大参数越大能力越强。…
IT技术
( twitter.com )

5个月前由宝玉提交

微软今天发布小模型 Phi-2 的新闻关注度还蛮大的，只有2.7B参数（Llama 2最小的模型都是 7B的），模型越小就对设备要求越低，甚至于移动设备都能运行。但模型的能力又跟模型的训练量和参数量息息相关，数据量越大参数越大能力越强。

微软的解决方案是提升数据质量，通过专注于高质量的“教科书级”数据，训练数据混合了专门为教授模型常识推理和广泛知识（包括科学、日常生活和心理理论等）而设计的合成数据集。此外，还精心挑选了基于教育价值和内容质量筛选的网络数据，进一步丰富了训练语料库。

Phi-2 的训练数据有 1.4 T 个 token，在 96 块 A100 GPU 上训练了 14 天。

Phi-2 是一个基础模型，没有经过人类反馈强化学习（RLHF）的校准，也没有进行过指令式微调。

从能力上来说，据微软自己公布的数据：2.7B 的 Phi-2 超过了目前开源领域表现最好的 Mistral 和 Llama-2 7B 和 13B，编程能力甚至超过了 Llama-2-70B。

至于是不是真的这么强还得看看用户的反馈。

详情可以看官方博客：https://t.co/wcyMqDToHO

也可以看我翻译的版本：《Phi-2：小语言模型的非凡实力 [译]》
https://t.co/P61ZVXkSEV

评论加载中...

您可能感兴趣的：更多

1

2

1

1

在闭源超大型模型盛行的时代背景下，微软选择了一条不同的道路，专注于开发“小而美”的oss模型，正如phi和Wizard。
昨天，微软放出开源2.7B的phi-2，效果媲美超过自己25倍参数规模的llama-2 70B。事实上，自phi-1和phi-1.5起，phi系列在过去半年中已迭代了三次。phi的卓越表现源于半年前发表的论文…
时政
( twitter.com)

5个月前 • Sverige_ Dong-seok🇸🇪 • -- 点击 0 评论

2

2

1

1

微软官方出的 Windows AI Studio，如果你需要：
- 本地测试Phi-2 小模型
- 测试 RAG
- 微调模型
- 针对 Windows 优化模型
并且你是Windows 系统 + NVIDIA 的显卡，可以试试用它。
官方说明：
Windows AI Studio 通过集成 Azure AI Studio Catalog 和其他类似 Hugging Face 的AI 模型目录中的最新 AI…
IT技术
( twitter.com)

5个月前 • 宝玉 • -- 点击 0 评论

3

2

1

1

微软称其13亿参数AI超千亿级GPT-3.5效果!

微软最近发布了一款名为phi-1的13亿参数的语言模型，该模型的训练数据来自网络的"教科书等级"的高质量资料集，甚至包括了由GPT-3.5处理过的"逻辑严密"的内容。微软的研发…
IT技术
( twitter.com)

10个月前 • GPTDAOCN • -- 点击 0 评论

4

2

1

1

SliceGPT：微软开发的一种新型的大语言模型压缩方法
SLICEGPT能够在保持99%，99%，和90%零样本任务性能的同时，将LLAMA2-70B、OPT 66B和Phi-2模型分别去除高达25%的模型参数（包括嵌入）。
使用SLICE GPT的模型可以在更少的GPU上运行，并且运行速度更快，无需任何额外的代码优化。…
IT技术
( twitter.com)

3个月前 • 小互 • -- 点击 0 评论

5

2

1

1

微软刚刚发布了多模态大语言模型的论文：Language Is Not All You Need

模型命名为：MOSMOS-1

论文地址：
图片
( arxiv.org)

1年前 • Jiayuan • -- 点击 0 评论

6

2

1

1

微软和中国科学院的研究人员发布一种增强数学推理能力的模型：WizardMath。

其性能超越GPT3.5和Google的PaLM-2等模型。

他们通过一种名为“Reinforcement Learning from Evol-Instruct Feedback”（RLEIF）的新方法进行微调，提高了Llama-2的数学推理能力。…
IT技术
( twitter.com)

9个月前 • 小互 • -- 点击 0 评论

7

2

1

1

微软在今天的 Build 大会上发布了 Copilot Stack！这是专门为 AI 驱动的软件提供的新开发模式，你可以用这种模式来实现自己的 Copilot，也能在这个框架下为 ChatGPT、Bing、Dynamics 365…
IT技术
( twitter.com)

1年前 • indigo • -- 点击 0 评论

8

2

1

1

OpenAI 今天发布的最新更新！

1、OpenAI增加了在Chat Completions API中调用函数的能力，这使得开发者可以自定义模型的行为。
2、发布了更新、更易控制的GPT-4和GPT-3.5 Turbo版本。
3…
IT技术
( twitter.com)

11个月前 • GPTDAOCN • -- 点击 0 评论

9

2

1

1

今天被OpenAI刷屏了帮你们总结下今天别的AI新闻
🚀 马斯克 xAI 公司宣布推出 PromptIDE开发工具
🛑 阿里云 A100 服务器业务暂停出租算力价格飞涨
🎙️ 微软发布 7 款针对对话优化的AI语音，更加逼真自然
🔍 谷歌正测试 2项AI功能，以改善YouTube观看体验
🎮 微软将AI引入Xbox，可生成 AI…
IT技术
( twitter.com)

6个月前 • 小互 • -- 点击 0 评论