一个开源的多模态 LLM Unified-IO 2。比较离谱的是它可以实现语音理解和动作理解还有图像标记这种任务，还可以理解空间关系。真正的 All in one 。甚至还可以驱动机器人做对应的操作。项目简介：Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。…

发布时间: 2023-12-30 02:24:21

1分

数据加载中

一个开源的多模态 LLM Unified-IO 2。
比较离谱的是它可以实现语音理解和动作理解还有图像标记这种任务，还可以理解空间关系。真正的 All in one 。
甚至还可以驱动机器人做对应的操作。
项目简介：
Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。…
IT技术
( twitter.com )

一个开源的多模态 LLM Unified-IO 2。
比较离谱的是它可以实现语音理解和动作理解还有图像标记这种任务，还可以理解空间关系。真正的 All in one 。
甚至还可以驱动机器人做对应的操作。

项目简介：
Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。
为了统一不同的模态，我们将输入和输出（图像、文本、音频、动作、框等）进行分词，并将它们置于一个共享的语义空间中，然后使用单个编码器-解码器变换器模型进行处理。由于使用多样的模态进行训练非常困难，我们提出了各种架构改进来稳定模型。
我们从头开始在来自不同来源的大型多模态预训练语料库上训练我们的模型，并采用多模态混合去噪目标。为了学习一系列广泛的技能，比如遵循多模态指令，我们构建并微调了一个包含120个现有数据集的集合，并进行了提示和增强。
通过一个统一的模型，Unified-IO 2在GRIT基准测试中达到了最先进的性能，并在30多个基准测试中取得了强大的结果，包括图像生成和理解、文本理解、视频和音频理解以及机器人操作。我们将所有的模型都发布给研究界。

项目地址：https://t.co/zf9hzLJltK

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

在我看来，这个 milestone 不亚于 GPT-4 的发布，这才是 LLM 开源生态的一个开始。
推特中文圈
( twitter.com)

1年前 • Jiayuan • -- 点击 0 评论

转译：《苹果公司于 10 月份悄然发布了一款开源多模态 LLM》
苹果公司在2023年10月低调发布了一款名为Ferret的开源多模态大语言模型，这是苹果与哥伦比亚大学研究人员的合作成果。当时，尽管发布包括了代码和权重（仅限研究用途，不包含商业许可），但并未引起太多关注。然而，随着近期 Mistral…
IT技术
( twitter.com)

4个月前 • 宝玉 • -- 点击 0 评论

本周开源三件套
第二个 MPT-7B 开源商业可用LLM的新标准
- 包括base和三个微调模型，instruct，chat，写作
- 其中写作模型支持65k的上下文！是GPT4的两倍。（甚至支持到 84k 。）
- 包含了开源代…
推特中文圈

开源推荐
( twitter.com)

1年前 • orange.ai • -- 点击 0 评论

#AI开源项目推荐：privateGPT

基于私有LLM（大语言模型）做个人的文档问答，不必担心隐私泄露

技术栈是 LangChain 和 GPT4All
- LLM默认用的 ggml-model-q4_0.bin.
- Em…
IT技术
( twitter.com)

11个月前 • 宝玉 • -- 点击 0 评论

昨天 Google 发布了一款拥有 5620 亿参数的大模型 PaLM-E，项目网站

这是一个多模态的 LLM，它可以接受的数据包括：

- 语言（language）
- 图像（i…
推特中文圈
( twitter.com)

1年前 • indigo • -- 点击 0 评论

今天的 Google IO 公布了谷歌的下一代多模态 LLM 模型 Gemini

除了介绍模型，还特地介绍了谷歌开发 AI 技术的社会责任感，包括两个判别 AI 生成内容的工具：

- 嵌入水印
- 嵌入元数据 / meta d…
IT技术
( twitter.com)

11个月前 • 倪爽 • -- 点击 0 评论

IT技术

在我看来，这个 milestone 不亚于 GPT-4 的发布，这才是 LLM 开源生态的一个开始。
推特中文圈
( twitter.com)

推特中文圈

IT技术

本周开源三件套
第二个 MPT-7B 开源商业可用LLM的新标准
- 包括base和三个微调模型，instruct，chat，写作
- 其中写作模型支持65k的上下文！是GPT4的两倍。（甚至支持到 84k 。）
- 包含了开源代…
推特中文圈

开源推荐
( twitter.com)

推特中文圈

开源推荐

#AI开源项目推荐：privateGPT

基于私有LLM（大语言模型）做个人的文档问答，不必担心隐私泄露

技术栈是 LangChain 和 GPT4All
- LLM默认用的 ggml-model-q4_0.bin.
- Em…
IT技术
( twitter.com)

IT技术

昨天 Google 发布了一款拥有 5620 亿参数的大模型 PaLM-E，项目网站

这是一个多模态的 LLM，它可以接受的数据包括：

- 语言（language）
- 图像（i…
推特中文圈
( twitter.com)

推特中文圈

今天的 Google IO 公布了谷歌的下一代多模态 LLM 模型 Gemini

除了介绍模型，还特地介绍了谷歌开发 AI 技术的社会责任感，包括两个判别 AI 生成内容的工具：

- 嵌入水印
- 嵌入元数据 / meta d…
IT技术
( twitter.com)

IT技术

#AI开源项目推荐#：Serge

一个针对本地LLM模型Alpaca 开发的类ChatGPT的网站服务，可以运行在Docker上，可以

整合了MongoDB 数据库，可以存储所…
IT技术

开源推荐
( twitter.com)

IT技术

开源推荐

一天之内两个高质量的开源LLM发布：
MosaicML 的 MPT-30B 和
UC/LMSYS 的 Vicuna-33B。
IT技术
( twitter.com)

IT技术

OpenAI的GPT-4获得第一名🥇Anthropic 和开源项目 Vacuna 在LLMs中处于领先

Chatbot Arena（）是一个基于大众参与的大型语言模型（LLM）基准平…
IT技术
( twitter.com)

IT技术

IT技术

在我看来，这个 milestone 不亚于 GPT-4 的发布，这才是 LLM 开源生态的一个开始。 推特中文圈 ( twitter.com)

推特中文圈

IT技术

本周开源三件套 第二个 MPT-7B 开源商业可用LLM的新标准 - 包括base和三个微调模型，instruct，chat，写作 - 其中写作模型支持65k的上下文！是GPT4的两倍。（甚至支持到 84k 。） - 包含了开源代… 推特中文圈 开源推荐 ( twitter.com)

推特中文圈

开源推荐

#AI开源项目推荐：privateGPT 基于私有LLM（大语言模型）做个人的文档问答，不必担心隐私泄露 技术栈是 LangChain 和 GPT4All - LLM默认用的 ggml-model-q4_0.bin. - Em… IT技术 ( twitter.com)

IT技术

昨天 Google 发布了一款拥有 5620 亿参数的大模型 PaLM-E，项目网站 这是一个多模态的 LLM，它可以接受的数据包括： - 语言（language） - 图像（i… 推特中文圈 ( twitter.com)

推特中文圈

今天的 Google IO 公布了谷歌的下一代多模态 LLM 模型 Gemini 除了介绍模型，还特地介绍了谷歌开发 AI 技术的社会责任感，包括两个判别 AI 生成内容的工具： - 嵌入水印 - 嵌入元数据 / meta d… IT技术 ( twitter.com)

IT技术

#AI开源项目推荐#：Serge 一个针对本地LLM模型Alpaca 开发的类ChatGPT的网站服务，可以运行在Docker上，可以 整合了MongoDB 数据库，可以存储所… IT技术 开源推荐 ( twitter.com)

IT技术

开源推荐

一天之内两个高质量的开源LLM发布： MosaicML 的 MPT-30B 和 UC/LMSYS 的 Vicuna-33B。 IT技术 ( twitter.com)

IT技术

OpenAI的GPT-4获得第一名🥇Anthropic 和开源项目 Vacuna 在LLMs中处于领先 Chatbot Arena（）是一个基于大众参与的大型语言模型（LLM）基准平… IT技术 ( twitter.com)

IT技术

创建一个新帐户

登录

在我看来，这个 milestone 不亚于 GPT-4 的发布，这才是 LLM 开源生态的一个开始。
推特中文圈
( twitter.com)

本周开源三件套
第二个 MPT-7B 开源商业可用LLM的新标准
- 包括base和三个微调模型，instruct，chat，写作
- 其中写作模型支持65k的上下文！是GPT4的两倍。（甚至支持到 84k 。）
- 包含了开源代…
推特中文圈

开源推荐
( twitter.com)

#AI开源项目推荐：privateGPT

基于私有LLM（大语言模型）做个人的文档问答，不必担心隐私泄露

技术栈是 LangChain 和 GPT4All
- LLM默认用的 ggml-model-q4_0.bin.
- Em…
IT技术
( twitter.com)

昨天 Google 发布了一款拥有 5620 亿参数的大模型 PaLM-E，项目网站

这是一个多模态的 LLM，它可以接受的数据包括：

- 语言（language）
- 图像（i…
推特中文圈
( twitter.com)

今天的 Google IO 公布了谷歌的下一代多模态 LLM 模型 Gemini

除了介绍模型，还特地介绍了谷歌开发 AI 技术的社会责任感，包括两个判别 AI 生成内容的工具：

- 嵌入水印
- 嵌入元数据 / meta d…
IT技术
( twitter.com)

#AI开源项目推荐#：Serge

一个针对本地LLM模型Alpaca 开发的类ChatGPT的网站服务，可以运行在Docker上，可以

整合了MongoDB 数据库，可以存储所…
IT技术

开源推荐
( twitter.com)

一天之内两个高质量的开源LLM发布：
MosaicML 的 MPT-30B 和
UC/LMSYS 的 Vicuna-33B。
IT技术
( twitter.com)

OpenAI的GPT-4获得第一名🥇Anthropic 和开源项目 Vacuna 在LLMs中处于领先

Chatbot Arena（）是一个基于大众参与的大型语言模型（LLM）基准平…
IT技术
( twitter.com)