SALMONN：赋予LLMs 耳朵和认知听觉能力一个由清华大学和字节跳动共同开发的大语言模型，它可以处理各种音频输入。并且具有多语种语音识别和翻译以及音频-语音联合推理等能力。你上传一段音频，它能准确识别音频里包含的各种信息，并回答关于该音频的各种问题。这相当于给GPT 4装上了耳朵。…

发布时间: 2023-10-23 18:31:11

1分

数据加载中

SALMONN：赋予LLMs 耳朵和认知听觉能力

一个由清华大学和字节跳动共同开发的大语言模型，它可以处理各种音频输入。并且具有多语种语音识别和翻译以及音频-语音联合推理等能力。

你上传一段音频，它能准确识别音频里包含的各种信息，并回答关于该音频的各种问题。

这相当于给GPT 4装上了耳朵。…
IT技术
( twitter.com )

SALMONN：赋予LLMs 耳朵和认知听觉能力

一个由清华大学和字节跳动共同开发的大语言模型，它可以处理各种音频输入。并且具有多语种语音识别和翻译以及音频-语音联合推理等能力。

你上传一段音频，它能准确识别音频里包含的各种信息，并回答关于该音频的各种问题。

这相当于给GPT 4装上了耳朵。

SALMONN的工作原理和特点：

👂 多模态能力：不只能听懂人说的话，还能听懂音乐和其他周围的声音，比如车喇叭或鸟叫。

🎧 高级编码器集成：SALMONN使用了两种先进的编码器，Whisper用于语音，BEATs用于非语音音频，以捕捉各种类型的音频信息。

🔗 窗口级Q-Former：这是一个特殊的连接模块，用于整合来自不同编码器的信息，并生成一个统一的音频令牌输入给大型语言模型。这个部分就像一个“翻译器”，把从两个“超级耳朵”听到的信息合并在一起，然后传给大语言模型去理解并输出答案。

🌟 跨模态紧急能力：除了能执行常规的音频和语音任务，SALMONN还能处理一些在训练数据中没有直接出现的跨模态任务。

🏆 多任务性能：在多个标准基准测试中表现优秀，包括语音识别、音频翻译和音频字幕等。

SALMONN在三个层次上的表现总结：

SALMONN在多个标准基准测试中表现出色。这些任务分为三个层次：

1.、基础任务层次🌟 表现：SALMONN在处理了如语音识别、翻译和音频字幕等基础任务上表现出色。

2.、高级NLP任务层次🌟 表现：在第二层次上，SALMONN能够处理更复杂的基于语音的NLP任务，如翻译到未经训练的语言和槽填充等。

这些任务通常需要对多语种和高质量的语音和文本标记进行对齐，SALMONN也表现得相当出色。

3、多模态任务层次🌟 表现：在第三层次上，SALMONN不仅能处理语音信息，还能处理非语音听觉信息，如基于音频的讲故事和语音音频共推理等。

这一层次的任务通常更为复杂，需要模型具有更高级的听觉和理解能力，SALMONN在这些任务上也表现得相当可观。

论文：https://t.co/WRYQIDNDEW
GitHub：https://t.co/Ca9TCD8OsR
Demo体验：https://t.co/8k9xzOBzjv

Markdown支持

评论加载中...

您可能感兴趣的：更多

IT技术

Web3世界的知识星球，但我认为故事远不止于此，NFT会赋予更好的商业模式。
时政
( twitter.com)

时政

耳廓狐的大耳朵
大陆资讯
( m.weibo.cn)

大陆资讯

知名程序员@左耳朵耗子已于周六晚突发心梗辞世
每日热点

每日热点

耳朵红嘞
图片
( twitter.com)

图片

？？幹你耳朵？？？
时政
( twitter.com)

时政

这有一个。。我不知道啥时候给他加了个维尼熊的耳朵
图片
( twitter.com)

图片

「入耳式耳机是如何“伤害”我们耳朵的？」
时政
( twitter.com)

时政

哈基米现在到底被老中赋予多少内涵和外延了
时政
( twitter.com)

时政

纪念左耳朵耗子
IT技术
( blog.kevinzhow.com)

IT技术

IT技术

Web3世界的知识星球，但我认为故事远不止于此，NFT会赋予 更好的商业模式。 时政 ( twitter.com)

时政

耳廓狐的大耳朵 大陆资讯 ( m.weibo.cn)

大陆资讯

知名程序员@左耳朵耗子 已于周六晚突发心梗辞世 每日热点

每日热点

耳朵红嘞 图片 ( twitter.com)

图片

？？幹你耳朵？？？ 时政 ( twitter.com)

时政

这有一个。。我不知道啥时候给他加了个维尼熊的耳朵 图片 ( twitter.com)

图片

「入耳式耳机是如何“伤害”我们耳朵的？」 时政 ( twitter.com)

时政

哈基米现在到底被老中赋予多少内涵和外延了 时政 ( twitter.com)

时政

纪念左耳朵耗子 IT技术 ( blog.kevinzhow.com)

IT技术

创建一个新帐户

登录

Web3世界的知识星球，但我认为故事远不止于此，NFT会赋予更好的商业模式。
时政
( twitter.com)

耳廓狐的大耳朵
大陆资讯
( m.weibo.cn)

知名程序员@左耳朵耗子已于周六晚突发心梗辞世
每日热点

耳朵红嘞
图片
( twitter.com)

？？幹你耳朵？？？
时政
( twitter.com)

这有一个。。我不知道啥时候给他加了个维尼熊的耳朵
图片
( twitter.com)

「入耳式耳机是如何“伤害”我们耳朵的？」
时政
( twitter.com)

哈基米现在到底被老中赋予多少内涵和外延了
时政
( twitter.com)

纪念左耳朵耗子
IT技术
( blog.kevinzhow.com)