SALMONN:赋予LLMs 耳朵和认知听觉能力
一个由清华大学和字节跳动共同开发的大语言模型,它可以处理各种音频输入。并且具有多语种语音识别和翻译以及音频-语音联合推理等能力。
你上传一段音频,它能准确识别音频里包含的各种信息,并回答关于该音频的各种问题。
这相当于给GPT 4装上了耳朵。
SALMONN的工作原理和特点:
👂 多模态能力:不只能听懂人说的话,还能听懂音乐和其他周围的声音,比如车喇叭或鸟叫。
🎧 高级编码器集成:SALMONN使用了两种先进的编码器,Whisper用于语音,BEATs用于非语音音频,以捕捉各种类型的音频信息。
🔗 窗口级Q-Former:这是一个特殊的连接模块,用于整合来自不同编码器的信息,并生成一个统一的音频令牌输入给大型语言模型。这个部分就像一个“翻译器”,把从两个“超级耳朵”听到的信息合并在一起,然后传给大语言模型去理解并输出答案。
🌟 跨模态紧急能力:除了能执行常规的音频和语音任务,SALMONN还能处理一些在训练数据中没有直接出现的跨模态任务。
🏆 多任务性能:在多个标准基准测试中表现优秀,包括语音识别、音频翻译和音频字幕等。
SALMONN在三个层次上的表现总结:
SALMONN在多个标准基准测试中表现出色。这些任务分为三个层次:
1.、基础任务层次🌟 表现:SALMONN在处理了如语音识别、翻译和音频字幕等基础任务上表现出色。
2.、高级NLP任务层次🌟 表现:在第二层次上,SALMONN能够处理更复杂的基于语音的NLP任务,如翻译到未经训练的语言和槽填充等。
这些任务通常需要对多语种和高质量的语音和文本标记进行对齐,SALMONN也表现得相当出色。
3、多模态任务层次🌟 表现:在第三层次上,SALMONN不仅能处理语音信息,还能处理非语音听觉信息,如基于音频的讲故事和语音音频共推理等。
这一层次的任务通常更为复杂,需要模型具有更高级的听觉和理解能力,SALMONN在这些任务上也表现得相当可观。
论文:https://t.co/WRYQIDNDEW
GitHub:https://t.co/Ca9TCD8OsR
Demo体验:https://t.co/8k9xzOBzjv