OpenAI推出了一个基于Whisper模型的音频到文本的API,可以将任何音频直接转录成文本并翻译为英文。
同时在转录文本的同时,API能够提供每个词或句子出现的具体时间点,帮助用户准确定位音频中的特定部分。
主要功能:
1、音频转文字:将音频文件中的语音内容自动转换成文本形式,让用户可以读到音频里说了什么。
2、支持多种语言的翻译转录:如果音频中的语言不是英语,这个API还能先将其翻译成英语,然后再进行转录,使非英语内容也能轻松转换成文本。
3、提供时间戳:OpenAI的Whisper API提供了一个参数timestamp_granularities[],允许用户获取带有时间戳的更结构化的JSON输出格式。这意味着,在转录文本的同时,API能够提供每个词或句子出现的具体时间点,帮助用户准确定位音频中的特定部分。
4、支持多种音频格式:支持上传25MB以内的文件,包括mp3、mp4、mpeg、mpga、m4a、wav和webm等格式。用户无需转换文件格式即可直接使用。
详细:https://t.co/ay4Mx8iyWE
点击图片查看原图