大型语言模型经常被用于构建文本到语音 pipeline,其中语音通过自动语音识别 (ASR) 进行转录,然后由 LLM 生成文本,最终使用文本到语音 (TTS) 转换为语音。然而,这个过程损害了语音表达。为了解决这一限制,Meta 构建了开源多模态语言模型 Spirit LM,实现了语音和文本的无缝集成。
Spirit LM 在语音和文本数据集上使用词级交织方法进行训练,以实现跨模态生成。Meta 开发了两个版本的 Spirit LM,以展示文本模型的语义生成能力和语音模型的表达能力。
代码链接:https://github.com/facebookresearch/spiritlm
模型权重:https://ai.meta.com/resources/models-and-libraries/spirit-lm-downloads/