文章详情

【Meta】Spirit LM在语音和文本扩模态生成项目评估

edwin99

2024-10-19 22:18

184 阅读

0 评论

大型语言模型经常被用于构建文本到语音 pipeline，其中语音通过自动语音识别 (ASR) 进行转录，然后由 LLM 生成文本，最终使用文本到语音 (TTS) 转换为语音。然而，这个过程损害了语音表达。为了解决这一限制，Meta 构建了开源多模态语言模型 Spirit LM，实现了语音和文本的无缝集成。

Spirit LM 在语音和文本数据集上使用词级交织方法进行训练，以实现跨模态生成。Meta 开发了两个版本的 Spirit LM，以展示文本模型的语义生成能力和语音模型的表达能力。

论文链接：https://arxiv.org/abs/2402.05755

代码链接：https://github.com/facebookresearch/spiritlm

模型权重：https://ai.meta.com/resources/models-and-libraries/spirit-lm-downloads/

【Meta】Spirit LM在语音和文本扩模态生成项目评估

目录

评论区 (0)