创新方法提高自动语音识别准确性

最近的一项研究中，来自阿卜杜拉国王科技大学和NVIDIA的研究人员开发出一种提高自动语音识别（ASR）系统准确性的新方法。ASR技术广泛应用于消费设备，如智能音箱，用于将口语转换为书面文本。

该团队的方法被称为Whispering-LLaMA，结合了两个组件以提高ASR的准确性。第一个组件是基于Whisper ASR基础模型，该模型经过大量多语言音频数据的训练。该模型生成语音样本n个最佳假设。第二个组件是LLaMA语言模型，它利用其对语言的知识生成纠错后的转录。

Whispering-LLaMA与之前的方法不同之处在于其能够集成附加的数据模态。ASR需要声音信息（讲话者周围的声音）和语言信息（领域特定知识）。通过捕捉和处理这两种类型的数据，研究人员认为系统可以做出更准确的预测。

该团队在各种ASR数据集上进行了评估，并发现在Whispering-LLaMA中融合数据模态相对于现有ASR系统可以显著提高37.66％的词错误率。这些有希望的结果表明，有可能开发出一代新一代高准确性的ASR工具。

为了鼓励这一领域的进一步研究和开发，该团队已经将他们的代码和预训练模型开源，让其他研究人员在此基础上进行工作。

这种对ASR的创新方法不仅增强了消费设备的便利性和可访问性，而且为语音识别技术的进步奠定了基础。随着准确性的不断提高，ASR系统有望彻底改变我们与技术互动的方式，使基于语音的界面更加可靠和高效。

The source of the article is from the blog maestropasta.cz