在世界各地,语音合成技术正在愈来愈普及。它可以使人工智能更加智能化和自然化,更好地理解和交流人类语言。但是,与语音合成技术的普及相比,如何评估该技术质量却成为了一个巨大的挑战。在这个领域内,谷歌AI的科学家利用了SQuID,一种新的评估方法,已经成功地为多语言语音合成提供了更好的评估方式。

SQuID,即Subjective Quality Impression Dataset,是一种设计用于评估单个文本的语音合成的人工数据集。它的主要目的是通过让被调查者通过打分表达他们与有声读物的情感交流,从而对有声读物进行质量评估。此外,SQuID还考虑了语言和性别等因素对语音交际的影响。谷歌AI的科学家已经将SQuID应用于25个语言的语音合成的质量评估中,其中包括十种少数民族的语言。

SQuID方法的成功应用使得谷歌AI的科学家们能够更容易地将语音合成技术与现实生活中的交流情境相匹配,从而更好地调整算法。例如,当他们应用SQuID对泰语发音进行了评估时,他们发现SQuID能够揭示某些拓宽音的发音方式遇到的挑战,进而做出了改进。这一点对语音合成技术的商业应用非常重要,因为更好的文本-语音合成算法可以帮助语音从产品运营到教育背景等多个领域中被更好地应用和推广。

总之,SQuID为语音合成技术的质量评估指引了一条新的路线,现在已经得到了广泛的应用。这种方法的应用已为多语言语音合成的发展带来了提升,也为人类的语音交际质量的改善做出了巨大的贡献。

详情参考

了解更多有趣的事情:https://blog.ds3783.com/