人们无法准确区分真人声音与伪造语音

源 / 新财网文 / 新财网 2025年10月09日 09时42分

　　据美国趣味科学网站10月4日报道，科学家表示，普通听众已无法分辨真人声音与“深度伪造”语音的区别。

　　美国《科学公共图书馆·综合》杂志9月24日发表的一项新研究结果表明，当同时聆听真人声音与AI生成的相同语音，人们无法准确区分真人声音与伪造语音。

　　研究报告的主要作者、伦敦玛丽王后大学心理学高级讲师娜丁·拉文在一份声明中称：“如今AI生成语音已无处不在。我们都和Alexa或Siri交谈过，我们的电话由自动客服系统接听。这些语音听起来还不太像真人声音，但AI技术生成自然的、像人声的语音只是时间问题。”

　　研究表明，虽然从零开始生成的通用语音被认为不够逼真，但基于真人声音训练出来的克隆语音，即深度伪造声音，其可信度与真人声音完全相当。

　　研究人员给受试者提供了80种不同的语音样本(40种为AI生成语音，40种为真人声音)，让他们找出哪些是真人声音、哪些是AI生成语音。结果显示，平均仅有41%的从零生成的AI语音被误判为真人声音。这表明，在大多数情况下，人们仍能将AI语音与真人声音区分开。

　　然而，对于依照真人声音克隆出来的AI语音，有58%被误判为真人声音。而真人声音被正确识别出来的比例也仅略高一点(62%)。研究人员由此得出结论：在辨别真人声音与深度伪造的克隆语音方面，我们的能力不存在统计学意义上的差异。

　　拉文表示，这一结果可能对伦理、版权和安全领域产生深远影响。若犯罪分子利用AI克隆你的声音，他们将能更容易绕过银行的语音验证程序，或欺骗你的亲友转钱。

　　类似事件其实已发生多起。例如，7月9日，佛罗里达居民莎伦·布赖特韦尔被骗走1.5万美元。她认为她在电话中听到自己的女儿哭诉称出了车祸，需要钱聘请律师以免入狱。谈到那段逼真的AI伪造语音，布赖特韦尔表示：“没人能说服我，那不是她的声音。”

　　逼真的AI语音还可能被用于伪造政治人物或名人的声明和访谈。伪造的声音可能被用来诋毁个人或煽动动乱，进而埋下社会分裂与冲突的隐患。例如，近日有骗子利用AI克隆澳大利亚昆士兰州州长史蒂文·迈尔斯的声音，并借用他的公众形象试图诱使人们投资一个比特币骗局。

　　研究人员强调，他们在研究中使用的克隆语音其实并非特别复杂。这些克隆语音是他们使用商用软件生成的，仅用4分钟的人类声音录音对其进行了训练。

　　拉文在声明中说：“整个过程所需的专业知识极少，只需要几分钟的语音录音，成本也几乎为零。这恰恰表明，AI语音技术已变得多么容易获取，且多么先进。”（编译/刘宗亚）

相关文章

热门评论