环球视角:OpenAI推出声音克隆新技术 15秒音频即可模仿任何说话者
【环球网科技综合报道】据外媒消息,在人工智能领域持续创新的OpenAI公司,近日宣布了一项革命性的声音克隆技术——“语音引擎”。该技术作为其现有文本转语音API的扩展,仅需15秒的音频样本,便能模仿任何说话者的声音。
OpenAI表示,这项新技术能够生成“自然的语音”和“情感丰富且真实的声音”。自2022年以来,该技术一直在研发中,并已应用于支持公司当前的文本转语音API和Read Aloud功能中的预设语音。
为了展示这项技术的实力,OpenAI在其官方博客上发布了一系列声音样本,这些样本的逼真程度令人惊叹。公司鼓励公众倾听这些声音,并想象它们在未来可能带来的各种应用场景。
OpenAI认为,这项技术对于阅读辅助、语言翻译以及帮助言语障碍患者具有重大意义。例如,在布朗大学的一个试点项目中,该技术已被用于创建从学校项目录制的音频中提取的语音克隆,以帮助那些患有言语障碍的学生。
然而,OpenAI承认它存在被滥用的风险,特别是在选举年等敏感时期。因此,在全面推出之前,公司必须解决相关的隐私问题和道德挑战。
为此,OpenAI已经与来自政府、媒体、娱乐、教育等多个领域的合作伙伴进行了深入交流,以确保在产品发布时能够将风险降至最低。同时,所有预览测试人员都必须遵守OpenAI的使用政策,该政策明确禁止在未经同意或缺乏合法权利的情况下冒充他人。
此外,OpenAI还实施了一系列安全措施,包括使用水印技术追踪音频来源,以及对系统的使用方式进行主动监控。当产品正式推出时,公司将设立一个“禁止语音列表”,以检测并阻止与名人过于相似的人工智能生成声音。
在宣布这项新技术的同时,OpenAI还透露了与微软的另一项重大合作计划,双方将共同打造一款名为“Stargate”的基于人工智能的超级计算机。据报道,该项目预计将耗资高达1000亿美元。