作为最后的完整人类中的一员,我感到非常荣幸。
我意识到,在有形的未来,以前被称为人类的艺术家将成为血肉之躯的动人混合体。
也许我不应该感到惊讶,然后,当微软的研究人员出现以稍微加速绝望的未来时。
这一切看起来都是那么天真,那么科学。 研究人员论文的标题创造性地不透明:“神经编解码器语言模型是零样本文本到语音合成器。”
你认为这可能意味着什么? 有一种新的、更快的方法让机器记下你说的话吗?
另外:ChatGPT 革命? 微软似乎对这个 AI 聊天机器人有很大的计划
研究人员的摘要开头很温和。 它使用了许多外行人类语言模型不熟悉的单词、短语和首字母缩略词。 它解释了神经编解码器语言模型称为 VALL-E。
当然这个名字应该让你软化。 听起来几乎像一部感人电影中那个可爱的小机器人的技术有什么可怕的?
好吧,这也许是:“VALL-E 出现了情境学习能力,可用于合成高质量的个性化语音,只需录制 3 秒的看不见的说话者的录音作为声音提示。”
我经常想出现学习能力。 相反,我不得不求助于等待它们出现。
研究人员的最后一句话让人不寒而栗。 微软的大脑现在只需要 3 秒的时间让你说些什么,就可以伪造更长的句子,甚至可能不是你做的但听起来很像你的长篇大论。
我不会深入研究科学,因为我们都不会从中受益。
我只想提一下,VALL-E 使用的音频库由世界上最受尊敬、最值得信赖的公司之一——Meta 组合而成。 它称为 LibriLight,是一个 7,000 人共讨论 60,000 小时的存储库。
自然地,我听了听 VALL-E 的作品。
另外:人工智能先驱 Geoff Hinton 说,我们将看到一种全新类型的计算机
我听了一个男性说话 3 秒钟。 然后我听到他的 VALL-E 版本被提示说的 8 秒:“他们随后小心翼翼地在小屋周围摸索,在他们周围摸索着寻找一些东西来表明沃伦顿已经完成了他的任务。”
如果有的话,我敢打赌你会注意到很大的不同。
确实,许多提示听起来像是 18 世纪文学中非常糟糕的片段。 示例:“这位仁慈正直的父亲如此安慰他不幸的女儿,她的母亲再次拥抱她,竭尽全力安抚她的情绪。”
但是除了多听研究人员举的例子,我还能做什么呢? 有些 VALL-E 版本比其他版本更可疑。 用词感觉不对。 他们觉得自己被拼接了。
然而,整体效果非常可怕。
当然,你已经被警告过了。 您知道,当骗子打电话给您时,您不应该与他们交谈,以防他们给您录音,然后重新创建您的措辞,让您抽象的声音恶意地订购昂贵的产品。
不过,这似乎是另一种复杂程度。 也许我已经看过太多孔雀的“捕获”剧集了,在这些剧集中,deepfakes 被呈现为政府的自然组成部分。 或许我真的不应该担心,因为如今微软是一家非常友善、无害的公司。
然而,有人,任何人,都可以很容易地被愚弄,相信我说的是我没有——也永远不会——的想法,这并不能给我带来安慰。 特别是正如研究人员声称的那样,他们也可以复制一个人最初 3 秒讲话的“情感和听觉环境”。
那么,您会感到欣慰的是,研究人员可能已经发现了这种潜在的不适。 他们提出:“由于 VALL-E 可以合成保持说话人身份的语音,它可能会带来滥用模型的潜在风险,例如欺骗语音识别或冒充特定说话人。”
解决方案? 研究人员说,建立一个检测系统。
这可能会让一两个人疑惑:“那你为什么要这样做呢?”
在技术领域,答案通常是:“因为我们可以。”