OpenAI 在其类似“她”的语音助手上犯下的失误可能很有趣,如果它没有预示着数字信息完整性的更大危机的话。
5 月 13 日,人工智能公司 OpenAI 在一场现场活动中发布了其下一代技术 GPT-4o,即 GPT-3 的继任者。
当 OpenAI 于 2022 年底首次向公众发布其产品(即基于文本的工具 ChatGPT)时,它几乎凭一己之力开创了人工智能时代。
最新版本的功能更加强大。名称中的“o”代表“omni”;该模型可以同时在各种媒体形式之间无缝通信,包括文本、音频和视频,在一种媒体中接收提示,在另一种媒体中做出响应。它可以记住你告诉它的每件事。
最引人注目的是,它可以实时大声和你说话。
许多观察家指出,演示中的语音助手会编造睡前故事并分析面部表情,听起来很像 2013 年电影《她》中斯嘉丽·约翰逊饰演的人工智能伴侣。
活动结束后,首席执行官萨姆·奥特曼 (Sam Altman) OpenAI 的创始人之一,在 X(之前称为 Twitter 的网站)上发布了这部电影的名字。然后,该公司没有做太多解释就从其应用程序中删除了该声音。
我们在周一发现了原因。当时真正的斯嘉丽·约翰逊发布了一份声明,解释称 OpenAI 曾与她联系,希望获得她的声音许可,但她拒绝了。
“当我听到发布的演示时,我感到震惊、愤怒,难以置信奥特曼先生会追求一个听起来如此类似于我的声音,”斯嘉丽·约翰逊写道。(在周一晚上发布的回应中,奥特曼坚称“斯凯的声音不是斯嘉丽约翰逊的”,“从未打算模仿她的声音。”)
如果不是预示着人工智能时代数字信息完整性的更大危机,这种混乱可能看起来很有趣。
谷歌上周还举办了一场活动,即 5 月 14 日的年度开发者大会,以推出其最新一轮的人工智能产品,名为 Gemini。
看着这两家科技品牌展示他们的新工具,我只感到一种恐惧。
这两家公司正在竞相打造一个互联网的未来,在这个未来中,人工智能扮演着一个热切但并非完全专业的实习生的角色,整理研究并根据用户的询问提供半可信的内容概述。你只有检查它的工作才能确定任何给定答案的质量。
让我如此沮丧的是,谷歌和 OpenAI 正在使用互联网数十年来的大量资料来训练他们的机器,却似乎不关心这些资料的来源——也就是说,那些首先把这些资料放到网上的人,那些产生这些资料的思想、面孔和声音。
OpenAI 倾向于将互联网视为一个全面的类人人格。该公司演示的模仿斯嘉丽·约翰逊的声音,昵称为 Sky,低沉、温暖、有点调情,容易让人忍俊不禁。它会开玩笑、停顿、哼哼,并可以根据需要增加其表达的戏剧性(其他名为 Breeze、Cove、Ember 和 Juniper 的角色听起来没有那么明显的女性化)。
相比之下,原始的基于文本的 ChatGPT 就像计算器一样迷人。声音元素将 OpenAI 置于目前由 Replika 和 Character.AI 等提供人工智能伴侣的初创公司占据的领域。
但是,尽管其他公司都在销售情感联系的假象,但 OpenAI 正在使用相同的方法,并承诺提供可靠的信息。问题是人工智能擅长前者,但在后者方面仍然平庸。我们剩下的是一个听起来比它实际更令人信服的工具。
为了实现其假设的未来,OpenAI 必须建立一个新的数字生态系统,推动用户使用 ChatGPT 应用程序或集成其技术的现有产品,例如由 OpenAI 的主要投资者微软运营的搜索引擎 Bing。
相比之下,谷歌已经控制了支撑我们许多在线体验的技术,从搜索和电子邮件到 Android 智能手机操作系统。在其会议上,该公司展示了如何让人工智能成为上述所有领域的核心。
现在,一些谷歌搜索会产生人工智能生成的“概览”摘要,这些摘要出现在任何外部网站链接上方的彩色框中。谷歌搜索主管利兹·里德 (Liz Reid) 用不祥的标语“谷歌将为您完成谷歌搜索”来描述生成的结果。 (该公司设想,你将依靠相同的搜索机制来搜索自己的数字档案,例如,使用其 Gemini 助手来调出你孩子多年来游泳的照片,或者总结收件箱中的电子邮件主题。)
科技刊物《Verge》的主编 Nilay Patel 一直使用“Google Zero”一词来描述 Google 将停止向外部网站引流,而是使用人工智能自行回答每个查询的临界点。
最近的演示清楚地表明,这一临界点正在迅速临近。
谷歌的一次演示显示,一名用户向人工智能询问有关 YouTube 上匹克球视频的问题:“两次反弹规则是什么?”然后,人工智能从视频中提取答案并以书面形式显示答案,从而让用户避免观看视频或任何可能为其创作者带来收入的广告。
当我在谷歌上搜索“如何装饰没有窗户的浴室”(我个人对人工智能创造力的试金石)时,我看到的是一个看起来很像权威博客文章的概述,理论上我不需要直接与人类撰写的任何内容进行交互。
谷歌搜索曾被视为获取网络上内容的最佳途径。具有讽刺意味的是,现在它的目标是避免把我们带到任何地方。
使用搜索功能而不看到人工智能生成的内容的唯一方法是点击一个小的“更多”标签并选择“网络”搜索。然后谷歌就会做它一直应该做的事情:爬取互联网寻找与您的查询相关的 URL,然后将它们显示给您。互联网仍然存在,只是越来越难找到。
如果人工智能要成为我们获取世界信息的主要向导,如果要像科技公司所宣称的那样成为我们的全天候助手、图书管理员和伙伴,那么它就必须不断向其数据集添加新信息。
人工智能无法生成这些信息,因为人工智能工具无法进行哪怕一丁点的原创思考或分析,也无法从现场进行现场报道。(一种不断更新的信息模型,利用人力来告诉我们当前正在发生的事情——我们可以称之为报纸。)
十多年来,社交媒体是激励数十亿人类不断将新信息上传到互联网的绝佳方式。名利和平凡联系的可能性驱使着用户。许多媒体公司受到销售数字广告的可能性的激励,通常谷歌本身就是中间人。
在人工智能时代,社交媒体是一种激励,它激励着数十亿人类不断将新信息上传到互联网。在这个时代,谷歌可以简单地消化你的帖子或视频的片段并将其提供给观众,甚至可能不承认你是原作者,创作和分享的动机就消失了。换句话说,谷歌和 OpenAI 似乎准备破坏他们工具所依赖的生态系统。
这个问题有解决方案。OpenAI 已经与几家媒体公司谈判达成了许可协议,这些公司将为记者提供一定数量的资金——可能远远不够——以继续创造人工智能工厂所需的素材。
在采访中,奥特曼表示,人工智能最终可能会成为一种全民基本收入的形式,其中“每个人都能分得一杯羹”。
也许有一天,所有使用互联网的人都会因为我们对数字数据宝库的小小贡献而获得小额版税。
如果 Google Zero 开启了一个共同繁荣的时代,那不是很棒吗?
更现实地说,人工智能公司会继续免费获取和复制他们能复制的一切,急于创造新的用户习惯,这些习惯可能会在未来的某个时候带来利润。
在某种程度上,我们都是斯嘉丽·约翰逊,等待着面对一个我们自己的不可思议的反映,这个反映是在未经我们允许的情况下创造出来的,我们不会从中得到任何好处。
原文:
Faux ScarJo and the Descent of the A.I. Vultures
by Kyle Chayka