长了眼睛和嘴,chatgpt开始入侵物理世界 -k8体育

向着「贾维openai,又悄咪咪地放大招了。当地时间 9 月 25 日,openai 在k8体育官网更新博客,宣布 chatgpt 已经具备看、听、说的能力。这是 gpt-4 大型语言模型推出以来*的一次功能更新。从官方放出的应用案例来看,通过手机摄像头和麦克风,chatgpt 现在已经能帮助人们解决实际问

向着「贾维

,又悄咪咪地放大招了。

当地时间 9 月 25 日,openai 在k8体育官网更新博客,宣布 chatgpt 已经具备看、听、说的能力。这是 gpt-4 大型语言模型推出以来*的一次功能更新。

从官方放出的应用案例来看,通过手机摄像头和麦克风,chatgpt 现在已经能帮助人们解决实际问题。例如用手机拍一下共享单车的照片,并且询问人工智能助手如何调节座椅,chatgpt 就可以看懂图片,并且给出相应步骤。

随着技术的快速迭代,生成式 ai 竞赛正在进入了一个全新的阶段——多模态之争。在这个阶段,各大科技公司纷纷推出了一系列新产品和功能,通过人工智能技术打破传统搜索引擎和聊天机器人的局限性的同时,也为用户带来更加丰富和精准的交互体验。

那么,「升级」了的 chatgpt,是否能成为「」一样的 ai助理,帮助人们打点生活了而 openai 又是怎么做到的?

01

chatgpt 长了眼睛和嘴巴 

生成式 ai 竞赛的下一个阶段正在来临——多模态之争。

最近,meta 推出了 audiocraft,用于通过 ai 生成音乐;谷歌 bard 和微软 bing 的聊天体验也已部署了多模态功能;亚马逊也在借助 llm 的力量来增强其 alexa 数字助理(为 echo 系列智能设备提供支持)的功能,9 月 25 日刚刚宣布斥资 40 亿美元投资 openai 的竞争对手 anthropic,后者是 claude 2 聊天机器人的制造商;苹果也在试验通过 ai 生成语音,即 personal voice。

而在上周发布支持文本和排版生成的最新图像生成模型 dall-e 3 之后,当地时间周一晚,openai 发布了《chatgpt 现在能看、能听、能说了》的公告,宣布对 chatgpt 进行重大更新,使其 gpt-3.5 和 gpt-4 人工智能模型能够分析图像,并作为文本对话的一部分对图像做出反应。

此外,chatgpt 移动应用程序还将增加语音合成选项,与现有的语音识别功能搭配使用时,将实现与人工智能助手的完全语言对话。

根据k8体育官网,chatgpt 现在已经具备了如下功能:

语音功能

openai 在公告中称语音功能由一个新的文本转语音模型(text to speech)驱动,只需要文本和几秒的语音样本就可以生成类似人声的音频。一方面,openai 与专业配音演员合作创建了语音条,另一方面,openai 还使用了自己开源的语音识别系统 whisper,可以将用户的语音转录为文字。

长了眼睛和嘴,chatgpt开始入侵物理世界

chatgpt 已经有了语音交互能力|openai

该功能推出后,用户可以在应用的设置中选择语音对话,然后从「juniper」、「sky」、「cove」、「ember」和「breeze」等五种不同的合成声音中选择一个,说出他们想要的内容,机器人就会使用所选的语音提供答案。例如,人们可以询问睡前故事,或者就餐桌上正在进行的谈话提出问题。

不过,语音对话功能的使用可能面临有一些限制。openai 表示,该模型在转录英文文本方面表现出色,但在一些其他语言,特别是使用非罗马字母的语言中表现不佳。因此,建议非英语用户使用 chatgpt 来进行此类用途时要慎重。

图像理解

openai 表示,chatgpt 中的新图像识别功能允许用户上传一张或多张图像,使用 gpt-3.5 或 gpt-4 模型进行对话。

这些模型将其语言推理技能应用于各种图像,如照片、截图和同时包含文本和图像的文档,人们只需点击一张图片,将其添加到聊天中,并提出潜在的问题,chatgpt 就会根据所附文本分析图片,并给出答案。

它甚至可以围绕该主题进行前后对话。按照 openai 的说法,用户可以上传某物的图片并询问 chatgpt 相关问题——比如在旅行时拍一张地标的照片,让 chatgpt 来讲述景点的有趣之处;拍下冰箱和食品储藏室的照片,找出晚餐要吃什么 (还可以问一些后续问题,以获得进一步的食谱)。

在官方提供的示例中,一张自行车的照片上传到 chatgpt 界面,之后询问后者如何将座位调低。chatgpt 首先询问了自行车的型号,因为座位的调整方式因车型而异。它详细解释了不同车型可能采用的快拆杆或螺栓的区别,并提供了相应的步骤。

然后,官方制造了一点混淆,拍摄了一张螺栓的照片,并在图中用官方的画图工具突出显示,试图让 chatgpt 分辨是螺栓还是快拆杆。chatgpt 很快指出图中所示的是螺栓,并建议用户寻找内六角扳手来解决问题

接着,官方拍摄了一张工具箱的照片,向 chatgpt 询问到底是哪一个扳手。chatgpt 再次表现准确识别出所需的扳手,并清晰地指导用户选择正确的尺寸。这个示例清楚地展示了 chatgpt 在解决实际问题时的实用性和智能响应。

在去年 3 月 gpt-4 发布时,openai 就已展示了该模型解析文本和图像的初步能力,很快,这些能力将成为 chatgpt 使用中更常见的存在。

openai 将在未来两周时间里向为 plus 和企业用户推出上述功能。用户可以在 ios 和 android 使用 chatgpt 的语音合成功能,图像识别功能则在网页和 app 端均可用。

02

能力越大,责任越大 

在 chatgpt 发布近一年来,openai 对其底层模型和界面进行了多次更新。而任何生成式 ai 的进步都需要考虑严肃的伦理和隐私问题。

openai 在公告中声称其目标是开发安全且有益的通用人工智能,「我们相信,逐步提供我们的工具,可以让我们随着时间的推移不断改进和完善风险缓解措施,同时也让大家为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型来说,这一策略越来越更加重要。」

毕竟,新语音技术能够仅从几秒的真实语音中创造逼真的合成语音,这为创造性应用打开大门的同时,也带来了新的风险,比如恶意冒充公众人物或进行诈骗等。

为降低音频深度伪造的风险,openai 表示它已将语音合成功能的使用范围限制在语音聊天和某些已获批准的k8体育的合作伙伴关系中。其中包括与流媒体公司 spotify 的合作——spotify 正在使用其背后的技术为平台上的播客翻译不同语言的内容。spotify 个性化副总裁齐亚德-苏丹(ziad sultan)在一份新闻稿中说:「通过与创作者本人的声音相匹配,语音翻译让世界各地的听众能够以前所未有的真实方式发现新的播客,并从中获得灵感。」

同样,为了避免图像识别带来的隐私和准确性问题,openai 还限制了机器人对输入图像中出现的人进行分析和直接陈述的能力,其表示已经「采取了技术措施,以限制 chatgpt 分析和直接陈述个人信息的能力,系统还是应当尊重个人隐私」,但是真正的恶意利用情况还是要在它面向公众推出后才能知道。

这次 chatgpt 推出的语音交互和图像识别功能,为聊天机器人带来了更强的实用性,让它们从简单的文本处理工具更贴近真实生活。

同时,这似乎也预示着未来 ai 系统的发展方向——不仅要理解抽象的文字世界,还要能感知复杂的语音和图像信息,甚至是物理世界,从而真正进阶达到人机交互的境界。

(0)

相关推荐

  • 高考志愿填报生意经:收费从几百到上万元,大厂也入局,有人交上万却落榜,从线下到线上,从几百元的“志愿卡”机器填报到动辄上万元的一对一指导,其中差距在哪?

    2023年6月27日 创投
  • 一顿50的老乡鸡也是「料理包」?想吃点好的打工人破防了,别说老乡鸡,大部分餐厅都是预制菜,想吃现炒现做有“锅气”的,得找人均超过500的馆子。

    2023年6月26日
  • 狂人兰世立再创业,从天入地,去年,天彩控股将武汉秀生活收至麾下后,市场对“兰世立概念”似乎兴趣不大,今年以来,公司股价基本在1.3港元上下浮动。

    2023年6月9日
  • 工商银行跨行转账多久到账?据悉若是同行转账,一般情况下,可以实时到帐;若是跨行转账,一般情况下,下一工作日即可到帐。 工行的跨行转账有几种方式。同城电子支付,可实时到账,必须工行卡…

    2022年1月25日
  • 苏州,正式升级了。日前,苏州官方发布情况说明,对内部行政区划调整的传言进行了辟谣,表示只是城乡分类的统计口径调整。并提到,按照新的统计口径,苏州城区常住人口达到512.51万人。大家都知道,我国的城市规模等级,是按照城区常住人口计算的,分为五类七档。这意味着,苏州正式从ⅰ型大城市,升级为特大城市。城

    2023年9月19日
  • 抖音对东方甄选亮「黄牌」,无论是沉淀私域流量到app,还是以看世界账号为跷板跨界做文旅,亦或者是推出付费会员模式,这都需要时间慢慢做。

    2023年7月28日 创投
  • 这家明星ai企业烧不起钱了?,面对微软和谷歌这样的“钞能力”玩家,stabilityai并没有深不见底的钱包口袋,也没有金主承担训练模型的巨额费用。

    2023年4月13日
  • 去年,“年轻人为何不爱吃鸭脖了”的话题曾多次引发热搜,到了今年情况又出现了转机。不久前,卤味巨头们接连发布上半年财报,上半年,周黑鸭实现营业收入14.1亿元,同比增长19.8%;绝味实现营收37.0亿元,同比增长10.9%。从营收数据看,卤味企业们似乎又支棱起来了。但细看它们的盈利能力,卤味企业仍然

    2023年9月6日
  • 梁家辉救不了马自达,一些粉丝或许对马自达电动化抱有期待,但市场永远不会停下来等待。

    2023年7月1日
  • 这几天,关于无人驾驶的讨论越来越多,那么在无人驾驶板块有哪些公司算是行业里的优质股呢?这篇文章就跟大家聊聊这个话题! 北汽蓝谷:公司于2018年发布全新技术品牌“达尔文系统”,实现…

    2022年1月25日
  • 对于很多的职场人来说对于企业年金都是又爱又恨的,因为企业年金确实是一个非常好的福利措施但是在离职的时候确实也非常的纠结,那么如果大家想要离职的话企业年金能够退出或者提出来吗?以下文…

    2022年1月25日
  • 半年营收数亿元,扭亏为盈的biotech路向何方?,近两年,创新药产业从高位逐渐回归理性,当前的成绩,只是国内生物医药创新企业的初步商业化论证,还远没到预期的蓝图。

    2023年7月25日
  • 帝国十年,谁的蛋糕塌了,三个人之间小到唱跳实力、颜值状态、录取学校,大到商业代言、播出综艺电视剧的热度、电影票房等等,都是粉丝之间比较的指标。

    2023年8月8日 创投
  • 9月1日,中国国家药监局药品审评中心(cde)k8体育官网公示,aurealis therapeutics与未知君生物(xbiome biotech)联合申报了1类生物新药aup1602-c的临床试验申请,并获得受理。公开资料显示,aup1602-c(又称aup-16)是一款基因工程菌药物,未知君生物通过一

    2023年9月26日
  • 90后女飞行员:18岁选对工作,30岁想成为机长,在成为飞行员的路上,必须要拥有强大的抗压能力和心理承受能力,不管男女都一样。

    2023年8月14日
网站地图