嘿,ChatGPT这下危险了

2023-12-10
关注

这是一个比ChatGPT有趣更多的新家伙。先来看看他们的演示(不是聊天框,而是实时的视频和语音互动):



一张纸、一条弯曲的线、看到喙和爪子觉得是鸟,有了水波纹立刻就认出了鸭子(当然,你要非抬杠说是大鹅,也行……)。整个过程就像那个著名的超人梗“It's a Bird... It's a Plane... It's Superman”——简直和人分辨视觉信息的感觉一模一样。



接下来它看出了颜色,而且清楚地知道“蓝鸭子”这玩意可不多见;当画面中沧桑的双手拿出了一个“小蓝鸭”,它也认出了材质,并知道这个“蓝鸭”可以浮在水上——而这是通过挤捏的动作确认的。



它非常清楚,这是一个立体的鸭子放在平面的世界地图上(它还知道蓝色是的海洋,黄绿色的是大陆)。



最有趣的是这部分:三个杯中扣纸团,猜猜是哪个?(后面还有一个猜手中硬币的环节,啥都瞒不过)



它可以识别手势,无论你是在猜拳,还是模仿动物。



还可以识别视频中不断变换的物体,并归类说明。



甚至可以做编织刺绣爱好者的“设计指导”。



还记得这个么?小时候我最爱玩了,一下子被它整得没乐趣了!



可以看懂手绘乐器和与之关联的背景(难为它了,画得的确太糙了……),并随之变换不同音乐风格(后面的完整视频中,你可以听到)。



还能够看懂视频中的视频。


它眼中的世界也许跟你一样


上面演示的,是Google刚刚发布的Gemini(本意为双子座,就是上面演示视频最后出现的那个星座)大模型——这是一款“天生多模态”的AI大模型。



官方称其为“Google 迄今为止规模最大、能力最强以及最灵活的AI模型”。


你大概在过去一年里,伴随着各种“大模型”,反复听到过“多模态”这个词:简而言之,如果一个AI和你的交流方式包括文字、语音、图像等,就是“多”;只有一种,就是“单”。


但这里有一个问题,我们在这一年接触到的大多数“多模态”,其实都是单一模态的不停切换:先在对话框里聊两句天,再来个语音识别转文字,最后整一张画给AI看,或者让AI整一张画给你看——是不是很熟悉的流程?


举个例子,你身边是不是有很多这样的同事:一下午只能做一件任务,剪了视频就不能做表格;做了表格就没法找客户;找了客户就没法剪视频……(除非是摸鱼,一次能摸好几种)这时候你老板通常会表扬他:倒霉孩子,真是一根筋!


但如果优秀如你,也许可以并行同时完成两到三项工作——Gemini就是AI中的你。在上面的演示视频中就可看出,既然号称“天生多模态”,它展现出的其实是一种“跨模态”的“天赋”。文字、语言、画面、声音……做到同时接受和表达,这就非常接近人类天然对于外部世界的理解和交互方式了。


不光是GPT,各种“专家”这回也悬了


Gemini这次公布了三种尺寸:


Gemini Ultra:规模最大且功能最强大的模型,适用于高度复杂的任务;


Gemini Pro:适用于各种任务的最佳模型;


Gemini Nano:端侧设备上最高效的模型。




以保障它能高效运行在从数据中心到移动设备的多平台上。


在这次的发布和展示中,Google公布了Gemini最具先进性的几个特质:


遥遥领先(不信你看今天媒体的说法,都是“完爆/暴打GPT”)


从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。


首次超越人类(这回是真的……)


Gemini Ultra 的得分率为 90.0%,是第一个在 MMLU(大规模多任务语言理解)测试中超过人类专家的模型,MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试世界知识和解决问题的能力。


真的认识字啦!


在图像基准测试中,Gemini Ultra 在不使用对象字符识别(OCR)系统来提取图像中的文本进行下一步处理的情况下,表现优于以前最好的模型。



目前,在 Bard 已经可以体验 Gemini 的 Pro 版本(暂时限英语),未来几个月将扩展不同的模态,并支持新的语言和地区;手机端,Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机,它可以支持录音应用中的“总结”等新功能,并在 Gboard 中推出“智能回复”功能;未来几个月,Gemini 也将出现在Google的搜索、广告、浏览器和智能办公助手当中。


大妈不是大妈,大爷还是大爷


大概是过去一年OpenAI占据的太多眼球(无论是技术、产品,还是人),有趣的是,这似乎暗合了Google当年推出Transformer架构时的论文题目Attention is all you need。一年之中,凡谈及AI,则言必称OpenAI和GPT,很多人似乎忘记了Google在AI方面雄厚的基础和持续进步。


看看这张Gemini之前Google的AI里程图:



如今面对Gemini,刚刚动荡平息的OpenAI又将如何应对呢?是传说中的Q*还是人们翘首期盼的GPT-5?


本文来自微信公众号:果壳 (ID:Guokr42),作者:卧虫,编辑:malt

您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 水质生态浮标浮台在线测系统 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

微科技

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

走向太空,还是拥抱AI,人类的未来在何处?

提取码
复制提取码
点击跳转至百度网盘