数字人是推动元宇宙到来的重要推手 原创

2022-06-01
关注

​【51CTO.com原创稿件】过去一年来,元宇宙成为企业和投资界和投资人共同关注的话题。对于元宇宙,各界人士都有自己的理解和关注点,在日前51CTO主办的MetaCon元宇宙技术大会上,商汤科技数字空间事业群数字文娱事业部产品总监高瑞声带来了主题演讲《元宇宙虚实世界的人工智能技术》,分别从市场和资本关注元宇宙的目的、元宇宙本身的市场布局以及核心的技术、打造数字人以及数字人典型的应用场景和案例等角度来谈元宇宙。

高瑞声认为,数字人其实可以定义为一个未来世界的超级员工,由于数字人能够拥有人的外观、人的肢体语言行为、人的大脑,因而代替部分的人力,甚至超过真人所能做的事情和能力,这样就可以为企业节省人力资源成本,降本增效,同时助力城市的数字化转型。

本文摘选并整理了其中的精彩内容,希望可以给大家带来思维的启迪。

一、AI引擎层的作用

构建虚拟的平行世界,即元宇宙Metaverse,是人类一直以来的梦想,它主要有三个核心元素来组成。第一个是虚拟化身(Avatar),第二个是AI数字人(Software Agents),第三个是物理空间的三维重建(Three-Dimensional Space)。这三个核心元素组成了Metaverse元宇宙。

市场关注元宇宙主要有两方面原因。首先是从PC端互联网到移动端的互联网,流量逐渐趋于枯竭,我们希望能够从下一代比如说元宇宙挖掘到新的流量红利。其次是技术在不断驱动和发展,信息从最开始的一维,比如文本、语音,到后来的二维平面,比如图像、音视频,再到三维,比如音视频空间,用脑机接口实现的五感真实等。

从上面两点可以得出,以三维全景为主要信息形态的元宇宙,就要成为我们一个新的产业趋势。

元宇宙的系统分层主要有这几层:基础设施层、显示硬件层、OS层、3D引擎层和应用层。 

有很多公司客户希望能做元宇宙的一些应用,比如说社交应用、办公协作等,但是他们会遇到一个非专业内容制作的挑战。要解决这个挑战,就涉及到AI的引擎层,也是商汤科技的定位。

怎么理解AI这个引擎层呢?可以从人脑和AI的关系来说起。人脑能做到什么呢?

一是能理解,包括对人物的认知和理解、对场景的认知和理解。

二是内容生成。平常做梦能梦到一些我们脑海里的人物和场景,这就是内容生成。一些优秀的画家,能画出来自己脑海中的人物和场景。

相应地,AI引擎层能为人物生成的数字人生成引擎,其能力主要分为这三个能力。

一是让人轻松地拥有数字人。例如,利用拍照生成的能力,可以快速生成千人千面的虚拟形象。比如说韩式动漫的风格,二次元风格以及3D超写实风格。

二是我们用AI去打造这种成熟的NPC群体,例如AI数字人。数字人主要有三方面的特征,首先,它有人的外貌特征,比如她是一个美丽大方可爱的小姐姐。同时它有人的面部表情和肢体语言、动作、行为这样的特征。其次,它有人的大脑,就是我们的多模态的人机交互NLP,它可以通过输入外界的环境信息,在NLP大脑中进行处理,与人进行交互,与人进行沟通、交流,为人提供服务。能够部分或者全部替代人力成本,助力于城市企业去发展进行数字化转型。

三是三维高清的重建技术,可以快速地去重建三维的数字空间。 

 有这三个能力我们就可以形成并打造数字世界的智慧解决方案,构建城市不同场景的虚拟的元宇宙空间,在这个虚拟的空间内,人们可以跟朋友、家人、同事一起去跨越这种时空,跨越这种距离,来进行面对面的沉浸式的沟通、交流和体验。

人们可以体验在哪些方面呢?可以有这几个步骤。

第一步是虚拟人物快速生成。如果城市希望吸引年轻人,可以让年轻人自拍,一键生成专属卡通风格的形象,比如韩式的动漫风格或者日式的动漫风格。人们可以用这个虚拟形象开启一段虚实融合的新的旅途。

 

第二步是实景三维高精重建内容的快速生成。人们可以用一个无人机飞一圈,快速重建一个三维高精的场景。同时还可以跟合作团队一起去重建高精的三维空间。

 

第三步就可以用之前建好的虚拟分身一起在虚拟的空间内看看这个城市的风景,比如说厦门、鼓浪屿。

 

这个国外像Facebook等公司已经做了,比如说Facebook的Oculus里边的Horizon Worlds,里面就是重建了洛杉矶、旧金山,大家一起去构建这个城市地标的虚拟的元宇宙空间,可以让用户去跨越距离,去体验城市的美。

第二个场景是虚拟的政务大厅、企业大厅,比如运营商的网点、银行的线下网点等。企业可以创造一个聪明的数字人,它可以为用户去提供便捷服务,比如说迎宾、业务咨询、信息展示、业务办理,从而让群众足不出户就可以高效地办理业务。

 

第三个场景是虚拟展会。展会不能用视频的会议软件去看,而虚拟展会可以全景的展示。在国外,比如在Oculus里有这样的应用big screen。在Lobby里可以看到世界各地的人都在这个空间里边去逛、去聊、去看最新的产品。

 

    二、数字人的核心技术

数字人可以定义为一个未来世界的超级员工,它是一个基于AI的多模态的人机交互系统。数字人有三个特征,有人的外观、人的肢体语言行为、人的大脑,因而代替部分的人力,比如说智能助手、智能客服、智能导购员、智能讲解员和形象代言人。未来数字人可以全部替代人力,甚至超过真人所能做的事情和能力,这样可以为企业节省人力资源成本,降本增效,同时助力城市的数字化转型。

数字人的平台能力输出主要有三部分。

第一,可以在管理能力平台里对数字人进行知识体系的管理、知识的管理,比如明确数字人说什么话、做什么样的问答、提供什么样的服务,同时对数字人的形象可以进行配置,比如对数字人进行远程控制、OTA升级等。

第二,在算法能力平台,用算法模型的技术对数字人进行渲染、驱动等。

第三,应用层拓展,帮助数字人在地产、商超、园区、酒店和各种办公大厅进行落地,同时可以在手机端、PC端、平板电脑、一体端、大屏、AR、VR眼镜、车机等进行展示和交互。

数字人可以按能力进行分层,一个维度是自动化的制作水平高低,另一个维度是拟人化、智能化程度的高低。 

商汤科技已落地的产品形态和功能包括线下场景,线下场景、C端触达场景等。

商汤科技在数字人方面有五大优势,一是有丰富的数字人形象;二是能快速生成和驱动虚拟人;三是有精细的数字人还原;四是多样驱动;五是行业领先的AI算法,包括让口型更加准确的自研STA的算法模型和让问答更加智能的自研NLP系统。

 三、数字人的应用场景

提到数字人的典型应用场景,第一个是虚拟代言人。

很多人从去年已经非常深刻地感受到了这个行业的痛点,比如真人明星的道德包括绯闻这些问题是不可控的,还有明星的排期、档期等也是不可控的。

用传统方法制作一个影视级的CG虚拟人,制作成本非常高、周期很长。商汤科技通过快速的数字人生成和驱动方式,可以让虚拟代言人非常便捷地去进行多媒体资源的输出。 

第二个典型应用场景就是金融,可分为线上和线下。线上可以将数字人嵌入到金融的App、H5、小程序里,让数字人承担智能客服、理财推荐等工作。线上金融有一个很大的痛点就是一些年长的叔叔阿姨,他们年龄大了,但是有钱也有闲,他们是绝佳的目标用户人选。但是这些大叔大妈不太会使用App,这时候数字人可以通过对话交互的方式,去告诉他们怎么使用App,同时通过对话交互推荐理财产品,来提升复购率和购买率。

线下的场景就清晰了,数字人可以减轻人力的资源成本,部分替代大堂经理的工作,起到降本增效的作用。 

 第三个是新媒体创新应用场景。在近几年,虚拟直播、二次元、短视频等新兴词汇已然不再单单是一个符号,每个词背后所蕴含的经济规模、从业人数,都已经不可同日而语。上述这些新兴市场都有同一个特点,那就是技术驱动和内容驱动。针对这一特点,商汤科技提早布局,早在这些行业方兴未艾之时,就已经形成了从底层算法、SDK到平台交付的能力与产品。无论是短视频和二次元平台的虚拟美妆和数字人Avatar,还是帮助传统行业快速切入年轻化市场的数字人视频生成平台,我们正在不断提供成熟且贴合客户需求的综合技术能力。 

第四个是文旅场景。商汤科技在上海的中共一大纪念馆专门做了一个数字人一体机,它一方面可以对用户进行场馆的介绍,比如说哪里可以买纪念品,展区怎么走,卫生间在哪里等,另一方面它对中共一大的知识专门做了整体的训练和学习,无论游客问出什么样的中共一大的知识和问题,数字人都能够回答。

除此之外,还有数字人超大屏,可以发挥这样几个作用,比如信息展示、进行员工关怀,迎接参观客人等。 

除了上述场景之外,商汤科技的数字人也在新零售与虚拟主持人领域有广泛的成功案例。商汤的数字人智能导购不仅可以承担一般商超导购、前台的事务性工作,其背后的人工智能技术更可以让智能前台成为整个商超的“百晓生”,无论是某位会员的停车位,还是当下各个店铺的打折优惠信息,她都能游刃有余服务好每一位顾客。“秀外慧中”的数字人也可以承担各类线上、线下活动的主持人工作,并根据活动主题变换不同外观、服饰、甚至性格和语言风格。

 

总之,数字人可以给不同行业提供解决方案,包括金融行业、政务行业、商场行业、展厅、车载、形象代言人、直播带货等,相信数字人在今年也会有更好更大的发展。

 要想了解更多元宇宙网络及运算相关内容信息,可查看MetaCon元宇宙技术大会官网,地址:https://metacon.51cto.com/​

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

51CTO

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

人工智能驱动的机器人,可应用于各个行业

提取码
复制提取码
点击跳转至百度网盘