吕建成:人工智能大模型时代的机遇与理论挑战

2022-06-27
关注

  近日,在2022昇腾AI开发者创享日·成都站上,四川大学计算机学院院长吕建成进行了主题为《人工智能大模型时代的机遇与理论挑战》的精彩演讲。

 

  随着人工智能技术不断赋能社会,促进新一轮科技革命和产业变革。而大模型是深度神经网络发展至今的一个重要成果,对此,吕建成从三个方面进行了洞察与解读,即,深度神经网络的发展、大模型发展与应用、大模型的机遇与挑战。



 

  深度神经网络的发展

 

  吕建成表示,从人工智能诞生以来,神经网络就伴随着人工智能的发展,经历了两次繁荣与低谷。从人工智能的发展史来看,我们可以说,深度神经网络是人工智能的核心技术之一,目前也是最成功的人工智能方法之一。

 

  关于神经网络的研究,大致可以分成四个重点研究内容:网络学习相关的问题、特征提取相关的问题、网络规模选择的问题以及硬件实现和基础理论研究的问题。

 

  目前来看,网络学习和特征提取的相关工作已趋于成熟,网络规模的选择是一个研究的重点,一方面是设计规模越来越大的网络;而另一方面,是网络的轻量化,以便于部署在终端设备上。

 

  硬件实现和基础理论的研究也是神经网络的深度研究重点,硬件方面一个是加速芯片,一个是AI类脑芯片;基础理论方面,有著名的万有逼近定理,也许多学者在研究其他的一些理论;但至今,神经网络还没有完善的理论基础体系。

 

  大模型发展与应用

 

  谈到大模型的发展与应用时,吕建成表示,从2012-2018年神经网络模型的发展来看,神经网络的模型是越来越大,同时也获得更高的准确率以及处理更多的数据。那么,为什么需要大模型?大模型是怎么发展来的呢?

 

  我们不难发现,大模型的发展有三个重要的驱动力:第一个是处理大数据的需要。根据国际权威机构Statista的统计和预测,2035年全球数据产生量预计达到47ZB,我们需要数据处理能力更强的人工智能技术;第二个是应用的需要。根据实验数据,模型参数量越大,模型在应用中的精度越高,能力越强;第三个算力快速发展的推动。例如,刚刚上线的成都智算中心,AI算力规模达到300PFLOPS,采用基于昇腾AI基础软硬件的国产化AI集群,能够为大模型提供大算力的支持。

 

  吕建成介绍了在大模型的发展过程中的几个重要工作:

 

  1、预训练微调思想。2012年,AlexKrizhevsky在他的“ImageNetClassificationwithDeepConvolutionalNeuralNetworks”论文中用“pre-training+fine-tuning”命名了一种神经网络参数初始化和训练的方式,提出了“预训练+任务迁移”的研究范式。

 

  2、2018年,OpenAI提出了单向生成语言模型GPT。同一年,谷歌提出了双向编码器BERT,在下游任务上取得极大的效果提升,语言大模型问世。与此同时,“预训练+微调”成为大规模训练数据的主要方法。人工智能进入大模型时代。

 

  在过去的3年内,语言大模型得到飞速发展,继而从自然语言快速渗透到视觉领域,并有面向行业应用的大模型发展趋势。比如,华为在2021年提出的盘古CV大模型超过30亿参数,是当时业界最大,首次兼顾图像判别与生成能力。大模型刷新ImageNet1%、10%数据集上的小样本分类最高准确率。展现了强大的小样本数据上的迁移能力。

 

  除了单一模态数据(文本或者图像),研究者将模型学习的数据来源扩展至多模态。这将帮助大模型拥有更广泛的“知识”来源,并应用于更广阔的下游任务。

 

  回顾大模型的发展,吕建成认为大模型的成功离不开3大基础设施:大规模数据、可大规模扩展的算法与大规模算力。高质量的数据决定了大模型的性能;数据收集、处理已经成为了需要专门团队负责的复杂流程。基于昇腾AI的鹏程.盘古大模型就拥有了复杂的数据收集流程,包括数据清理、过滤、去重,向我们体现了专业的数据收集能力。

 

  大模型的成功也离不开算法的发展。例如,残差网络能有效解决模型变大后梯度消失的问题,Transformer则解决了序列模型并行高效计算的问题。

 

  目前,“大模型”已在实际经济生活得到应用,并有面向行业大模型发展的趋势。华为昇腾构建的大模型产业生态,帮助广大开发者共同探索大模型应用落地,比如基于华为昇思打造“紫东.太初”多模态大模型被应用于纺织生产的声音质检。



 

  大模型的机遇与挑战

 

  演讲的最后,吕建成对大模型的未来机遇与挑战进行了阐述。他表示,大模型虽然取得了巨大成功,但仍然面临各种理论挑战。他提出了几个疑问,大模型是否过拟合?是否鲁棒?是否真正拥有知识?大模型能取代知识图谱吗?大模型的未来真是越大越好吗?究竟做多大才够?我们最终能负担多大的模型?

 

  吕建成表示,我们研究发现,目前大模型还存在这些不足:现有大模型通常面对特定领域、难以达到人脑连接规模、以及全网络运行方式能耗高。最近,研究人员开始探索一些新的大模型构建方法。基于人脑启发,我们提出了类脑超大规模系统,它基于脑区关系进行构建,是一种多层级的网络结构,不同脑区相互配合,互相促进。使用功能和脑区的分析数据,我们借鉴脑区划分和脑区功能机制为启发,构建类脑功能区,模块化构建大规模神经网络模型。

 

  随后,吕建成以视觉功能为例介绍构建过程,视觉功能有33个脑区,可以分为4个二级功能,分别是动作、颜色、形状、其他,我们对应设计的视觉类脑功能区也有对应的4个子功能区。

 

  在构建好类脑功能区之后,类脑功能区如何协同工作,在特定任务场景下,根据脑功能相关脑区协作关系来指导类脑功能区的协同工作。目前,该平台在单模态,和两个模态的任务上,可以灵活构建网络通路,来实现相应的任务,并达到我们的目标要求。基于平台,我们开发了一些应用,如核工业缺陷检测、反应堆运维监测等。

 

  最后吕建成表示,人工智能进入大模型时代,存在前所未有的机遇与挑战。大模型的构建方式,必须要有新的思路。我也相信一定会有新的思路来指导大模型的发展和落地应用。

您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 水质生态浮标在线测站 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

广告
提取码
复制提取码
点击跳转至百度网盘