中国大模型语料数据联盟迎新!领域大模型市场空间大 高质量的语料数据仍供应不足|数商大会

2023-11-29
关注

《科创板日报》11月27日讯(记者 黄心怡)语料数据是大模型训练的重要“燃料”,有助于大模型更好地适配实际的应用场景。业内人士普遍认为,高质量的中文语料对于大模型在各行各业的应用十分关键。

在2023全球数商大会“数据要素市场与大模型语料库论坛”暨中国大模型语料数据联盟开放日上,中国大模型语料数据联盟迎来了第四批新成员。

今年7月6日,中国大模型语料数据联盟于世界人工智能大会开幕式上宣布成立。此次新加入的成员包括上海市新能源汽车公共数据采集与监测研究中心、华院计算技术(上海)股份有限公司、星环信息科技(上海)股份有限公司、上海市人工智能行业协会、上海稀宇科技有限公司、上海四维图新科技股份有限公司、上海世纪出版(集团)有限公司、上海第二工业大学、上海市人民检察院、瑞因凡(上海)智能科技有限公司、北京晴数智慧科技有限公司、北京清博智能科技有限公司。

同时,上海人工智能实验室和人民网两家联盟发起单位正式揭牌成立“中国大模型语料数据联盟安全治理专委会”

上海人工智能实验室生态中心负责人、合作交流与知识产权部部长王宇表示,中文的数据语料在OpenAI领域中大概只占到非常少的比例量,90%以上都是英文的。那就意味着未来中文语料的稀缺,对大模型产业发展有巨大的影响。此外,大模型未来跟意识形态紧密相关。因此,数据需要有安全治理的体系。这也是成立中国大模型语料数据联盟安全治理专委会的初衷。

上海人工智能实验室治理研究中心副主任王迎春表示,该专委会希望推动一些工作,包括共建超大规模的高质量安全可信的语料库、

“一是安全维度的评测数据,比如利用监管的要求,共同设计更全面系统的、更全维度的框架,像涉政、涉法律、涉伦理等。如果对这些维度进行精准标注,也许有上百个,甚至上千个类别;二是对于评测的方法和多种工具的方法,要立体的来做这个事情;三是开源测评数据的共建,打造一个大规模的、高难度的、广泛覆盖的细颗粒度标注的中国安全评测数据集。此外,还有安全可信的训练数据,比如构建海量规模,覆盖多语种的大模型训练及安全对齐的语料数据集。”

上海数据交易所市场发展部副总经理章健介绍,当前大模型行业的语料发展,依然存在一些痛点。包括:语料库的供应不足,特别在垂直细分领域,语料有提供共享、免费下载的,量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量,是不是高质量的语料数据。”

同时,在某些特定的领域,像视频等多模态的项目存在语料的多样性匮乏。此外,还要推动语料库标准的建设,包括分类分级,把整个关于数据语料的行业能够纳入到更有序健康发展的轨道。

今年5月,星环科技发布了金融行业大模型“无涯”,是一款面向金融量化领域、超大规模参数的生成式大语言模型。星环科技联合创始人、技术副总裁刘汪根在会上表示,目前无涯大模型在金融领域对上市公司多维度的分析,包括财报分析、语言分析已经卓有成效,可以对规范标准进行非常好的问答。

财联社技术总监叶周介绍,财联社和星环已经联合打造了风险预警系统。“由财联社提供各种数据来源的储备和接入,星环提供聚类和风控的识别,再到财联社这边进行运营和计算,然后进行风险事件的入库。在这个基础之上,可以做离线分析或者告警预警、趋势预测等等一系列的应用。”

该系统的一大优势是采用混合模型。“现在家家户户都在讲大模型,但其实很多任务不需要用大模型来做。因为大模型无论在训练的效果或者对齐的难度,或者使用成本来说,还是比较高的。有些情况下用一些小模型,或者传统的机器学习的模型都能完成的不错。把这两者结合起来,就可以得到一个很好的效果。”叶周说。

对中国大模型领域未来行业格局,中金计算机首席分析师于钟海表示,术业有专攻在大型语言模型领域同样适用,而领域知识仍然是应用落地的重要前提和护城河

“对于市场空间大的关键垂类,比如像金融、教育这些领域,就有足够有钱的客户,愿意花钱精细调优来获得一个更好的垂类模型。而泛化通用超大模型,则服务于中长尾的广泛需求。这就像中国的私有云和公有云格局是一样,中国私有云我甚至找不到一个很好的市场份额的图片,但公有云是一个很明显的规模效应,它会相对更集中一点。”

您觉得本篇内容如何
评分

相关产品

上海自连电子 自连ALXB15i网桥 智能终端

自连科技于2013年在上海成立,是一家拥有“专精特新”、“双软认证”、“高新技术”认证的高科技企业。自连科技是国内领先的物联网软硬件技术方案提供商,主要提供物联网智能部件、智能终端、智能传感设备、中间件套件、云接入技术、数智云平台等多元化产品。自连科技一直秉承“自连一切 一切智连”的理念。公司通过了ISO9001:2015 质量体系认证,众多产品通过FCC、CE及RoHS认证,拥有多项技术专利及软件著作权。建立了AiDK、AiSDK、AiDMS和AiCloud 4大核心智能物联技术平台。具有丰富的无线连接、组网及传感技术、超1公里远距离无线通信技术、高带宽无线通信技术、精准室内位置定位技术、低功耗人工智能AI技术等核心能力。

清大菲恩 PR3000 全自动压力检定系统

作为国内首创的高科技产品,菲恩全自动压力检定系统,将人工智能(AI)技术成功地应用在计量检定产品中,它采用了当代最新数字图像识别技术(即人工视觉)和精确的数字化压力控制技术,使压力表的检定工作实现了全过程的自动化我公司推出的PR3000全自动压力检定系统,采用高分辨率工业数字摄像机代替人眼获取图像数据,用独创的先进计算机算法进行分析识别,从而使人们永远地告别了传统的人工肉眼读表过程,不仅极大地减轻了人工劳动的强度全部由电脑自动控制的精确造压功能,在减轻人工体力消耗的同时,使得加压过程的操作变得十分简便和精确。

评论

您需要登录才可以回复|注册

提交评论

科创板日报

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

人工智能发展所带来的变革与反思

提取码
复制提取码
点击跳转至百度网盘