逐渐增多的联网设备设施,如果不对其产生的海量数据进行治理或分析,仅仅对单独某个企业个体而言,或许都将酿造一场数据灾难。
反之,擅用数据治理并拥有大数据能力的企业,他们的财务表现、做出决策的速度和正确性,都将远远超过竞争对手。
近年工信部密集发布《工业数据分类分级指南(试行)》、《关于工业大数据发展的指导意见》、《关于组织开展2021年大数据产业发展试点示范项目申报工作的通知》等政策通知,旨在提升企业数据治理能力,打造应用繁荣、产业进步的大数据生态体系。
企业们在从传统模式转变到数字化模式一段时间以后,也开始从底层资源需求进阶到数据层需求,他们希望把获取到的数据盘活,对数据价值进行利用,甚至创造新的业务模式。
数据治理的战略地位得到提升。根据赛迪顾问预测,2023年我国大数据产业规模将超过万亿元,2027年将达到1.8万亿。大数据产业链组成丰富,政府机构、技术和产品服务商、场景运营方陆续加入玩家阵营。
大数据产业链,来源:前瞻产业研究院
从2014年发布第一款数据产品开始,青云便紧跟行业趋势和客户需求,配备近百人的研发团队,持续推出了近30款数据产品和服务,涵盖数据库与缓存、消息队列与中间件、对象存储、大数据服务、数据仓库和BI,为百行千业的客户提供优质服务。
近日,青云正式发布“大数据工作台”产品,目标在于帮助企业打通大数据全链路,从海量数据中提炼出最有价值的信息和知识,辅助业务决策和创新。在物联传媒记者向青云QingCloud大数据产品经理刘雄风的提问沟通中,我们进一步看懂了关于大数据的趋势,以及青云大数据工作台发布的意义所在。
一个工厂一天产生2.6亿条数据
互联网时代,大数据分析最常见的用途是了解用户的使用习惯、消费偏好、行为特征等,从而做出个性化推荐。并且互联网大数据对时效没有太高要求,主要是从长期积累中找出关联性。
物联网应用与此不同。数据集成、实时计算分析、统一监控和调度是普遍需求,数据越完整、越全面、反馈实时性越高,企业降本增效的效果就越好。
但物联网数据治理并非易事。
某中国环保行业的领导者,旗下每个工厂分别部署3000多个数据采集点,每个工厂每秒传送数据0.5MB,每天传送数据大小为38GB,数据量为2.6亿条。将情况复制到集团21个工厂,一天的数据量达到54亿条、798GB,保留6个月的数据总量将高达9720亿条、140TB。
数据量大不是唯一特点,很多场景下的数据源更显多样化。
某行业领先的工业自动化测试设备与整线系统解决方案商,其数据源涵盖生产相关设备,如机加工设备、SMT设备、AGV、立库、质检等相关设备,以及生产外运营相关的IoT设备,如水电气、空调暖通、给排水、道闸门禁、温湿度传感器终端等,具有非常强的多样性。
再加上各类设备数据的采集频次、数据留存时间各不相同,需要应用不同的采集策略。
另外在工业、能源等诸多对安全、保密性有要求的场景,其网络环境属于高度隔离状态,数据采集点位于企业工控网,不允许外部访问,这将为数据治理带来新的难度。
总而言之,数据治理值得被重视,且相比于安排专门岗位来计算日常的数据产出、支付这项额外的人力成本,仍然可以将精力专注在核心业务开发上。
按照青云的介绍,一般客户数据量达到GB级别,就具备了使用大数据工作台的条件。对于客户关注的成本问题,青云大数据工作台在复杂场景下,每CU(Computing Unit,1CU含计算资源:1核CPU,4GB内存)每秒可以处理3000条至1.5万条数据,每CU计费模式为0.4元/小时,并且目前青云大数据工作台产品处于公测阶段,支持免费开放使用。
客户厌烦具有“割裂感”的产品
站在客户的角度,大数据的价值不是数据本身,而是背后隐藏的对业务有影响的信息和知识。大数据产品的内涵也不在简单堆叠Hadoop、Spark和Flink等产品组件,客户更加希望有独立的实时计算平台,且平台能带来良好的使用体验。
基于这一点,青云在提供大数据工作台产品的基础上,将其与KubeSphere容器平台和IoT平台形成合力,充分发挥各自优势,组建了完善的“大数据工作台+KubeSphere+IoT”三位一体解决方案。
青云大数据工作台+KubeSphere 容器平台+IoT 平台“三位一体”解决方案
方案架构上,最上层是物联网平台,中间是大数据平台,最底层是容器平台。
在容器平台层,提供按需使用、弹性伸缩、一键扩容、在线运维的功能保障。
在大数据平台层,结合消息中间件、数据仓库、数据服务等云原生产品组件,从横向数据流方面提供一站式的数据实时处理和输出能力;
在物联网平台层,形成“云、网、边、端”统一管理、统一数据采集和统一边缘控制。
这再次证明青云大数据工作台出于打通大数据全链路的初衷而建立,在整合大数据相关产品及服务后,为客户提供一站式智能大数据开发与治理平台,并具有6点突出特性:
第一,开箱即用。公有云环境下几分钟即可完成环境的创建和部署,即开即用、便捷高效。在私有云的部署一般是半天或一天时间完成,且仍在进行一键部署的优化。
第二,弹性扩容。具备云原生弹性扩容的能力,可以帮助客户合理地节省资源,提高资源的使用率。通过提供细粒度管控,最小资源使用的粒度只需要0.5CU,支持按量、包年包月计费,可以更好地适配不同的需求,价格低廉,安全稳定。
第三,存算分离。与青云的对象存储服务无缝衔接,海量数据可以高效、低成本的存储。同时支持数据计算按需扩容,极具性价比。
第四,开放兼容。拥抱开源,百分百兼容Apache Flink,支持平滑上云,通过内嵌的Connector可以无缝对接主流的数据产品和开源大数据生态组件。同时,客户可以将原有的大数据任务迁移到青云大数据工作台上,进行统一的调度和监控,节省运维和调度成本。
第五,安全可靠。按照云原生的架构模式进行设计,可以基于多种基础设施进行部署。内部按照功能模块以微服务的方式划分为多个组件,彼此之间相互隔离,避免相互影响。同时,所有的服务都具备高可用和高扩展能力,可以在部分节点故障的情况下,保障服务的可用性和数据的可靠性。
第六,生态整合。除了青云大数据工作台本身提供的服务外,还可以在云上与其他产品紧密整合,可以连通云平台上孤立的多种数据存储的服务,让客户在云平台上的数据流转更加便捷。
目前上线的青云大数据工作台1.0版本,主要满足数据存储、数据加工、统一存储和服务功能,下一阶段将在数据治理、数据资产、优化体验等方面满足更高级别需求。
没有历史包袱非常关键,专注满足业务诉求
青云此次推出大数据工作台的时间不算早,市面上互联网背景的公有云厂商及通用大数据公司都已在开拓该市场,他们产品的特点大致如下所示:
而从此次青云发布的大数据工作台来看:
与互联网背景的公有云厂商相比,青云大数据工作台基于云原生架构,可以部署在开源的Kubernetes容器平台上,也能部署在其他云原生产品上,这对客户来说更加开放和包容,避免了被云厂商绑定。
同时,青云大数据工作台的界面及功能上没有历史包袱,包括支持提供流批一体的Flink引擎,使客户能更轻松完成对计算集群的创建、管理和销毁,让客户将精力更聚焦在业务计算本身。
另与市面上的通用大数据公司相比,青云大数据平台产品可依托云计算属性,提供快速反馈和更新的能力,并且支持弹性计费和灵活扩容。
同时,相较于目前主流的企业数据中台,青云大数据大数据工作台没有基于传统的Hadoop体系的YARN来做资源调度,而是基于Kubernetes做资源调度,聚焦于数据使用场景下,解决数据集成、流批一体计算、统一运维和统一数据服务共享的问题,通过一站式、便捷低成本的方式,帮助中小企业快速掌握数据价值,构建“云上数据中台”。
当然,大数据市场规模庞大,每类产品都有其主要受众并且可能面向不同的场景领域。
青云大数据工作台将面向4类场景提供服务,分别为:
精细化运营分析场景,包括用户画像、推荐、数据分析、大屏展示、数据治理等场景,主要受众为中小型互联网或移动互联网公司。
实时计算场景,包括IoT终端实时数据分析、实时用户日志分析、实时运营数据分析、实时风控等,主要受众为智慧工业、智慧零售等对实时数据有加工处理需求的企业。
可视化开发与运维场景,包括数据ETL、数据挖掘等场景,主要受众为以学习或科研为目标的客户。
构建数仓场景,包括数据集成、实时或离线计算、数据存储等场景,主要受众为青云云平台上使用了消息队列、数据库、数据仓库、大数据计算存储的客户。
至此,青云大数据工作台的核心面貌得到呈现。
倘若再回到文章开头提及的大数据趋势一问,答案已经不言自明:在企业数字化转型的道路上,青云正在用专业技术研发和深入市场研究的实际行动,助力企业挖掘珍贵的数据资产,掌握潜力无限的数据价值。
1