液冷服务器年增305%:AI大模型再创新需求?

2023-07-25
关注

本文来自微信公众号:与非网eefocus(ID:ee-focus),作者:张慧娟,原文标题:《增速305.2%,这项技术因何称雄数据中心?》,题图来自:视觉中国


数据的爆发式增长对数据中心提出新要求,特别是高算力AI芯片的导入,进一步加速了服务器高功率密度的演进趋势。


据中国数据中心工作组(CDCC)调研,国内全行业数据中心,8kW功率密度以上的机柜占比由2021年的11%提升至了2022年的25%,高功率机柜占比明显提升。而随着AI模型训练、推理等应用增加,多样化算力协同成为常态,单IT机柜主流功率密度将从6~8kW/柜提高到12~15KW/柜,超算、智算中心功率密度将提升至30kW以上。


急剧增长的机柜密度面前,散热成为迫在眉睫的问题。特别是“双碳”目标下,节能减排、高质量发展成为共识,多地明确提出加大数据中心节能改造力度。


液冷服务器,去年增速305.2%


风冷技术是数据中心当前最为成熟、应用最为广泛的冷却方案之一,它通过冷/热空气通道的交替排列实现换热。不过,风冷技术存在低密度和相对较低的散热能力的不足,对于高性能计算应用尤为明显。此外,风冷技术存在容易过度冷却、环境匹配性较弱、占用空间大等不足。随着高功率单机柜快速普及,推动液冷变革势在必行。


如果采用风冷散热,通常要把单机柜功率控制在12kW以内,以确保散热系统能够为IT设备提供合适的工作温度。但是,随着服务器单位功耗不断增大,单机柜功率15kW基本成为空气对流散热能力的天花板,一旦超越这一数值,处于高温状态工作的 IT 设备将出现运行不稳、加剧老化甚至频繁宕机等后果。


与传统风冷技术相比,液冷具有降低能耗、维持系统性能稳定以及支持更高功率处理器的优势,它通过液体代替空气,把 CPU、内存等发热器件产生的热量带走,就好似给服务器局部冷却、整体“淋浴”甚至全部“泡澡”。在冷却效率方面,液冷比风冷至少提高15%~20%,已经成为进一步降低PUE的关键力量,近年得到了快速发展。


根据IDC、浪潮信息等编制的《2022-2023全球计算力指数评估报告》,2021年,液冷服务器出货量在整个服务器市场占比不到1%,到2022年开始出现较大的增量市场,同比增速达305.2%。


在2021年之前,液冷服务器占比小、客户群单一,主要来自国家科研项目和互联网数据中心的部署。2022年开始增速显著,越来越多的传统行业用户开始部署液冷数据中心,例如金融、电信等。IDC预测,2026年,中国液冷服务器在整体服务器出货量占比将超过10%,成为增速最快的服务器子市场之一。


高算力需求带来什么机会?


算力需求的快速发展是促使大多数客户快速从风冷技术转向更节能的液冷技术的重要原因。因为传统数据中心中无法容纳新的能耗过高的设备,且耗电费用也要纳入衡量体系,因此也促使更多客户在更新数据中心整体设计时,转向更节能、更先进的液冷方式。


“基于算力激发以及节能降耗的趋势,我们正在朝所希望的方向加速前进。当‘用户需求激增→标准建立→规模效应体现→整体成本自然下降’的循环形成之后,就可以加速推动产业从存量的数据中心转向新型节能的数据中心。”一位业界人士表示。


显然,ChatGPT为代表的生成式AI应用带来了这一契机。“市场对于服务器的需求量爆发式增长,得益于此,购买成本、运维成本上,以及伴随算力提升的能耗问题,需要找到一个平衡点。随着后续的运维优化,整体算力提升带来的综合价值将会非常可观。”他表示,“ChatGPT实际上加速了整个产业的发展,对于新建的数据中心,大家也在更有意识地去推动节能减碳的方案。”


冷板式VS浸没式,谁是未来?


在政策与需求的双重驱动下,高效低碳的液冷技术不仅是散热方式的改变,更有可能变革整个数据中心生态。当前,液冷服务器形态主要分为冷板式和浸没式,根据《2022~2023全球计算力指数评估报告》数据,2022年增量市场中,冷板式服务器高达94.9%。调研显示,TCO优势、液冷系统的多样性是企业选择冷板式液冷技术的主要因素,从未来增长看,冷板式液冷服务器预计将有更高增速。


不过,高增长态势下,液冷产业仍面临一些潜在挑战。有业内人士透露,数据中心冷却液主要采用全氟碳化合物,氟碳化合物主要包含氟和碳元素,氟化冷却剂由于具有化学惰性,接触时不会腐蚀电子元件,使用后无需特殊清洁程序。


据了解,全氟碳化合物主要被国外垄断,国内的冷却液之前主要来自3M,国内企业处于加速追赶状态。不过,有消息称3M因环保原因和原材料问题,3M宣布将退出全氟烷基和多氟烷基物质(PFAS)的生产,并努力在 2025年底前停止在其产品组合中使用PFAS,预计将对全球冷却液市场产生重大影响,消耗更少冷却液或根本不用冷却液的需求将会增加。


随着3M宣布退出,国内企业纷纷发力冷却液市场,不过该人士认为,兼容性、可靠性等还需要长期的测试。


此外,在浸没式的环境下,特别是单相浸没的环境下,容易达到解热上限。但是在冷板式液冷中,例如同样的CPU面积下,它可以解决1000瓦以上的上限,而浸没式液冷还需要大量的工作才有望达到。


调研显示,目前在浸没式液冷方面,业界多为小批量尝试,因为其初期成本较高。国内最早采用浸没式液冷的是两个大体量的互联网公司,部署规模在全国数一数二。由于他们有自建数据中心的能力,可以完全从整个数据中心的建筑物、规划、液体的流向等维度去做不同的设计,所以有能力在整个建筑中导入新设计。


但是对于大多数行业用户来说,他们很少需要盖一栋楼做数据中心,通常也就是百台、千台的需求。在这样的情况下,能够导入的方案就比较局限,这样的话,冷板技术就相对容易导入。


冷板技术目前较为成熟,不过缺乏规范的验证标准,使得系统设计、验证成本较高,导致方案整体价格较高。随着冷板标准走向统一,产量提升有望继续带来成本下降。至于具体采用冷板式还是浸没式液冷,还需要对PUE和成本需求平衡之后进行决策。


液冷大规模商用面临哪些挑战?


液冷本身不是新技术,如何把它产业化是当前发展的关键。在大规模商用普及方面,液冷面临哪些挑战?


浪潮方面表示,主要有三大问题亟待解决:一是缺乏技术行业标准、规范等的指引,产业协同度不高,难以标准化适配和部署;二是由于缺乏长周期、大规模部署验证,液冷数据中心的可靠性问题存在一定争议,用户有使用疑虑;三是产业链协同性差,缺乏具备高度整合能力的链主企业,资源配置效率低、浪费大,产业发展速度受阻。


首批数据中心液冷系列行业标准已于2022年4月1日起正式实施,不过,该标准仅涵盖浸没式、冷板式等主要液冷方式的技术要求和测试方法,以及液冷能源使用效率要求和测试方法、冷却液体技术要求和测试方法等内容。


事实上,液冷技术非常复杂,涉及液冷数据中心系统架构层、液冷部件及接口层、液冷基础设施层(液冷机柜组件、换热设备、室外集成冷源等)、液冷监控系统层等多方面,产业链上的各个企业技术路径多种多样、产品规格千差万别,导致液冷进行标准化适配和部署的难度很大,因此,液冷标准、规范等亟待完善。


其次,缺乏长周期、规模化部署验证,可靠性存在争议。液冷技术诞生于上世纪80年代,但一直处于小规模部署阶段,主要是对散热要求更严苛的高性能计算用户采用。并且,冷板式液冷存在漏液隐患,未使用绝缘冷却液的情况下,可能引发严重的生产停运事故。而浸没式液冷技术,由于缺乏长周期的冷却系统使用效果验证,因此技术可靠性依然存在一定争议。


第三,产业链协同性差,缺乏具备高度整合能力的链主企业。由于液冷产业发展处于起步阶段、产业分工尚未明确,导致整个产业链的协同性不强,众多链条企业更多依靠“作坊式生产”的方式来完成产品及服务交付,产业链缺乏具备高度资源整合能力的链主企业,从而导致资源配置效率不高、浪费严重。


写在最后


大数据量、大算力需求下,数据中心因高耗能所带来的碳排放的问题,使得“绿色数据中心”近年来得到了普遍关注,尽管液冷产业还有一定成长空间,但拥抱液冷已经成为数据中心的确定性趋势。


不过,正如相关企业所说,液冷是一项“很新的老技术”,一些用户对其安全性、便捷性等方面,仍存有疑虑。只有继续推动技术创新和产业化发展,才能真正实现液冷技术更可靠、更便捷、更高效。


本文来自微信公众号:与非网eefocus(ID:ee-focus),作者:张慧娟

  • 数据中心
您觉得本篇内容如何
评分

相关产品

清易电子(邯郸) QY-yd 雨量传感器

压电式雨量监测站由数据采集主机和太阳能充电系统组成。直接通过GPRS等数据终端将信息以无线传输方式发送出去,通过无线网络供应商转送到数据处理中心。可以实现降水量数据的自动监测、储存和传输,实现无人值守,具备自动测报功能,可通过数据中心实时查看雨量状态。

北海灵犀 QY-17 雨量传感器

压电式雨量监测站由全天候数据采集主机和太阳能充电系统组成。直接通过GPRS等数据终端将信息以无线传输方式发送出去,通过无线网络供应商转送到数据处理中心。可以实现降水量数据的自动监测、储存和传输,实现无人值守,具备全天候自动测报功能,可通过数据中心实时查看雨量状态。

清易电子(天津) QY-17压电压电式雨量监测站 一体化雨量计 雨量传感器

清易电子生产的QY-17压电式雨量监测站由 数据采集主机和太阳能充电系统组成。直接通过4G 等数据终端将信息以无线传输方式发送出去,通过无线网络供应商转送到数据处理中心。可以实现降水量数据的自动监测、储存和传输,实现无人值守,具备 自动测报功能,可通过数据中心实时查看雨量状态。

安科瑞电子 Acrel-5000Web能耗管理平台 能耗云平台 云平台

系统设置包括数据中心、建筑信息、采集器、仪表产品、仪表信息、支路信息、分项信息、区域信息、部门信息、用户权限设置、用户关联建筑等十一项设置。

鼎信智慧科技 DX-WPS100-GZ01. 安全监控系统

分布式故障监测系统利用分布式行波技术捕捉故障点的行波信号实现了准确定位故障位置的功能,并且还能根据捕捉的行波波形分析识别故障类型,辨别雷击故障与非雷击故障等,再通过4G/5G等无线方式将结果发送回后台数据中心

大立科技 DM10系列 测温型红外热像仪(在线)

是配电柜、加工和制造业、数据中心、运输和公共交通、发电厂和仓储设施连续状态监控和热点探测的理想红外热像仪。

云传物联 海域生态浮标在线监测系统 便携式水质检测仪

运用现代传感器技术、自动测量技术、自动控制技术、计算机应用技术、GIS 技术以及相关的分析软件和通信网络所组成的一个综合性的在线自动监测系统;是一套把多项监测指标的分析仪表组合在一起,从分析到记录、存储数据(包括远程数据)、数据中心服务器组成的系统,结合相应的监控及分析软件,实现实时在线自动监测,满足运行可靠稳定,维护量少的要求,并实现无人值守

深圳恒星物联 传感节点接入网关 传感节点网关

传感节点接入网关是一款工业级网关,可将Modbus RTU协议的设备数据转换为MQTT协议格式再远传至数据中心,支持采集数字量输入信号,支持输出数字量控制信号。

温霖科技 F6 “数字哨兵”健康核验一体机

这款“数字哨兵”又叫“F6系列热成像人脸识别设备”,通行人员只需站在指定位置进行人脸测温,同时将随申码靠近扫码处,或将身份证、社保卡放置于机器上进行识别,基于上海大数据中心和健康云平台大数据支持,可快速核验健康码

稳控科技 SC3 型裂缝监测预警仪 直线位移传感器

真人语音播报,实时数据显示。 大容量存储器、高精度实时时钟,可存储海量历史数据,支持巡视人员打卡考勤记录。 内置喇叭功率可调, 支持本地直接预警,具有音频输出接口,可连接外置功放设备。内置无线射频,可驱动数公里内的无线报警器、完成无线数据下载、数据汇集无线远传至数据中心,支持单点安装多点预警策略。 可扩展人体探测功能智能感知人体进入并显示实时数据、播报危险语音提示。

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘