硬盘正在经历一项极致严苛的性能与可靠性测试——服务器工作环境温度已经超过数据中心环境温度标准,与此同时内部一台散热风扇停止工作,要求服务器仍然能正常运转,硬盘的读写性能依旧在线,以保障在这类极小概率出现的业务场景中硬盘数据的安全,性能的稳定。但在极限测试中,浪潮信息工程师发现,在对于硬盘进行接近满载的高负荷压力测试时,硬盘的稳定性犹如在乱风中飞舞的柳絮飘忽不定,甚至还出现了彻底报废的极端故障。
面对数据中心数据计算量的几何级增长,这种看似在罕见场景、极限测试才出现的故障问题,也不能轻易忽视,必须要找到"神隐"背后的问题根源。
寻找毫厘之间的玄谜!一个好消息、一个坏消息?
为了揭开硬盘读写性能下降的谜题,浪潮信息工程师首先针对服务器的关键组件进行逐一筛查,替换了不同的风扇、硬盘、内部主板以及背部连接器等进行对比分析,但问题依然存在。工程师又结合定量分析,改变环境温度、调节风扇转速等等进行了大量的实验测试,终于发现每当风扇转速达3万转/分钟,服务器的硬盘读写性能就开始下降。
基于这一发现,结构仿真、流体仿真等多个团队协同合作,找到了问题的答案——当散热风扇转速达到3万转的极限转速时,系统风扇进风端形成的湍流,即气流漩涡,会存在于硬盘和风扇之间的空间,而硬盘是精密度很高的部件,对湍流信号感知非常敏感,不规则的湍流可能会给硬盘性能带来巨大的影响。轻则影响硬盘磁头读写性能下降,严重则会硬盘报废,导致数据丢失。
引起"湍流"的散热风扇是保障服务器计算性能和散热的核心部件之一,但极限转速的风扇所产生的"湍流"又会影响硬盘的性能和可靠性,浪潮信息工程师需要寻找性能与散热极致平衡的方法,让计算性能、散热、可靠性达到和谐统一。
问题虽然得已锁定,但工程师们欣喜之下,又不得不去面对一个坏消息——能否有效治理"湍流"是数学届的千禧年7大难题之一。浪潮信息工程师要做的就是寻找破解风扇高速转动而产生湍流效应的方法。
破解"湍流" 意外破"圈"带来惊喜
想要有效的破解"湍流",就意味着要让杂乱的"湍流"变成平稳的"层流"。在项目组百思不得其解的时候,浪潮信息工程师在参与FAST天眼项目现场,看到天眼采用的滤波材料突然有了灵感。工程师开始尝试引入一种滤波材料,通过对气流进行导流,让随性的风走直线,破解湍流造成的硬盘性能影响。
PS:H.Tennekes&J.L. Lumley 曾对湍流进行过评论:尝试解决湍流问题的成功与否,强烈地取决于包括做出关键性假设的灵感。 湍流需要奔放的发明者,正如需要专业分析师那么重要。
这一滤波材料的形状要如何确定呢?工程师们尝试了多种不同的形状,效果都不理想。在一次偶然的出差中,深圳机场六边形的蜂窝结构的设计又给工程师带来了灵感,六边形蜂窝状结构,省材料,够坚固,通风量也最好,工程师们将其引入M6服务器设计,进行仿真测试,设计出了波导网——铝制六边形蜂巢网,它能够破解湍流,引导风流直吹,同时在厚度上不足0.2mm,确保了进风处的最大通风量,重量也仅11克左右。
这一结构可以将不规则的湍流切割成平稳的层流。经过高频度仿真测试协同,浪潮信息工程师为M6旗下每一款服务器的波导网蜂巢单元尺寸进行了科学匹配,定制出最佳孔径、厚度大小的波导网。与此同时,工程师还借鉴了"音乐厅"降低噪声的方法,在波导网周围贴附上吸音海绵,进一步降低噪音对硬盘和机箱共振的干扰。
波导网,一个小的改变,化解了硬盘极限压力危机,然而,收获并未就此停止,数据显示,通过采用波导网,M6服务器的硬盘性能提升:6%-8%;服务器散热效率提升:17%-22%;数据中心可节约能耗:6%-8%。
相对于计算技术的创新而言,波导网可能只能算是微创新,但往往细节决定成败,微小的进步的累积,会引导风向,也会引动风潮。