微软和OpenAI的秘密计划:豪赌千万亿参数模型

2024-04-02
关注
微软计划投资1150亿美元和数百万芯片建设数据中心,支持OpenAI不断扩大其人工智能系统规模,达到数千万参数。这叫星门 (Stargate)2028年将推出超级计算机。该数据中心预计将需要5GW电源,为OpenAI提供的计算能力将提高几个数量级。这个1150亿美元的计划相当于微软目前年资本支出的三倍,分为五个阶段。微软已经开始了第四阶段,为OpenAI建立一个小型超级计算机,预计将于2026年推出。OpenAI和微软目前正忙于前三个阶段。在最后两个阶段,微软将购买大量芯片。预计英伟达的GPU仍将是主力军,但芯片供应将更加多样化,包括微软开发的主要推理芯片和其他芯片制造商的供应。据硅谷科技媒体Information介绍,OpenAI 首席执行官奥特曼正在推动这一计划,微软也做出了初步的成本估算。微软可能负责资助该项目,其成本将是目前一些最大数据中心的100倍,这表明未来几年可能需要巨额投资来建立人工智能的计算能力。据硅谷业内传言,GPT-5目前已完成预培训,正处于对齐阶段,预计夏季推出。如业内预测,其参数规模将是GPT-4的十倍,GPT-参数规模在20万亿左右。微软已经开始部署GPT-6的训练计算能力,按照目前大模型扩展的节奏,每一代模型在一年到一年半左右扩展一个数量级,GPT-参数规模将在200万亿元左右,2026年推出。GPT-7将于2028年推出,参数规模将达到2000万亿。不仅训练需要大量的计算能力,而且随着生成人工智能进入大规模部署应用阶段,推理需要更大的计算能力。就像估计Sora所需的计算能力一样,其推理的峰值需要72万H100GPU的计算能力。按目前H100的市场价计算,GPU的投资需要274亿美元。Sora有望在年内推出。据博通公司称,其重要客户正准备在几年内建立一个数百万加速芯片级的计算能力集群,业内人士认为这是谷歌。而目前 Metak被称为最大的计算能量集群,相当于65万张H100GPU。此外,苹果真正进入生成人工智能,宣布个人人工智能时代的到来,被认为是人工智能真正进入了大规模部署应用阶段。据说苹果和谷歌、OpenAI都在谈判,在其超过20亿的设备上建立了SOTA大型Gemini和GPT的入口。谷歌正在迅速将Gemini模型部署到包括三星和谷歌自己的终端设备在内的数十亿安卓设备上。最近,亚马逊也在加快部署Claude3。今年下半年,AI PC的推出也将达到高潮。目前,数亿活跃的ChatGPT用户日耗电约50万度。大型训练和推理阶段将消耗巨大的能量。特别是大型模型的功能越来越强大,从大型语言模型扩展到多模型模型,通过视觉理解物理世界,视觉能耗强度高于语言功能能耗强度。据The 据Information报道,微软和OpenAI可能会考虑选址威斯康星州的Mount Pleasant。该系统可能需要5GW的电力,因此微软和OpenAI正在考虑支持核电厂的建设。如此大规模的数据中心将面临各种挑战,因为需要“在机架上放置比微软通常使用的GPU更多,以提高芯片的效率和性能。”这意味着需要设计新的冷却技术。微软和OpenAI也可以利用该项目的设计来减少对英伟达的依赖。虽然微软在目前的项目中使用英伟达的InfiniBand电缆,但Openai希望避免在星门项目中使用InfiniBand。OpenAI声称它更愿意使用以太网电缆。今年早些时候,据报道,奥特曼打算建造人工智能芯片,并寻求筹集7万亿美元投资芯片的工厂。去年,微软公布了其128核心Arm数据中心CPU和Maiaiaia 100 GPU。据报道,微软正在为其人工智能数据中心开发自己的网络设备。然而,超级计算机将在哪里,它将建立在一个单一的数据中心或“在多个地理位置相似的数据中心”,也存在不确定性。为了规划2028年的计算能力,还必须考虑芯片和数据中心技术的进步。未来10年,GPU集成的晶体管数量将达到1万亿。同时,未来15年每瓦GPU的性能将提高1000倍。GTC 英伟达首席执行官黄仁勋在2024年会议上牺牲了世界上最强的GPU——Blackwell B200 ,包括两个GPU芯粒的晶体管包装了2080多亿个晶体管(die)。B200晶体管数是上一代H100(800亿)的两倍多,人工智能训练性能直接飙升5倍,运行速度提高30倍。价格在3万美元到4万美元之间。本文来自微信微信官方账号:未尽研究 (ID:Weijin_Research),作者:未尽研究
您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘