云速服务器腾讯 11月13日,中兴推出了一台能装64块GPU的超节点服务器,既能向内扩展也能横向拼接,官方说这套 方案能搭出万卡、十万卡级别的大型算力集群,强调软硬结合、靠···
云速服务器腾讯
11月13日,中兴推出了一台能装64块GPU的超节点服务器,既能向内扩展也能横向拼接,官方说这套
方案能搭出万卡、十万卡级别的大型算力集群,强调软硬结合、靠网络强化算力、开放解耦、运行高效且稳定。说白了,这是一台把算力密度做得很高的机器,既能把更多GPU塞进一台机箱里,也能把好几台这种机箱拼成更大的集群。对用户来说,能不能灵活选把事做大和把事做多,这是它的卖点。
把这事往细处拆开讲。单机放64块GPU,直接影响两个方面:机柜占地和节点间通信。占地少了,等于可以在有限的机房里塞下更多算力;通信少了,某些需要频繁互传数据的大模型训练,效率会明显上来。中兴同时说这台机器既支持向内扩展(把更多资源堆到一台里),也支持横向扩展(把多台机器并联),这就给用户更多部署方式选。要做超大模型的预训练,大家可以优先把更多卡放到一台机箱里;要做大量并发的小任务,云厂商可以把任务分散到成百上千台节点上去运行。
以网强算这四个字在公告里被反复提到。直白点,就是更依赖网络把各块GPU连成一个整体,要靠更高的带宽、更低的延时,以及交换设备和计算节点之间的配合。实际落地不是只把线连起来就完了,像RDMA、NVLink这种高性能互联技术,以及网络拓扑的设计,都直接影响多卡协同的效率。再有一个词是开放解耦,意思是软硬分层做好,硬件负责高密度、高性能互联,软件要保持一定开放性,方便第三方调度器、容器平台和上层训练框架接入。换句话说,中兴不是只卖个铁盒子,而是想让这个盒子更好被生态里的软件拿来用。
技术上会碰到的几个真实问题,不用夸张地讲,都是常见的大块头难题。第一,散热和供电。64块GPU的热量不是闹着玩的,机箱和机柜的散热设计、空调系统和供电线路都得跟上。第二,互联架构。要把这么多卡当成一个可用的计算单元,需要高带宽、低延迟的交换方案,还要考虑故障隔离和链路冗余。第三,编排和管理。调度系统得懂单机内部的拓扑,也要能做跨机协调,这涉及到调度算法、分配策略和容错机制。中兴提软硬协同,说明他们在这些软件配套上下了功夫,至少在思路上有考虑如何和主流调度框架对接。
把这台机器推到市场里,谁会买?轮廓比较清楚。云服务商会盯着看,看这玩意能不能提升单位算力的编排效率和成本;科研机构和高校会看能不能跑通大规模并行训练;做大模型的公司希望缩短训练时间、提高实验效率。这些用户的共同点是,对算力密度、网络互联和可编排性都有很高要求。对于他们而言,这不是单卖硬件就行,而是要把硬件、网络和调度连成一套可运行的方案。
云服务器市场份额
把口号变成现实还得靠工程和时间。把单机做成64卡,机房的电力、制冷流程、运维规范都要升级。想把这种单机扩展成万卡十万卡这样的超大规模集群,单靠单台机器的设计是不够的,整个数据中心的骨干网、能效管理、监控与容错体系都得同步跟进。官方把能搭出万卡、十万卡级别的集群写出来,是表达目标和野心,但能否真的按计划落地,还要看样机测试、联合验证以及行业合作的速度。
发布渠道也有讲究。中兴把这条消息放在互动交流平台,既是在给投资者看的,也是在向潜在客户和合作方打招呼。通常下一步会出现样机测评、合作方的联合测试报告,或者云厂商和科研单位的试运行案例,如果这些出来,说明从概念走到工程实现上又向前了一步。这类产品在市场上能不能站稳脚跟,关键看配套生态,硬件再强,没有调度和中间件去配合,算力也会打折扣。
云服务器首单
从实际应用角度看,双重扩展模式挺实用。研究机构在做大规模预训练时,偏向把更多GPU集中在单个作业里,减少跨机通信;云厂商在跑海量并发任务时,偏向把负载分散到很多节点来保障吞吐。这台超节点服务器同时支持两种方式,给用户更多选择。像我做过模型训练的朋友常说,一台机器算力再强也得看调度和代码的配合,不然就是把算力堆成一堆直冒热气的砖头。
接下来值得关注的几件事:样机的实际能效和稳定性测试数据,能否顺利对接主流深度学习框架和调度系统,运维成本和数据中心改造的真实需求,以及有没有合作伙伴公布联合测试结果。这些都会直接影响市场接受度。中兴这次强调开放解耦,大概也是意识到,做成生态比单卖硬件更重要。最后一步的验证,还是得靠工程化的合作和真实的上线案例来完成,等这些东西陆续出来后,才能看清这套方案到底能走多远。
美国vps云服务器

发表评论
最近发表
标签列表