货源紧张＋涨价，卖铲子的成了热门好生意

lameihua · 发表于 2023-11-9 03:29:04

　　算力租赁大涨，已经是前几天消息了，说是阿里暂停了A100的出租，算力的供求缺口出现了扩大，可能要面临新一轮的涨价，所以今天算力板块卷土重来。

　　阿里云停止出租英伟达A100服务器。这个消息凸显了计算资源的紧缺问题，还引发了大家去担心，之后国内云计算的缺口该怎么补上？

　　行业内计算的缺口有哪些？

　　早些年很多行业公司需要在本地购买和维护昂贵的服务器和计算机设备，才能满足自己业务上计算需求。代价就是花钱，花钱，还是花钱，一个要买设备，另一个是要维护。

　　有了云计算之后，直接能够提供一种将计算资源作为服务租用的方式，大家可以凭借自己的算力需求弹性地获取计算能力，不用花钱去买设备。算力租赁服务提供商可以根据用户的需求提供不同配置的云服务器，并可以随时根据用户的需求进行扩容或缩减。此外，新技术如容器化和服务器less计算等也对算力租赁领域带来了更多的创新和便利。

　　这里面，就不得不提英伟达A100服务器的在云计算里的地位。

　　英伟达A100服务器是一种高性能计算服务器，广泛应用于云计算、人工智能和高性能计算领域。其卓越的性能和并行计算能力使其成为了众多云计算供应商的首选。当然，英伟达的产品也不便宜，英伟达A100价格2022年12月份至2023年4月上半月期间，5个月价格累计涨幅达到37.5%，在今年5月17日A100 GPU市场单价达15万元。而英伟达A800在相同期间的价格累计涨幅达20%， 5月17日A800GPU市场单价达9.5万元。由此可见，在紧张的GPU市场内，租赁替代自建成为中小公司的选择。

　　而阿里云是长期租用英伟达A100服务器以满足其客户的需求。阿里云我们也知道，算是国内做的比较好的云计算提供商了。特别是搭载了英伟达最新Ampere架构的A100芯片，其强大的AI加速能力，使得阿里云成为训练大模型的首选平台。

　　一旦英伟达A100服务器的停租，会对国内云计算行业产生不小的影响，毕竟现在各行各业对计算资源的需求不断增加，供给是否足够跟得上是一个很大的问题，但这也只是计算资源短缺问题的冰山一角，英伟达A100服务器停租，以及GPU禁令进一步升级，4090显卡限制出口，也加剧了算力租赁市场的紧张情绪。可能会再次扩大这个供给缺口。

　　至于为什么停租，背后应该会有很多原因，比如政策、国际贸易等因素。美国对芯片出口的限制措施对云计算行业造成了一定影响。这也使得云计算企业得在供应链管理和风险规避上更小心。政策和国际关系的变化可能对计算资源的供应产生不稳定的影响。云计算供应商就得去考虑怎么做出更加灵活的供应链策略。

　　为何大多云计算厂商承接不住这么高算力的需求？

　　当然了，每一次出现什么限制问题，国内的云计算和租赁厂商都会或多或少的受到关注，但是国产算力行业怎么发展？虽然厂商可以充分利用自身的资源和技术，为客户提供高性能计算服务。毕竟国内这些厂商应该不存在什么供应链管理和风险问题。

　　但是技术研发不行，还做不到英伟达那样，特别是现在AI大模型及应用持续迭代，需要大量的算力支持。国产算力厂商怎么发展？怎么追？

　　回看国内部分厂商已经开展算力租赁相关业务，比如亚康股份、南凌科技、英博数科（鸿博股份全资子公司）、首都在线、优刻得、朗源股份、利通电子、宝腾互联（中青宝旗下）、青云科技，真视通，中贝通信、汇纳科技、铜牛信息、顺网科技、世纪华通、云赛智联、特发信息等。

　　国内服务器头部厂商，比如中科曙光、浪潮信息、新华三（紫光股份旗下）、工业富联、拓维信息等也展开相关布局。

　　这些厂商有的可以做IaaS云服务，有的能做传统IDC服务。但是行业里基本上是买不到英伟达的芯片或者服务器了，可能转而向中科曙光、海光信息、工业富联这些国产服务器厂商，那么国内一些服务器厂商也买不到芯片，就转向华为、摩尔线程、壁仞科技这些GPU硬件厂商去买产品。即便买了，回来也得调试，我们之前说过英伟达有硬件还有适配的软件生态，CUDA，很多国产AI芯片里的厂商是没有自己的软件开发生态的，所以国产算力芯片不能买来就能用，还需要芯片厂商进行调试。

　　所以即便是厂商也偶很多，但是大家也要知道的是，一般的云计算厂商是承接不住这么高算力的需求的，比如大模型训练时需要很多GPU对同一个模型进行同时计算，既考验GPU的总峰值运算能力，还考验它的连接方式，这些都是决定GPU的利用率的因素。

　　传统的GPU集群在单个服务器内部可以使用大带宽机内连接，但缺点是在服务器之间还是使用传统架构，不能做高效的多节点并行训练。所以业务量大的大模型是没办法用单节点进行训练。

　　但是高性能集群大量在节点间使用大带宽光模块进行互联，可以大幅度增加多节点训练时的GPU利用率。如果对方是做AI应用，那么高性能集群的设计建设是会影响对方可以提供多少有效算力。

　　大概的意思就是大模型训练需要的是具备高速互联基础的高性能GPU集群，而且要满足客户训练大模型所需的算力，比如建设新的集群才行。传统的单个的计算是解决不了这些问题的。

　　英伟达所提供的算力是行业里较多的，比如集群NvI.Dia DGX GH200。GH200和H100属于同一代产品，其AI计算芯片架构相同，计算能力相当。但是，GH200的内存容量比H100大了3.5倍，这对于需要处理更复杂模型或更大数据量的AI任务来说更加有利。

　　而且GH200包含一个Grace CPU芯片和一个Hopper GPU芯片，两者通过高速NVLink-C2C互连，带宽高达900GB/s，实现了紧密的CPU和GPU数据交换。这使得GH200的GPU能够直接访问CPU内存。相比之下，在H100系统中，CPU和GPU通常仅通过PCIe连接，即使是最新一代的带宽也只有128GB/s，不及GH200的NVLink-C2C的七分之一。因此，通过芯片级别的优化设计，GH200实现了更高效的CPU-GPU内存共享，这对于需要频繁进行CPU-GPU数据交换的AI计算更加友好。

　　每个GH200集成512GB CPU内存和96GB GPU HBM3内存。Hopper GPU通过NVLink-C2C访问Grace CPU全部内存。相比之下，单颗H100最多80GB HBM3内存，且无法高效连接CPU。基于GH200的DGX GH200集群，256个GPU连接后共享144TB内存（计算方式：（480GB+96GB）* 256）。DGX GH200适用于存在GPU内存瓶颈的AI和HPC应用。GH200通过超大内存和CPU-GPU互联，可以加速这些应用。

　　可能这些专业词不好理解，大概意思就是DGX GH200集群更实用，更好用。

　　国内很多云计算厂商很难能够真正的做高性能集群的业务，也就难以承接这么大的算力需求。现在的大模型多为根据整个节点租赁提供算力服务的逻辑。若是想满足超大规模计算、高通量的带宽，也可以将业务的需求往算力节点上靠，这样可以应对传输时延的情况。

　　所以不是每一家厂商都能够做出来算力租赁业务，这波AI算力租赁业务的热度，是在这两个前提下，一个是可用于大模型训练的算力资源和大模型训练需求供需失衡，短期算力需求远高于算力供给。另一个是时间对于大模型研发厂商来说也比较珍贵，行业里先完成大模型研发的厂商有望获得更多的先发优势。

		自动登录	找回密码
密码			立即注册

货源紧张＋涨价，卖铲子的成了热门好生意

浏览过的版块