当前主流 AI 算子几乎均围绕英伟达CUDA生态构建,英伟达在软硬件上的先发优势和源源不断的生态投入,将CUDA打造成了当今人工智能开发的事实标准,吸引了近600万开发者自发的贡献算子,完备且深度优化的算子库使得英伟达的显卡在实际性能和使用体验上显著领先,进而再次强化CUDA生态的吸引力。也正是基于这层因素,其他芯片厂商很难有效对CUDA生态形成挑战,开发者们也难以避免地形成对CUDA生态的依赖。
最近几年,人工智能的蓬勃发展加速了软硬件的更新迭代,AI模型从语言、视觉一路扩展到行为与三维世界,从自动驾驶到具身智能,从生物医药到更广阔的AI for Science,新的模型架构层出不穷,每一个AI模型,最终都要落到算子上运行——它不只是连接底层芯片算力与上层模型算法的关键桥梁,而正成为模型自身的微观形态,带来一批更复杂、更关键的算子需求。