杭州 云 科技 服务器 首先清晰概念,也就是 GPU 是什么。可以和常见的 CPU 做对比,这样容易理解一点 GPU 云服务器的概念 CPU VS GPU CPU 即中央处理单元,是一种硬件组件,···
杭州 云 科技 服务器
首先清晰概念,也就是 GPU 是什么。可以和常见的 CPU 做对比,这样容易理解一点
GPU
云服务器的概念
CPU VS GPU
CPU 即中央处理单元,是一种硬件组件,它是服务器的核心计算单元。它负责处理操作系统和应用程序运行所需的各类计算任务。图形处理单元(GPU),是一种与 CPU 类似,但更专业的硬件组件。与普通 CPU 相比,它可以更高效地处理并行运行的复杂数学运算。
GPU 只是获取大量相同的指令并高速进行推送。因此 GPU 功能在并行计算中起着重要作用。但 GPU 核心不如 CPU 强大。
最初的 GPU 专用于处理游戏和动画中的图形渲染任务,不过现在它们的用途已远超于此,比如比特币挖矿,机器学习,深度学习都会使用 GPU。
CUDA
我们利用 GPU 不管是进行游戏的渲染还是挖矿,还是说训练大模型,都需要发挥 GPU 的能力。那么是如何开发 GPU 的呢? 即如何让某一个 GPU,或者说显卡,适合某一类工作呢?
在 CUDA 之前,GPU 编程必须借助 OpenGL,Direct3D,这些都是为图形渲染而设计的,并非通用计算。并且全球范围内大概只有数百人懂得如何利用 GPU 底层能力进行计算。
CUDA 能非常简单的帮我们使用 GPU 完成通用计算。
CUDA,全称为 Compute Unified Device Architecture ,即计算统一设备架构,是 NVIDIA 推出的一套强大并行计算平台和编程模型框架,为开发人员提供了加速计算密集型应用的完整解决方案。CUDA 包含运行时内核、设备驱动程序、优化库、开发工具和丰富的 API 组合,使得开发人员能够在支持 CUDA 的 GPU 上运行代码,大幅提升应用程序的性能。这一平台尤为适合用于处理大规模并行任务,如深度学习、科学计算以及图像处理等领域。
为了在 GPU 上编程,其实国产芯片也有类似 CUDA 的平台,比如寒武纪的 Cambricon neuware,华为昇的 CANN。
CUDA 核心思想
CUDA 的核心思想是将计算任务分解为多个线程并行执行,充分利用 GPU 的数千个计算核心。与传统的 CPU (中央处理器)相比,GPU 更适合处理大规模并行任务,因为它可以同时执行大量简单的计算操作。
英伟达为什么这么不可替代
硬件技术差异,国产芯片速度远远不如英伟达库和工具的成熟度,CUDA 发展了 18 年,库和工具很全并且稳定,易用。庞大的开发者生态,全球有 400 万开发者。他们开发了十多年,广泛的社区,教程和文档。开发中遇到任何问题,社区都有解决方案。大量模块和代码可以直接在 Nvdia GPU 上直接运行。众多第三方模型和应用都基于 NVIDIA 生态。TensorFlow 和 PyTorch 两个著名的机器学习库都针对 CUDA 进行了深度优化。NVIDIA 的巨大市场份额和成熟的供应链使用 GPU 算力的三种方案
自建 GPU 服务器,自己买显卡在线租赁 GPU,按小时或使用时长付费购买 GPU 云服务器,使用完整高性能弹性计算服务DeepSeek 事件
DeepSeek 以极低的成本和开源特性,加上思维链的展示,引起了国内外广泛的关注。
DeepSeek 优势
专家混合 (MoE) – MoE 不会同时激活所有参数,而是有选择地只启用模型中每个任务所需的部分。这让 AI 能够使用更少的能量,同时保持高质量的响应。内存级注意力 (MLA) – 传统 AI 模型需要大量内存来处理和存储上下文。MLA 引入了内存压缩技术,可降低功耗,同时在长时间对话中保持准确性。PTX 优化– AI 模型严重依赖具有固定架构的 GPU。DeepSeek 在软件级别优化 GPU 执行,确保最高效率并降低运营成本。ChatGPT 为什么没有做
这些创新在大幅降低成本的同时提高了性能。但 ChatGPT 为什么没有早点实施呢?
阿里云服务器太贵
开拓新技术始终是最昂贵的途径。当 OpenAI 开发 ChatGPT 时,它不仅仅是在改进现有模型,而是在建立一种全新的 AI 驱动交互类别。这意味着:
大规模研发投入——每项突破都需要数千小时的研究、实验和数据处理。基础设施扩展——早在效率成为优先事项之前,OpenAI 就必须构建和优化庞大的计算集群来支持 ChatGPT。市场验证风险——没有人知道人工智能聊天机器人是否会被大规模采用。OpenAI 承担了证明其价值的财务风险。相比之下,DeepSeek 和较新的 AI 公司可以在这些基础性进步的基础上继续发展。它们具有事后诸葛亮的优势,可以优化 OpenAI 必须进行试验的地方。它们不需要承担早期失败的代价——只需改进和完善现有的方法。
PTX
通过 DeepSeek 事件的了解,也第一次了解到 PTX。官方解释是:
PTX(Parallel Thread Execution)是 NVIDIA 提出的**中间表示(IR, Intermediate Representation)**语言,是 CUDA 计算架构的一部分。它介于 CUDA C/C++ 高级语言和底层 GPU 机器码(SASS, Smoothed Assembly)之间,提供了一种虚拟 ISA(指令集架构),用于 GPU 代码的编译、优化和执行。
说白点就是介于 CUDA 和 GPU 机器码之间的部分,那么很明显如果做了 PTX 优化,自然是离不开 NVIDIA CUDA 的,所有也不会将 ptx 或相关代码移植到其他芯片比如国产芯片就可以直接用这种情况。更有甚者吹捧说 DeepSeek 绕过了 NVIDIA CUDA 生态,以后可以自主创新了。这些都是无稽之谈。
看了一期老高与小茉的讲 DeepSeek 的视频,其中下面一个评论说的很好:
关于 cuda 的描述不太正确,cuda 是一套 sdk,专门用来提供AI计算所需的函式库与平台,而之所以成为nvdia的护城河,是因为它发展很早,已经让广大的开发者们都习惯使用这个平台了,以至于后来的晶片厂商即使也有sdk可用,但没有开发者会想再去学习新的平台架构,或是修改旧程式去支援,而 deepseek 也仅是发现 cuda 几个 api 功能效率不太好,所以自己写了替代的程式,只能说他们的工程师技术很好而已,并不是完全不使用 cuda 了,并没有所谓撼动 nvidia 护城河的情况,纯粹只是广大投资者的脑补而已
然而,根据某位大厂架构师大佬描述,中国会 PTX 的不超过 20 个。
再次印证了电影《天下无贼》里那句经典台词:21世纪最重要的是什么?
人才
References
一文揭开 NVIDIA CUDA 神秘面纱
https://www.weka.io/learn/glossary/ai-ml/cpu-vs-gpu/
https://aws.amazon.com/cn/compare/the-difference-between-gpus-cpus/
https://www.tomreidy.com/blog/chatgpt-vs-deepseek-the-evolution-of-ai-and-the-cost-of-innovation
好文章推荐:
如果 GPU 如此优秀,我们为什么还要使用 CPU?
https://codingstuff.substack.com/p/if-gpus-are-so-good-why-do-we-still
阿里云服务器 python

发表评论
最近发表
标签列表