为什么英伟达如此强大？这就是CUDA的魔力

在高性能计算、游戏和人工智能处理方面，英伟达无疑是领先的竞争者，远远超过了AMD和英特尔，夺得了性能桂冠。那么，是什么使英伟达的芯片与其他厂商的芯片不同，其他厂商至今未能复制其成功呢？这个成功的关键在于并行处理——通过同时执行多个数据处理操作来提高计算速度的过程。

与按顺序处理任务的多个内核的CPU（中央处理单元）不同，GPU（图形处理单元）可以利用数千个核心同时处理多个任务。这种架构优势为处理当今的人工智能算法提供了支持，因为这些算法需要大量的数据处理。为了更好理解这一点，可以想象一个人试图建造一座摩天大楼与成千上万的人共同合作的情形。

进入CUDA

面向人工智能的前景，英伟达意识到需要一个强大的软件环境来充分利用公司强大的硬件，而CUDA便应运而生。这个编程语言首次推出于2006年，允许开发者利用并行处理能力来处理高要求的人工智能应用。（CUDA代表计算统一设备架构。）

英伟达的这一举措不仅打开了新的可能性之门，而且为CUDA生态系统的建立奠定了基础，使公司登上了GPU领域的顶端。其旗舰人工智能GPU与CUDA软件的结合，使得英伟达在竞争中领先，许多大型组织如今几乎无法考虑转向其他替代方案。那么，CUDA的优势是什么？以下是一些核心特点：

大规模并行性：CUDA架构旨在利用数千个CUDA核心，允许执行多个线程，非常适合图像渲染、科学计算、机器学习、计算机视觉、大数据处理等任务。CUDA核心处理器是硬件，它们在英伟达GPU内充当小型处理单元，作为迷你CPU来处理成千上万的线程。

层次化线程组织：CUDA将线程组织成块和网格，简化了并行执行和处理的管理与优化，使开发者能够更好地利用硬件资源。

动态并行性：这使得内核（在GPU上执行的函数）能够启动额外的内核，从而启用更灵活、动态的编程模型，并简化递归算法或自适应工作负载的代码。

统一内存：英伟达的统一内存简化了GPU和CPU之间的信息共享，简化了内存管理，并通过迁移到合适的内存空间来提高性能。

共享内存：每个线程块都可以访问共享内存，这使得线程之间的数据交换比全局内存（逻辑空间）更快，从而提高了性能。

优化库：CUDA软件附带了一套优化的库来提高性能，包括用于线性代数的cuBLAS、用于深度学习的cuDNN、用于并行算法的Thrust等。

错误处理/编译器支持：CUDA提供内置的错误处理功能，在开发阶段诊断问题，从而提高效率。它还支持编译器，帮助开发者使用熟悉的语法创建代码，使得将GPU计算嵌入现有应用程序变得更加容易。

尽管AMD和英特尔也在开发人工智能芯片，但英伟达的领先地位和全面方法使其在人工智能热潮中处于无可争议的领导地位，这也反映在公司的市值上，其市值已经超过了其他公司总和。AMD目前的市值为2千多亿美元，远高于英特尔的1千亿美元；然而，它们都远远不及英伟达惊人的3万多亿美元市值。

CUDA的应用

自2006年推出以来，CUDA已被广泛应用于成千上万的应用和研究论文，并得到超过5亿个GPU支持，这些GPU存在于个人电脑、笔记本电脑、工作站、数据中心甚至超级计算机中。CUDA核心已经应用于天文学、生物学、化学、物理学、数据挖掘、制造业、金融等计算密集型领域；然而，人工智能迅速成为最主要的应用领域。

英伟达的CUDA核心对于训练和部署神经网络和深度学习模型至关重要，充分利用了其并行处理能力。为了更好理解这一点，12个英伟达H100 GPU就可以提供相当于2000个中档CPU的深度学习处理能力。这种增强的性能非常适合图像和语音识别等复杂任务。自然语言处理（NLP）和大型语言模型（LLM），如GPT，也受益于CUDA核心处理，使得开发者能够更轻松地部署复杂的算法或增强像聊天机器人、翻译服务和文本分析等应用程序。

英伟达的CUDA技术还被应用于医疗领域，包括通过深度学习算法实现更快速、更准确的诊断。它们驱动分子尺度的模拟，帮助可视化器官并预测治疗效果。它们还用于分析来自MRI和CT扫描的复杂数据，提高了疾病的早期检测。位于多伦多的Deep Genomics正在利用CUDA技术驱动深度学习，更好地理解基因变异如何导致疾病，以及如何通过新药物的发现来进行治疗。Tempus是另一家使用英伟达GPU进行深度学习的医疗公司，其技术将在GE Healthcare的MRI机器中用于帮助诊断心脏病。

CUDA核心技术在金融行业也得到了应用，金融机构使用英伟达GPU处理大量的交易数据，提供实时的欺诈检测和风险管理。人工智能算法可以分析复杂的金融模式，提高市场预测的准确性和投资策略。证券公司也使用人工智能算法来执行毫秒级的交易，优化金融回报。

学术界也利用CUDA技术，结合OpenCL API开发和优化用于新药发现的人工智能算法，使GPU在其研究中变得不可或缺。像斯坦福大学等机构自CUDA发布以来就开始使用这一平台，作为学习如何编程人工智能算法和深度学习模型的基础。

斯坦福大学的研究人员使用 CUDA 开发和加速新 QML 方法的模拟，以减少研究大型数据集所需的量子比特数量。

爱丁堡大学量子软件实验室的研究人员还利用该技术开发和模拟新的 QML 方法，显著减少研究大型数据集所需的量子比特数量。使用 CUDA-Q 模拟工具包和 Nvidia GPU，他们能够克服可扩展性问题，并在高达 25 个量子比特的问题上模拟复杂的 QML 聚类方法。这一突破对于开发量子加速超级计算应用程序至关重要。

零售公司也加入了人工智能的潮流，利用它提升客户体验，包括个性化推荐和库存管理。生成式人工智能模型利用数据科学预测消费者行为并调整营销策略。例如，Lowe's使用GPU加速的人工智能来优化供应链和动态定价模型。CUDA技术帮助快速分析大数据集，提高需求预测的准确性，确保高效的库存补充。该公司最近与英伟达合作，开发计算机视觉应用，包括增强自助结账系统，以防止盗窃或实时判断是否有产品被不小心遗留在购物车中。

英伟达的领先归功于CUDA

很容易看出，英伟达的CUDA技术为何能推动公司成为高性能计算的领军者，它通过CUDA架构释放了并行处理的全部潜力。通过利用数千个核心处理大量数据，CUDA技术成为了许多行业的宝贵平台，从医疗和学术界到零售和金融行业。凭借其广泛的CUDA生态系统、优化的库和硬件创新，英伟达在人工智能热潮中稳居领导地位，远远超越了AMD和英特尔。随着人工智能应用的不断发展，CUDA看起来将继续成为研究人员和开发者推动技术边界的金标准。

EETOP编译自：fierceelectronics

https://www.fierceelectronics.com/ai/whys-nvidia-such-beast-its-cuda-thing

世良情感网

为什么英伟达如此强大？这就是CUDA的魔力

东沛评科技