英特尔大显存GPU放猛料：性价比拉满，本地跑DeepSeek-R1，性能秒RTX 5060Ti

发表评论

A+

所属分类：科技

摘要

推理工作站具有广阔的发展前景，主要体现在：1）安全部署，数据无需上传至云端，可在本地处理；2）提供一站式解决方案，将所有软件置于容器中，帮助客户解决问题，易于设置；3）易于扩展，可灵活配置不同数量的显卡；4…” />

根据公开数据显示，

芯东西（公众号：aichip001）

作者 | ZeR0

编辑 | 漠影

芯东西5月20日报道，台北国际电脑展COMPUTEX 2025今日盛大开幕，芯片产业领袖云集，陈立武首次以英特尔CEO身份赴台，并与中国台湾供应链伙伴餐叙。英特尔更是一举发布多款GPU和AI产品，包括英特尔锐炫Pro B50/B60 GPU、Gaudi 3 AI加速器、轻量级开源软件框架Intel AI Assistant Builder，展露其在AI及专业视觉领域的最新布局。

英特尔锐炫Pro B60/B50 GPU基于Xe 2架构，具备AI特性，为要求严苛的AI推理工作负载和工作站应用而设计，进一步丰富了英特尔专业级GPU产品线。

其中，锐炫Pro B60配备24GB显存，AI峰值算力为197TOPS，适用于推理工作站；锐炫Pro B50配备16GB显存，AI峰值算力为170TOPS，适用于图形工作站。

展开全文

两款GPU均搭载英特尔XMX AI核心和先进的光线追踪单元，并接受多GPU扩展，通过将高显存容量与关键软件兼容性相结合，为创作者和AI开发者给予了可扩展的、经济高效的应对方案。

锐炫Pro B50直接面向零售市场，建议零售价为299美元（约合人民币2159元），性价比优势突出。锐炫Pro B60将主要通过B2B模式进行项目采购，正在与多家系统集成商和OEM厂商进行合作。

华擎、蓝戟、Lanner、铭瑄、傲世、Senao和撼与科技等AIB合作伙伴将于今年6月展开给予英特尔锐炫Pro B60 GPU样品。英特尔锐炫Pro B50 GPU将于今年7月展开在英特尔授权经销商处上市。

有合作伙伴将给予锐炫Pro B60的单卡双GPU方案，板载显存容量达48GB。

英特尔Gaudi 3 AI加速器给予PCIe和机架级系统部署指定，为企业和云AI推理给予可扩展的开放应对方案。英特尔Gaudi 3 PCIe卡接受在现有服务器数据中心环境中进行可扩展的AI推理，将于今年下半年上市。

在CES 2025首次亮相后，英特尔AI Assistant Builder软件框架现已在GitHub上给予公开测试版。该框架专为在基于英特尔AI PC上本地构建和运行自定义AI agents而设计，可帮助企业或个人飞快构建并部署AI agents。

一、锐炫Pro B50：AI性能提升至3倍，性价比较RTX A1000翻番

英特尔锐炫Pro B50 GPU实现了同类价位段最高配置：拥有16个Xe核心，配备16GB显存、128 XMX引擎，显存带宽为224GB/s，AI峰值算力（Int8）为170TOPS，单卡功耗仅70W。PCIe Gen 5速度的提升也会带来10%-20%的性能提升。

与同类产品对比，锐炫Pro B50的显存容量、驱动程式优化、PCIe Gen 5提升均表现更优。同类产品通常配备6GB或8GB显存。

与上一代产品及竞品相比，锐炫Pro B50在图形和AI推理性能上有1.1倍~3.5倍的提升。

在通用性能方面，锐炫Pro B50相比上一代产品提升50%~130%。其性价比不仅相较锐炫Pro A50、英伟达RTX A1000翻倍提升，比起锐炫Pro A60也略胜一筹。

该系列GPU在Windows上兼容消费级和专业级驱动程序，在Linux上接受容器化的软件栈。其软件栈可用简化AI部署，并接受逐步升级和特性优化。

新发布的两款GPU针对AEC（建筑、工程、施工）和推理工作站进行了优化，并通过大量ISV认证和优化的软件给予稳定、可靠的性能。

英特尔副总裁兼客户端显卡总经理Vivian Lien称，全新英特尔锐炫Pro GPU为一直在寻求针对性应对方案的中小型企业，给予了易于获取且可扩展的应对方案。

二、锐炫Pro B60：AI峰值算力197TOPS，跑DeepSeek-R1倍杀RTX 5060Ti

锐炫Pro B60拥有20个Xe核心，配备24GB显存、160 XMX引擎，显存带宽为456GB/s，AI峰值算力（Int8）为197TOPS，根据不同系统设计，单卡功耗区间为120~200W。

从性能来看，锐炫Pro B60运行DeepSeek-R1、Phi 4、QwQ、Qwen 2.5、Llama 3等模型时，相比英伟达RTX 2000 Ada 16GB、RTX 5060Ti 16GB的吞吐量更高。

XM官网性价比拉满，本地跑DeepSeek-R1，性能秒RTX 5060Ti" />

更大参数规模的模型，需要更大的显存。7B模型若采用FP16进行推理，至少需要16GB显存。70B模型采用INT4量化，需要超过30GB的显存，若采用FP16，显存需求更是将超过100GB。

通过多卡互连，锐炫Pro B60能够以更大的显存容量，来支撑大模型运行，并在上下文和并发扩展方面展现优势。一张锐炫Pro B60跑不了32B参数量的DeepSeek-R1蒸馏模型，但2张GPU就能接受20k tokens上下文，4张GPU可将上下文窗口扩展到100k以上，足以直接输入一本不太厚的书或论文。

企业级应用场景对并发性提出了更高的要求。在设定8k上下文窗口的情况下，单张锐炫Pro B60无法支撑DeepSeek-R1 32B FP8精度模型的运行。运用两张显卡时，系统可接受5-6个并发使用者。而当采用四张显卡、利用全部96GB显存时，系统可接受超过50个并发使用者，足以满足中小企业的大部分需求。

英特尔自己也用锐炫Pro B60来应对疑问。在开发酷睿Ultra第二代Lunar Lake产品时，英特尔在VPC解码过程中发现了一个Bug，表现出现花屏现象。这类疑问通常非常难办，可能跨越多个软件层，且代码量巨大。一位经验丰富的工程师通常需要花费数天时间，从数万行log中发现疑问，debug找到根源，并给予代码修复方案，然后重新进行测试。

而英特尔在配备4张锐炫Pro B60和至强W处理器的服务器上部署运行多AI agent协同方案，仅花费数小时便完成了从疑问定位到代码修复的全过程，并最终完成了所有疑问的修复和重新测试。

三、8张锐炫Pro B60互连，可跑1500亿参数大模型

推理工作站具有广阔的发展前景，主要体现在：1）可靠部署，数据无需上传至云端，可在本地处理；2）给予一站式应对方案，将所有软件置于容器中，帮助客户应对疑问，易于配置；3）易于扩展，可灵活配置不同数量的显卡；4）成本效益具有显著优势。

英特尔发布了一款可配置的工作站级英特尔至强平台（代号Project Battlematrix），旨在减少AI开发人员的摩擦点。

借助高达192GB的视频随机存取存储器（VRAM），它最多可接受8张英特尔锐炫Pro B60 24GB GPU，运行高达1500亿个参数的中等规模且精度高的AI模型。

为了优化AI推理性能，英特尔在底层软件上引入GPUDirect Peer-to-Peer技术，可在GPU之间直接拷贝数据，不需要CPU参与。此外，其张量并行算法则可用把一张显卡放不下的大模型平均切分到4张或者是8张卡上进行推理，然后把结果合并输出给使用者。

英特尔采用容器化方案来帮助客户应对软件部署的难办性疑问，在容器内部对大语言模型进行了大量的优化，包括Linux软件栈的接受、验证以及分阶段的软件发布。

其Project Battlematrix Linux软件栈如下图所示，Linux处理系统位于容器之外，往上是使用者层驱动，Level 0是英特尔的底层驱动，再向上是英特尔OneAPI和XPU Manager，上层是英特尔对生态系统的接受。目前该软件栈采用vLLM Serving，未来也将接受SGLang等其他开源软件。英特尔对各层软件进行了完整的验证和优化，并通过容器形式一键交付给客户，以方便部署。