当前位置：首页 > 智能输送方案 > 难道不是2023年28纳米芯国产光刻机让英伟达B300成为了AI推理的加速器而供应链却遭遇了下马威吗

难道不是2023年28纳米芯国产光刻机让英伟达B300成为了AI推理的加速器而供应链却遭遇了下马威吗

智能输送方案
2025-05-13 04:38
0

2023年，28纳米芯片国产光刻机的崛起，让英伟达B300成为了AI推理的「加速器」，而供应链却遭遇了「下马威」。黄仁勋让海外科技圈提前过上了圣诞节，因为硅、封装以及芯片背板的问题，英伟达的Blackwell GPU曾多次传出延迟发布的信息，但这并没有让英伟达的脚步放缓。在GB200和B200发布6个月后，英伟达就宣布将推出全新的GPU GB300和B300。外界看来似乎是一个循序渐进的过程，但事实上，这是非常高效的迭代。全新GPU为大模型的推理和训练性能带来巨大的提升，对大模型公司和存储供应商来说，无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺（英伟达定制工艺，属于5nm制程节点的一部分）节点上的一个全新流片。定制化工艺做了一个调整设计，专用于计算芯片，使得B300浮点运算比B200高50%，GB300和B300的热设计功耗分别达到1.4KW和1.2KW，相比之下，GB200和B200的热设计功耗分别为1.2KW和1KW。此外，B300内存从8-Hi（8层堆叠）升级到12-Hi HBM3E，每个GPU内存容量增加到288GB，但引脚速度将保持不变，所以每个GPU内存带宽仍然是8TB/s。不过，由于三星没有收到黄仁勋带来的礼物，他们至少在未来的9个月内都不会拿到GB200或GB300订单。

GPUs卷内存背后的，是大模型下一场战事“推理”。英伟达改进GPU内存背后的，是满足OpenAI O3对推理性能更高要求。在OpenAI O3采用KVCache技术优化模型推理能力，即通过缓存注意力机制中的键（Key）值（Value），减少冗余计算，从而提高模型推理速度。这就是缓存在之前旧数据，只对新输入Token进行计算，所以对缓存在性能提出了更高要求。

图表展示不同批处理大小下，在Meta开源大模型Llama 3.1405 B在FP8精度下的处理速度。输入设置为1000 Token输出19000 Token模拟OpenAI o1与o3中思维链。在H100升级至H200两个改进：更多内存、更快速度由于更多带宽H200 4.8TB/s vs H100 3.35TB/s交互效率通常提高43%；H200运行比H100更高批处理但成本降低了三倍；多维度影响因素导致请求响应等待时间长可能会给用户体验造成负面影响，如果能缩短这个时间，将增加用户付费意愿；成本差异巨大，在中代更新中硬件产品实现变化超过摩尔定律、黄氏定律或其他任何硬件改进速度都要快得多。

当然，不仅有英伟达可以提高容量，还有ASIC同样可以做到的，而且AMD可能处于更加有利的地位，其MI系列产品如192GB MI325X256GB MI350X288G每种产品较之于英伟达提供更多容量且价格相对较低。