Transformer Engine 架构设计分析

Transformer Engine是NVIDIA开发的高性能Transformer模型加速库,支持FP8混合精度训练,显著降低内存占用和提升性能。

系统架构分析

Megatron-LM 架构深度分析

Megatron-LM是NVIDIA开发的大规模Transformer模型训练GPU优化库,支持多种并行策略和混合精度训练。

系统架构分析

HCCL 集合通信库设计分析

HCCL是基于昇腾AI处理器的高性能集合通信库,为单机多卡及多机多卡环境提供高效的数据并行和模型并行集合通信方案。

系统架构分析

DeepEP 架构分析

DeepEP是专为混合专家模型(MoE)和专家并行(EP)设计的高性能通信库,提供高吞吐量和低延迟的All-to-All GPU内核。

系统架构分析

Hello World

欢迎来到我的博客!这是使用 Hexo 和 Stellar 主题的第一篇文章。

其他