Tensor コアは、混合精度のコンピューティングを可能にし、動的に演算を調整することで精度を維持し、セキュリティを強化しながらスループットを加速します。最新世代の Tensor コアは、多数の AI およびハイ パフォーマンス コンピューティング (HPC) タスクをこれまで以上に高速化します。 兆単位パラメータ AI モデルのトレーニングから画期的な推論パフォーマンスの達成まで、NVIDIA Tensor コアは、最新の AI ファクトリー向けのすべてのワークロードを高速化します。
NVIDIA Rubin プラットフォームは、強化された第 5 世代 Tensor コアを導入しています。最新の AI ファクトリーを高速化するために設計されており、4 ビットの狭精度 NVFP4 と FP8 演算のサポートを最適化しています。 これらの Tensor コアと NVIDIA Rubin のストリーミング マルチプロセッサ内の拡張された特殊機能ユニットを緊密に統合することで、プラットフォームはアテンション メカニズムとスパース コンピューティング パスを大幅に高速化し、モデルの精度を損なうことなく演算密度とエネルギー効率の両方を向上させます。
次世代のエージェント型 AI を強化する NVIDIA Rubin GPU は、第 5 世代 Tensor コアと NVFP4 精度を活用し、推論効率を最大化する 50 petaFLOPS の Transformer Engine を搭載しています。 このアーキテクチャの飛躍は、NVIDIA Vera Rubin NVL72 システムにおける NVFP4 推論において 3,600 PFLOPS までシームレスに拡張され、リアルタイム推論モデルに不可欠な大規模なスループットを実現します。
NVIDIA Blackwell および Rubin アーキテクチャは、入力値を分解し、高スループットで低精度の Tensor コアを活用することで、FP32 および FP64 マトリクス演算をエミュレートできます。このアプローチにより、ネイティブ IEEE754 の精度に匹敵するか、それ以上の精度を達成しながら、パフォーマンスとエネルギー効率を大幅に向上させることができます。 複雑なソフトウェア主導のアルゴリズムと固定小数点演算を活用することで、エミュレーションは、従来の高精度ハードウェア実行方法に代わる、制御された非常に効率的な代替手段を提供します。
NVIDIA Blackwell アーキテクチャは、GPT-MoE-1.8T などの大規模モデルにおいて、前世代の NVIDIA Hopper™ と比較して、30 倍の高速化を実現します。このパフォーマンスの向上は、第 5 世代 Tensor コアにより実現されました。 Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリング フォーマットを含む新しい精度を導入し、より優れた正確性を備え、さらに高い精度への容易な置き換えを実現します。
生成 AI モデルのサイズと複雑性は爆発的に増加しており、トレーニングと推論のパフォーマンスを向上させることが重要になります。これらのコンピューティングニーズを満たすために、NVIDIA Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリング フォーマットなど、新しい量子化フォーマットと精度をサポートしています。
この第 2 世代の Transformer Engine ではカスタムの NVIDIA Blackwell Tensor コア テクノロジと革新的な NVIDIA® TensorRT™-LLM および NeMo™ フレームワークを組み合わせ、大規模言語モデル (LLM) と混合エキスパート (MoE) モデルの推論とトレーニングを高速化します。Transformer Engine は、Tensor コアの FP4 精度を活用し、現在および次世代 MoE モデルにおいて高い精度を維持しながら、パフォーマンスと効率性を倍増させます。
Transformer Engine は、リアルタイムのパフォーマンスによって今日の LLM の普及を推進します。企業は、最新世代の生成 AI モデルを手ごろな価格で導入することで、ビジネス プロセスを最適化することができます。
ハードウェア、ネットワーク、ソフトウェア、ライブラリ、最適化された AI モデル、NVIDIA NGC™ カタログのアプリケーションが組み込まれた完全な NVIDIA データ センター ソリューションにおいて、極めて重要な構成要素になるのが Tensor コアです。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| サポートされている Tensor コア精度 | NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8、 | NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8、 |
| サポートされている CUDA® コア精度 | FP64、FP32、INT32、FP16、BF16 | FP64、FP32、FP16、BF16 |
*仕様は変更される場合があります。
NVIDIA Vera Rubin プラットフォームの詳細を見る