企業參考架構

打造可擴充的 AI 工廠

運用 NVIDIA 企業參考架構將資料中心轉型為高效能 AI 工廠。

立即開始

閱讀白皮書 | 探索 NVIDIA 認證系統

立即開始

概覽

構築 AI 成功的基石

NVIDIA 企業參考架構可協助組織採用經驗證且可重複使用的基礎架構，設計、部署及擴充高效能 AI 工廠。這些設計結合了認證運算、高速東西向網路與南北向網路、可觀察性工具以及軟體，確保從四節點叢集到企業規模環境的可擴充效能。

Palantir 與 NVIDIA 合作，提供主權 AI 作業系統參考架構

Palantir Sovereign AI OS 參考架構基於 NVIDIA Enterprise RA，經過測試與認證，可在 NVIDIA AI 基礎架構上執行 Palantir 完整軟體套件。

閱讀新聞稿

經實證的設計與經驗證的效能

瞭解基於實際部署與久經考驗的配置打造的企業參考架構如何簡化規劃，並最大化可擴充 AI 基礎架構的投資報酬率。

閱讀白皮書

企業參考架構

完整系列指南

一套用於在資料中心中設定叢集的完整說明目前可供使用。

基礎架構

NVIDIA 企業參考架構以經驗證的硬體配置為基礎，包括 CPU-GPU 網路節點模式、配線圖，以及基礎架構的詳細資料。

網路邏輯

企業參考架構的網路配置與邏輯架構指南，提供透過 NVIDIA Air 之 VLAN 設計與網路模擬，管理及佈建節點的說明。

軟體

我們針對企業參考架構提供的軟體參考堆疊，說明了用於管理、佈建及規劃基礎架構叢集的軟體方案。目前的版本著重於開源 Kubernetes，搭配 NVIDIA AI Enterprise 與 NVIDIA Run:ai 軟體。

可觀測性

NVIDIA 企業參考架構的可觀察性指南利用 Prometheus 與 Grafana 等開源工具，監測整個叢集的 GPU 與網路效能。儀表板提供系統健全狀況與工作負載效率的即時指標。

部署

NVIDIA 企業參考架構的部署指南彙整了我們團隊在建置、部署、測試及驗證內部叢集過程中所累積的基礎架構最佳實務。

儲存裝置

NVIDIA 認證儲存計畫是由特定合作夥伴共同推動的補充性專案，旨在建立與企業參考架構相互整合的儲存指南。深入瞭解這項獨特計畫。

使用案例

專為各種使用案例設計

利用經驗證的 NVIDIA 企業參考架構與全球合作夥伴提供的 NVIDIA 認證系統，加速代理 AI、物理 AI、高效能運算 (HPC) 與 AI 模擬工作負載。以下概述部署企業 AI 工廠所需的主要基礎架構叢集配置。

NVIDIA RTX PRO AI 工廠
NVIDIA HGX AI 工廠
NVIDIA NVL72 AI 工廠

NVIDIA RTX PRO AI 工廠

NVIDIA RTX PRO™ AI 工廠配置專為各種企業工作負載而設計，包括生成式與代理 AI、資料分析、視覺運算與工程模擬。部署已針對 16 節點與 32 節點設計點最佳化，兼顧效能、擴充性與部署效率。 NVIDIA RTX PRO 伺服器專為企業 AI、模擬與視覺運算的通用工作負載加速而設計，已針對 PCIe 環境最佳化，是空間、電力與冷卻受限之資料中心的首選。專為現代 AI 工作負載而打造，為代理 AI 與大型語言模型 (LLM) 推論提供高效效能。

查看叢集配置規格

NVIDIA HGX AI 工廠

高效能 NVIDIA HGX™ AI 工廠配置是專為大規模多節點 AI 訓練與推論而打造，採用 NVIDIA HGX 系統。該架構提供 32 個、64 個和 128 個節點設計，並由 NVIDIA Spectrum-X™ 網路支援，採用靈活且軌道最佳化的設計，可在各種機架佈局之間高效整合，同時提供高傳輸量、低延遲效能。它為 AI 進階使用者提供突破性的效能，以便執行需求最嚴苛的工作負載，實現大規模模型訓練與微調，並大幅加快推論速度。憑藉新一代的精度與超高速互連技術，該解決方案可實現最高 15 倍的 Token 傳輸量。

查看叢集配置規格

NVIDIA NVL72 AI 工廠

NVIDIA NVL72 AI 工廠配置專為訓練及部署兆級參數模型而設計，在單一機架內提供 exascale 級運算能力。專為大規模模型傳輸量、多使用者推論與大規模即時推論而打造，可實現新一代 AI 驅動創新技術的未來。部署設計重點集中在四機架與八機架配置。該架構建立在靈活且針對軌道最佳化的網路之上，可適應多種機架佈局與系統設計，同時提供高頻寬、低延遲效能。該平台提供卓越的 AI 工廠輸出能力，具備業界領先的能源效率，並採用第五代 NVIDIA NVLink™、FP4 Tensor 核心，以及先進的散熱創新技術。

查看叢集配置規格

優勢

企業參考架構的策略價值

運用經實證的合作夥伴就緒配置，開創可擴充的高效能 AI 基礎架構。

AI 工作負載的頂尖效能

透過確保完整 GPU 利用率與跨多節點叢集效能一致性的架構，滿足 AI 推論、微調與訓練的密集需求。

擴充靈活彈性，簡化作業

輕鬆擴充您的基礎架構，並確保可擴充且簡化的部署，最多可支援 128 個節點。透過 NVIDIA 企業 AI 工廠驗證設計，建立完整堆疊解決方案的基礎，並運用我們的軟體生態系統。

降低複雜性與總體擁有成本

簡化部署流程與高效設計、化繁為簡，並且降低總體擁有成本 (TCO)，同時縮短實現價值的時間。

支援性

遵循特定的標準化設計模式，可確保每次安裝的操作體驗保持一致、減少頻繁尋求支援的需求，以及加快問題解決速度。

合作夥伴

合作提升效能

我們很榮幸能與頂尖合作夥伴攜手合作，將企業參考架構與 AI 工廠解決方案推向市場。這些合作夥伴的認可設計已通過設計審查委員會，並在以下一或多個類別 (基礎架構、網路邏輯與軟體) 提供可獲得我們認可的指引。

立即開始

Palantir 主權 AI OS 參考架構 (與 NVIDIA 合作)

Palantir 主權 AI OS 參考架構基於 NVIDIA 企業參考架構，經測試與驗證，可在 NVIDIA AI 基礎架構上結合我們的全球系統合作夥伴，運行 Palantir 完整軟體套件。這種主權 AI 架構對於具有延遲敏感工作流程、資料主權要求以及高地域分佈的客戶而言至關重要。該架構能讓企業完全控制其資料、AI 模型與應用。

深入瞭解

資源

深入瞭解企業參考架構

NVIDIA RTX PRO AI 工廠參考架構

NVIDIA RTX PRO AI 工廠配置支援各種企業工作負載，包括代理 AI 推論、物理與工業 AI、視覺運算，以及資料分析與模擬的高效能運算。本文件詳細介紹支撐這種可擴充模組化架構的硬體元件。

閱讀白皮書

NVIDIA HGX AI 工廠參考架構

NVIDIA HGX AI 工廠配置著重於高效能 AI 推論、模型訓練與微調。本文件概述了可擴充模組化架構的硬體元件，包括叢集指導與用於互連叢集的網路網狀架構拓撲。

閱讀白皮書

利用 NVIDIA Run:ai 解鎖海量 Token 傳輸量

與 Nebius 的聯合基準測試顯示，在 NVIDIA 企業參考架構上使用 NVIDIA Run:ai 進行分段 GPU 部署，可大幅提高生產 LLM 工作負載的傳輸量與利用率。

閱讀部落格文章

NVIDIA 企業參考架構概覽

本白皮書介紹 NVIDIA 企業參考架構，它為設計與建構 AI 工廠提供經驗證的指導，用於 32 到 1,024 GPU 的企業級部署。這些架構有助於簡化 AI 基礎架構部署、讓營運化繁為簡，並加速實現價值。

閱讀白皮書

南北向網路：加速企業 AI 工作負載的關鍵

NVIDIA 企業參考架構可指導組織部署利用南北向網路和東西向網路的 AI 工廠，為可擴充、安全且高效能的 AI 基礎架構提供設計方案。

閱讀部落格文章

利用全新的企業參考架構大規模部署 NVIDIA H200 NVL

NVIDIA H200 NVL 透過增強的記憶體、高速 NVLink 以及最佳化的企業參考架構配置，加速 AI 部署。

閱讀部落格文章

NVIDIA 的 AI 工廠大規模帶動企業創新

NVIDIA 打造統一化的 AI 工廠，在全企業擴大生成式 AI 與代理工作流程的規模，確保安全性、效能與一致性。該平台支援數成千上百款 AI 代理，可加速創新、簡化軟硬體工程，並將供應鏈作業最佳化，並將規劃時間縮短 95% 以上，在短短一年內便達成數十年的工程成就。

探索關鍵成果

後續步驟

準備好開始了嗎？

深入瞭解 NVIDIA 企業級 AI 工廠。

立即開始

深入瞭解 NVIDIA 企業參考架構

探索 NVIDIA 企業參考架構如何為部署高效能 AI 基礎架構提供可擴充的規範藍圖。

閱讀白皮書

CPU (符合條件)	2x 64c Intel Xeon 2x 64c AMD EPYC
GPU	8 個 NVIDIA RTX PRO™ 6000 Blackwell 伺服器版本
網路 (東西向)	4 個 NVIDIA® BlueField®-3 B3140H (1 個 400 Gb)
網路 (南北向)	1 個 BlueField-3 B3220 (2 個 200 Gb)
主機記憶體 (最低)	最低 1,024 GB DDR5 ECC (每個插槽 1 個 DIMM)
主機開機磁碟 (最低)	1x 1 TB NVMe
主機儲存裝置 (最低)	2x 4 TB NVMe

CPU (符合條件)	2x 64c Intel Xeon 2x 64c AMD EPYC
GPU	8 個 NVIDIA Blackwell Ultra GPU
網路 (東西向)	8 個 NVIDIA® BlueField®-3 B3140H (1 個 400 Gb)
網路 (南北向)	1 個 BlueField-3 B3220 (2 個 200 Gb)
主機記憶體 (最低)	最低 1,536 GB DDR5 ECC (每個插槽 1 個 DIMM)
主機開機磁碟 (最低)	1x 1 TB NVMe
主機儲存裝置 (最低)	2x 4 TB NVMe

CPU	2 個 72c NVIDIA Grace™ (每個機架 36 個)
GPU	4 顆 NVIDIA Blackwell GPU (每個機架 72 顆)
網路 (東西向)	4 個 NVIDIA® ConnectX® -7 (1 個 400 Gb)
網路 (南北向)	2 個 NVIDIA BlueField® -3 B3240 (4 個 200 Gb)

企業參考架構

打造可擴充的 AI 工廠

構築 AI 成功的基石

Palantir 與 NVIDIA 合作，提供主權 AI 作業系統參考架構

經實證的設計與經驗證的效能

完整系列指南

基礎架構

網路邏輯

軟體

可觀測性

部署

儲存裝置

專為各種使用案例設計

NVIDIA RTX PRO AI 工廠

NVIDIA HGX AI 工廠

NVIDIA NVL72 AI 工廠

企業參考架構的策略價值

AI 工作負載的頂尖效能

擴充靈活彈性，簡化作業

降低複雜性與總體擁有成本

支援性

合作提升效能

Palantir 主權 AI OS 參考架構 (與 NVIDIA 合作)

深入瞭解企業參考架構

NVIDIA RTX PRO AI 工廠參考架構

NVIDIA HGX AI 工廠參考架構

利用 NVIDIA Run:ai 解鎖海量 Token 傳輸量

NVIDIA 企業參考架構概覽

南北向網路：加速企業 AI 工作負載的關鍵

利用全新的企業參考架構大規模部署 NVIDIA H200 NVL

NVIDIA 的 AI 工廠大規模帶動企業創新

後續步驟

準備好開始了嗎？

深入瞭解 NVIDIA 企業參考架構

叢集配置 2-8-5-200 規格

叢集配置 2-8-9-400 規格

叢集配置 2-4-6-400 規格