概覽
NVIDIA 企業參考架構可協助組織採用經驗證且可重複使用的基礎架構,設計、部署及擴充高效能 AI 工廠。 這些設計結合了認證運算、高速東西向網路與南北向網路、可觀察性工具以及軟體,確保從四節點叢集到企業規模環境的可擴充效能。
企業參考架構
一套用於在資料中心中設定叢集的完整說明目前可供使用。
使用案例
利用經驗證的 NVIDIA 企業參考架構與全球合作夥伴提供的 NVIDIA 認證系統,加速代理 AI、物理 AI、高效能運算 (HPC) 與 AI 模擬工作負載。以下概述部署企業 AI 工廠所需的主要基礎架構叢集配置。
NVIDIA RTX PRO™ AI 工廠配置專為各種企業工作負載而設計,包括生成式與代理 AI、資料分析、視覺運算與工程模擬。部署已針對 16 節點與 32 節點設計點最佳化,兼顧效能、擴充性與部署效率。 NVIDIA RTX PRO 伺服器專為企業 AI、模擬與視覺運算的通用工作負載加速而設計,已針對 PCIe 環境最佳化,是空間、電力與冷卻受限之資料中心的首選。 專為現代 AI 工作負載而打造,為代理 AI 與大型語言模型 (LLM) 推論提供高效效能。
高效能 NVIDIA HGX™ AI 工廠配置是專為大規模多節點 AI 訓練與推論而打造,採用 NVIDIA HGX 系統。該架構提供 32 個、64 個和 128 個節點設計,並由 NVIDIA Spectrum-X™ 網路支援,採用靈活且軌道最佳化的設計,可在各種機架佈局之間高效整合,同時提供高傳輸量、低延遲效能。 它為 AI 進階使用者提供突破性的效能,以便執行需求最嚴苛的工作負載,實現大規模模型訓練與微調,並大幅加快推論速度。憑藉新一代的精度與超高速互連技術,該解決方案可實現最高 15 倍的 Token 傳輸量。
NVIDIA NVL72 AI 工廠配置專為訓練及部署兆級參數模型而設計,在單一機架內提供 exascale 級運算能力。專為大規模模型傳輸量、多使用者推論與大規模即時推論而打造,可實現新一代 AI 驅動創新技術的未來。 部署設計重點集中在四機架與八機架配置。 該架構建立在靈活且針對軌道最佳化的網路之上,可適應多種機架佈局與系統設計,同時提供高頻寬、低延遲效能。該平台提供卓越的 AI 工廠輸出能力,具備業界領先的能源效率,並採用第五代 NVIDIA NVLink™、FP4 Tensor 核心,以及先進的散熱創新技術。
優勢
運用經實證的合作夥伴就緒配置,開創可擴充的高效能 AI 基礎架構。
透過確保完整 GPU 利用率與跨多節點叢集效能一致性的架構,滿足 AI 推論、微調與訓練的密集需求。
輕鬆擴充您的基礎架構,並確保可擴充且簡化的部署,最多可支援 128 個節點。 透過 NVIDIA 企業 AI 工廠驗證設計,建立完整堆疊解決方案的基礎,並運用我們的軟體生態系統。
簡化部署流程與高效設計、化繁為簡,並且降低總體擁有成本 (TCO),同時縮短實現價值的時間。
遵循特定的標準化設計模式,可確保每次安裝的操作體驗保持一致、減少頻繁尋求支援的需求,以及加快問題解決速度。
合作夥伴
我們很榮幸能與頂尖合作夥伴攜手合作,將企業參考架構與 AI 工廠解決方案推向市場。這些合作夥伴的認可設計已通過設計審查委員會,並在以下一或多個類別 (基礎架構、網路邏輯與軟體) 提供可獲得我們認可的指引。
Palantir 主權 AI OS 參考架構基於 NVIDIA 企業參考架構,經測試與驗證,可在 NVIDIA AI 基礎架構上結合我們的全球系統合作夥伴,運行 Palantir 完整軟體套件。這種主權 AI 架構對於具有延遲敏感工作流程、資料主權要求以及高地域分佈的客戶而言至關重要。 該架構能讓企業完全控制其資料、AI 模型與應用。
資源
NVIDIA 打造統一化的 AI 工廠,在全企業擴大生成式 AI 與代理工作流程的規模,確保安全性、效能與一致性。該平台支援數成千上百款 AI 代理,可加速創新、簡化軟硬體工程,並將供應鏈作業最佳化,並將規劃時間縮短 95% 以上,在短短一年內便達成數十年的工程成就。