NVIDIA 企業參考架構。

企業參考架構

打造可擴充的 AI 工廠

運用 NVIDIA 企業參考架構將資料中心轉型為高效能 AI 工廠。

概覽

構築 AI 成功的基石

NVIDIA 企業參考架構可協助組織採用經驗證且可重複使用的基礎架構,設計、部署及擴充高效能 AI 工廠。 這些設計結合了認證運算、高速東西向網路與南北向網路、可觀察性工具以及軟體,確保從四節點叢集到企業規模環境的可擴充效能。

Palantir 與 NVIDIA 合作,提供主權 AI 作業系統參考架構

Palantir Sovereign AI OS 參考架構基於 NVIDIA Enterprise RA,經過測試與認證,可在 NVIDIA AI 基礎架構上執行 Palantir 完整軟體套件。

經實證的設計與經驗證的效能

瞭解基於實際部署與久經考驗的配置打造的企業參考架構如何簡化規劃,並最大化可擴充 AI 基礎架構的投資報酬率。

企業參考架構

完整系列指南

一套用於在資料中心中設定叢集的完整說明目前可供使用。

基礎架構

NVIDIA 企業參考架構以經驗證的硬體配置為基礎,包括 CPU-GPU 網路節點模式、配線圖,以及基礎架構的詳細資料。

網路邏輯

企業參考架構的網路配置與邏輯架構指南,提供透過 NVIDIA Air 之 VLAN 設計與網路模擬,管理及佈建節點的說明。

軟體

我們針對企業參考架構提供的軟體參考堆疊,說明了用於管理、佈建及規劃基礎架構叢集的軟體方案。目前的版本著重於開源 Kubernetes,搭配 NVIDIA AI EnterpriseNVIDIA Run:ai 軟體。

可觀測性

NVIDIA 企業參考架構的可觀察性指南利用 Prometheus 與 Grafana 等開源工具,監測整個叢集的 GPU 與網路效能。 儀表板提供系統健全狀況與工作負載效率的即時指標。

部署

NVIDIA 企業參考架構的部署指南彙整了我們團隊在建置、部署、測試及驗證內部叢集過程中所累積的基礎架構最佳實務。

儲存裝置

NVIDIA 認證儲存計畫是由特定合作夥伴共同推動的補充性專案,旨在建立與企業參考架構相互整合的儲存指南。深入瞭解這項獨特計畫。

使用案例

專為各種使用案例設計

利用經驗證的 NVIDIA 企業參考架構與全球合作夥伴提供的 NVIDIA 認證系統,加速代理 AI、物理 AI、高效能運算 (HPC) 與 AI 模擬工作負載。以下概述部署企業 AI 工廠所需的主要基礎架構叢集配置。

NVIDIA RTX PRO AI 工廠

NVIDIA RTX PRO™ AI 工廠配置專為各種企業工作負載而設計,包括生成式與代理 AI、資料分析、視覺運算與工程模擬。部署已針對 16 節點與 32 節點設計點最佳化,兼顧效能、擴充性與部署效率。 NVIDIA RTX PRO 伺服器專為企業 AI、模擬與視覺運算的通用工作負載加速而設計,已針對 PCIe 環境最佳化,是空間、電力與冷卻受限之資料中心的首選。 專為現代 AI 工作負載而打造,為代理 AI 與大型語言模型 (LLM) 推論提供高效效能。

NVIDIA HGX AI 工廠

高效能 NVIDIA HGX™ AI 工廠配置是專為大規模多節點 AI 訓練與推論而打造,採用 NVIDIA HGX 系統。該架構提供 32 個、64 個和 128 個節點設計,並由 NVIDIA Spectrum-X™ 網路支援,採用靈活且軌道最佳化的設計,可在各種機架佈局之間高效整合,同時提供高傳輸量、低延遲效能。 它為 AI 進階使用者提供突破性的效能,以便執行需求最嚴苛的工作負載,實現大規模模型訓練與微調,並大幅加快推論速度。憑藉新一代的精度與超高速互連技術,該解決方案可實現最高 15 倍的 Token 傳輸量。

NVIDIA NVL72 AI 工廠

NVIDIA NVL72 AI 工廠配置專為訓練及部署兆級參數模型而設計,在單一機架內提供 exascale 級運算能力。專為大規模模型傳輸量、多使用者推論與大規模即時推論而打造,可實現新一代 AI 驅動創新技術的未來。 部署設計重點集中在四機架與八機架配置。 該架構建立在靈活且針對軌道最佳化的網路之上,可適應多種機架佈局與系統設計,同時提供高頻寬、低延遲效能。該平台提供卓越的 AI 工廠輸出能力,具備業界領先的能源效率,並採用第五代 NVIDIA NVLink™、FP4 Tensor 核心,以及先進的散熱創新技術。

優勢

企業參考架構的策略價值

運用經實證的合作夥伴就緒配置,開創可擴充的高效能 AI 基礎架構。

AI 工作負載的頂尖效能

透過確保完整 GPU 利用率與跨多節點叢集效能一致性的架構,滿足 AI 推論、微調與訓練的密集需求。

擴充靈活彈性,簡化作業

輕鬆擴充您的基礎架構,並確保可擴充且簡化的部署,最多可支援 128 個節點。 透過 NVIDIA 企業 AI 工廠驗證設計,建立完整堆疊解決方案的基礎,並運用我們的軟體生態系統。

降低複雜性與總體擁有成本

簡化部署流程與高效設計、化繁為簡,並且降低總體擁有成本 (TCO),同時縮短實現價值的時間。

支援性

遵循特定的標準化設計模式,可確保每次安裝的操作體驗保持一致、減少頻繁尋求支援的需求,以及加快問題解決速度。

合作夥伴

合作提升效能

我們很榮幸能與頂尖合作夥伴攜手合作,將企業參考架構與 AI 工廠解決方案推向市場。這些合作夥伴的認可設計已通過設計審查委員會,並在以下一或多個類別 (基礎架構、網路邏輯與軟體) 提供可獲得我們認可的指引。

Palantir 主權 AI OS 參考架構 (與 NVIDIA 合作)

Palantir 主權 AI OS 參考架構基於 NVIDIA 企業參考架構,經測試與驗證,可在 NVIDIA AI 基礎架構上結合我們的全球系統合作夥伴,運行 Palantir 完整軟體套件。這種主權 AI 架構對於具有延遲敏感工作流程、資料主權要求以及高地域分佈的客戶而言至關重要。 該架構能讓企業完全控制其資料、AI 模型與應用。

資源

深入瞭解企業參考架構

NVIDIA RTX PRO AI 工廠參考架構

NVIDIA RTX PRO AI 工廠配置支援各種企業工作負載,包括代理 AI 推論、物理與工業 AI、視覺運算,以及資料分析與模擬的高效能運算。 本文件詳細介紹支撐這種可擴充模組化架構的硬體元件。

NVIDIA HGX AI 工廠參考架構

NVIDIA HGX AI 工廠配置著重於高效能 AI 推論、模型訓練與微調。 本文件概述了可擴充模組化架構的硬體元件,包括叢集指導與用於互連叢集的網路網狀架構拓撲。

利用 NVIDIA Run:ai 解鎖海量 Token 傳輸量

與 Nebius 的聯合基準測試顯示,在 NVIDIA 企業參考架構上使用 NVIDIA Run:ai 進行分段 GPU 部署,可大幅提高生產 LLM 工作負載的傳輸量與利用率。

NVIDIA 企業參考架構概覽

本白皮書介紹 NVIDIA 企業參考架構,它為設計與建構 AI 工廠提供經驗證的指導,用於 32 到 1,024 GPU 的企業級部署。 這些架構有助於簡化 AI 基礎架構部署、讓營運化繁為簡,並加速實現價值。

南北向網路:加速企業 AI 工作負載的關鍵

NVIDIA 企業參考架構可指導組織部署利用南北向網路和東西向網路的 AI 工廠,為可擴充、安全且高效能的 AI 基礎架構提供設計方案。

利用全新的企業參考架構大規模部署 NVIDIA H200 NVL

NVIDIA H200 NVL 透過增強的記憶體、高速 NVLink 以及最佳化的企業參考架構配置,加速 AI 部署。

NVIDIA 的 AI 工廠大規模帶動企業創新

NVIDIA 打造統一化的 AI 工廠,在全企業擴大生成式 AI 與代理工作流程的規模,確保安全性、效能與一致性。該平台支援數成千上百款 AI 代理,可加速創新、簡化軟硬體工程,並將供應鏈作業最佳化,並將規劃時間縮短 95% 以上,在短短一年內便達成數十年的工程成就。

後續步驟

準備好開始了嗎?

深入瞭解 NVIDIA 企業級 AI 工廠。

深入瞭解 NVIDIA 企業參考架構

探索 NVIDIA 企業參考架構如何為部署高效能 AI 基礎架構提供可擴充的規範藍圖。

叢集配置 2-8-5-200 規格

叢集配置 2-8-9-400 規格

叢集配置 2-4-6-400 規格

Cisco 是全球技術領導品牌,正在革新 AI 時代組織連線與保護的方式。 40 多年來,Cisco 以安全的方式連通世界。 Cisco 憑藉其領先業界的 AI 驅動解決方案與服務,使客戶、合作夥伴與社群開啟創新、提高生產力,並強化數位韌性。Cisco 以使命為核心,繼續致力為全人類打造一個更相互串連且包容的未來。

NVIDIA 設計審查委員會認可的解決方案:

Dell Technologies 協助組織與個人打造數位未來,並改變他們的工作、生活與娛樂方式。 該公司為客戶提供 AI 時代最廣泛且最具創新性的技術與服務組合。

NVIDIA 設計審查委員會認可的解決方案:

HPE 是企業關鍵技術的領導者,整合 AI、雲端與網路的力量,協助組織創造更多價值。作為可能性的先驅,我們的創新與專業推動人們的生活與工作方式向前發展。我們讓各行各業的客戶將營運效能最佳化、將資料轉化為前瞻性預測,並將其影響力發揮到極致。 透過 HPE 發揮您最大的雄心壯志。

NVIDIA 設計審查委員會認可的解決方案:

Lenovo 是一家營收 690 億美元的全球技術巨頭,在《財富》全球 500 強中排名第 196 位,每天為 180 個市場的數百萬客戶提供服務。 我們與 NVIDIA 持續合作,將 Lenovo 伺服器與加速 GPU 相互結合,致力為所有人提供 Smarter Technology 的大膽願景。 Lenovo Hybrid AI Advantage™ 搭配 NVIDIA,透過加速 AI 部署來大幅提升生產力與創新能力,並由 Lenovo AI 函式庫以及完整堆疊的 AI 基礎架構、裝置、解決方案與服務提供支援。

NVIDIA 設計審查委員會認可的解決方案:

Supermicro 是全球應用最佳化全方位 IT 解決方案的領導者。 Supermicro 在美國加州聖荷西成立及營運,致力為企業、雲端、AI 與 5G 電信 / 邊緣 IT 基礎架構提供市場首發的創新技術。 我們是一家完整的 IT 解決方案供應商,提供伺服器、AI、儲存、IoT、交換器系統、軟體與支援服務。 Supermicro 在主機板、電源與機箱設計方面的專業知識,進一步推動我們的開發與生產,為全球客戶實現從雲端到邊緣的新一代創新。

NVIDIA 設計審查委員會認可的解決方案: