大型語言模型正在快速走進個人電腦、研究室、創作者工作站與企業內部系統。過去大家使用 AI,通常是透過雲端 API;現在越來越多人開始把模型拉回本地,想在自己的電腦上跑 LLM、做 RAG、整理文件、寫程式、產生內容,甚至進一步嘗試 LoRA、QLoRA 微調。
但當你真正開始架設本地 LLM,很快就會遇到第一個現實問題:不是 GPU 算力不夠,而是 VRAM 顯存不夠。
很多人會直覺認為,只要多插幾張顯示卡,顯存就會自動加起來。例如兩張 RTX 3090 Ti 24GB,就等於一張 48GB 顯卡;四張 24GB,就等於 96GB。這個想法很合理,但實際上並不完全正確。
多張顯示卡的 VRAM 並不會像系統記憶體 RAM 一樣自動合併。每張 GPU 都有自己的顯存空間,彼此是獨立的。你可以把模型拆開放到不同 GPU 上,但不能期待作業系統直接把它們變成一個巨大顯存池。
換句話說,多 GPU 跑 LLM 的核心不是「顯存自動共用」,而是「透過軟體把模型分配出去」。
我有兩張、三張、四張顯示卡,跑 LLM 時顯存到底能不能加起來用?
答案是:不能像 RAM 一樣直接相加,但可以透過 Model Parallel、Tensor Parallel、Pipeline Parallel、Layer Split、ZeRO、Offload 等技術,讓大型模型分散到多張 GPU 上執行,達到類似顯存擴展的效果。
多張顯示卡的顯存可以直接共用嗎?
先把最重要的觀念講清楚:
多張 GPU 的顯存不是自動合併,而是要靠軟體切分模型。
假設你有兩張 RTX 3090 Ti:
GPU 0:24GB VRAM
GPU 1:24GB VRAM
系統不會直接顯示成:
一張 48GB GPU
比較正確的理解是:
模型的一部分放在 GPU 0
模型的另一部分放在 GPU 1
兩張 GPU 透過 PCIe 或 NVLink 溝通
所以,多卡 LLM 的真正邏輯不是「把顯存合併」,而是「把模型拆開」。
這個差異非常重要,因為它會直接影響你選顯卡、選主機板、選框架、選模型格式,甚至影響你到底要不要買第二張 GPU。
為什麼顯存不能像 RAM 一樣直接相加?

CPU 使用的系統記憶體通常由作業系統統一管理,應用程式可以把它視為一個連續的大記憶體空間。但 GPU 的 VRAM 是掛在各自顯示卡上的高速記憶體,每張卡都有自己的控制器、頻寬與資料路徑。
也就是說,GPU 0 要使用 GPU 1 的資料時,不能像讀自己顯存那麼快,必須透過 PCIe、NVLink 或其他互連方式傳輸。這個過程會產生延遲,也會吃掉頻寬。
因此,多卡架構最怕的不是「顯卡不夠多」,而是「GPU 之間一直傳資料」。
只要模型切得不好、框架支援不好、PCIe 頻寬不足,多卡不但不一定更快,甚至可能比單卡更慢。
什麼情況看起來像「顯存共用」?

當模型被拆成不同部分,分別放到不同 GPU 上時,使用者會感覺好像顯存變大了。
例如一個 70B Q4 量化模型可能需要約 40GB 以上的顯存。單張 24GB 顯卡放不下,但兩張 24GB 顯卡透過模型切分,就有機會把模型分散載入:
GPU 0:放模型前半部
GPU 1:放模型後半部
這種做法在使用體驗上很像「24GB + 24GB = 可以跑更大的模型」,但底層不是硬體合併,而是軟體分配。
常見方式包含:
Layer Split:把模型層數分到不同 GPU
Tensor Parallel:把同一層的矩陣運算切到多張 GPU
Pipeline Parallel:把模型不同階段分配到不同 GPU
Offload:把部分資料丟到 CPU RAM 或 SSD
所以你可以把多 GPU 顯存共用理解成一句話:
多 GPU 不是把顯存合成一塊,而是把模型切成多塊。
推論、微調、訓練的多卡邏輯不同
討論多 GPU 跑 LLM 時,不能只說「跑模型」,因為推論、微調、訓練的需求完全不同。
推論:重點是模型能不能放得下
如果你只是用 LLM 聊天、寫文章、寫程式、摘要文件,這屬於推論。推論最在意的是:
模型權重能不能載入
KV Cache 夠不夠
Context Length 能不能拉長
Token 生成速度是否能接受
對一般使用者來說,推論場景最常見的工具包括 LM Studio、Ollama、llama.cpp、KoboldCpp、text-generation-webui、vLLM 等。
微調:重點是訓練狀態能不能塞進顯存
如果你要做 LoRA、QLoRA 或 Adapter 微調,顯存壓力會比單純推論更高。因為除了模型權重以外,還要處理梯度、訓練資料、activation、optimizer state 等資料。
這時候多 GPU 的價值就會提升。
完整訓練:重點是頻寬、同步與系統架構
如果你要從頭訓練大型模型,多卡只是基本門檻。真正困難的是:
GPU 之間如何同步
資料如何分散
參數如何切分
網路與儲存如何跟上
框架是否支援分散式訓練
這就是為什麼 H100、H200、NVSwitch、InfiniBand 這類資料中心架構會存在。它們不是單純追求單張 GPU 很快,而是要讓大量 GPU 可以一起有效工作。
跑 LLM 的多 GPU 技術有哪些?
要理解多張顯卡怎麼跑 LLM,可以先掌握五個核心技術:
Data Parallelism
Tensor Parallelism
Pipeline Parallelism
ZeRO
Offload
這些名詞看起來很硬,但如果用白話來說,其實就是在回答同一個問題:
模型太大,顯存不夠,資料太多,要怎麼分?
Data Parallelism:資料並行,主要用來加速訓練
Data Parallelism,資料並行,是最直覺的多 GPU 訓練方式。
它的做法是:每張 GPU 都放一份完整模型,然後把訓練資料切成不同批次,分給不同 GPU 計算。
例如你有 4 張 GPU:
GPU 0:完整模型 + 第 1 批資料
GPU 1:完整模型 + 第 2 批資料
GPU 2:完整模型 + 第 3 批資料
GPU 3:完整模型 + 第 4 批資料
每張 GPU 算完後,再把結果同步回來。
這種方式的優點是容易理解,也能有效提升訓練速度。但它有一個致命限制:
每張 GPU 都要放得下完整模型。
所以 Data Parallelism 並不能解決「模型太大,單張 GPU 放不下」的問題。它比較適合模型本身已經可以放進單卡,但你想用多卡加速訓練的情境。
簡單講:
Data Parallelism 是加速訓練,不是擴展模型容量。
Tensor Parallelism:張量並行,把同一層計算切到多張 GPU
Tensor Parallelism,張量並行,才更接近很多人想像中的「多卡共同跑一個大模型」。
LLM 的核心運算大量來自矩陣乘法。Tensor Parallelism 會把同一層裡面的矩陣運算拆成多份,分配到不同 GPU 上計算,再把結果合併。
這種做法可以讓多張 GPU 共同承擔同一個模型的計算壓力,也更適合大型模型推論與訓練。
常見應用包含:
vLLM
TensorRT-LLM
Megatron-LM
部分高效能推論服務
企業級 LLM API 服務
Tensor Parallelism 的優點是效率高、吞吐量好,也更適合多人同時使用的 API 服務。但它對 GPU 之間的通訊頻寬要求較高。
因為同一層的計算被拆開後,GPU 之間必須頻繁交換資料。如果你的顯卡只是透過一般 PCIe 連接,速度可能會被跨卡通訊拖慢。如果有 NVLink、NVSwitch 或資料中心級互連,效果就會好很多。
簡單講:
Tensor Parallelism 更像真正的多 GPU 協同運算,但也更吃頻寬。
Pipeline Parallelism:流水線並行,把模型層數分到不同 GPU
Pipeline Parallelism,流水線並行,是另一種常見的模型切分方式。
它會把模型不同層分配到不同 GPU。例如一個 80 層的模型,可以這樣拆:
GPU 0:第 1~20 層
GPU 1:第 21~40 層
GPU 2:第 41~60 層
GPU 3:第 61~80 層
資料會像流水線一樣從 GPU 0 傳到 GPU 1,再傳到 GPU 2,最後傳到 GPU 3。
這種方式很適合解決模型太大、單卡放不下的問題。因為每張 GPU 只需要放一部分模型,不必放完整模型。
但流水線並行也有缺點:如果切分不平均,某張 GPU 工作特別多,其他 GPU 就會等待;如果 batch size 太小,流水線填不滿,也會浪費效能。
簡單講:
Pipeline Parallelism 可以讓模型跨卡放置,但效率取決於切分方式。
ZeRO:降低訓練時的顯存浪費
ZeRO,全名是 Zero Redundancy Optimizer,主要用在訓練與微調。
在傳統資料並行中,每張 GPU 都會保留一份完整模型、梯度與 optimizer state。這會造成大量重複資料,浪費顯存。
ZeRO 的做法是:把這些資料切開,分散到不同 GPU,降低每張 GPU 的負擔。
可以分成三個階段理解:
ZeRO Stage 1:切分 optimizer state
ZeRO Stage 2:進一步切分 gradient
ZeRO Stage 3:連 parameter 也一起切分
ZeRO Stage 3 對大型模型訓練特別重要,因為它可以大幅降低單張 GPU 的顯存壓力。
但如果你只是用 LM Studio、Ollama、llama.cpp 跑推論,ZeRO 不是最優先需要理解的技術。它更適合出現在微調、訓練、DeepSpeed、Accelerate、分散式訓練這類場景。
簡單講:
ZeRO 是訓練與微調時的顯存節省工具,不是一般聊天推論的主要解法。
Offload:把部分資料丟到 CPU RAM 或 SSD
Offload 是很多人顯存不夠時的最後手段。
它的做法是把部分模型權重、KV Cache、optimizer state 或其他資料放到 CPU 記憶體,甚至放到 SSD。這樣可以讓原本放不進 GPU 的模型勉強跑起來。
但代價很明顯:速度會下降。
因為 GPU VRAM 的頻寬遠高於系統 RAM,而系統 RAM 又遠高於 SSD。只要模型執行過程中需要頻繁從 CPU 或 SSD 把資料搬回 GPU,速度就會被拖慢。
所以 Offload 的定位很清楚:
Offload 是用速度換容量。
如果你只是想「能跑起來」,Offload 很有用。
如果你想「跑得快、回應順、多人使用」,Offload 就不是理想解法。
多張 GPU 怎麼跑本地 LLM?
對大多數本地 AI 使用者來說,真正關心的不是完整訓練,而是推論。
也就是說,你想做的是:
載入模型
輸入問題
產生回答
處理文件
建立 RAG
跑本地 API
這時候你會接觸到 LM Studio、Ollama、llama.cpp、KoboldCpp、text-generation-webui、vLLM 等工具。
llama.cpp / GGUF:最常見的本地多 GPU 入口
如果你使用 GGUF 模型,llama.cpp 是非常常見的本地推論方案。它可以透過 GPU offload、layer split、tensor split 等方式,把模型分配到多張 GPU 上。
常見概念像是:
--n-gpu-layers 999
--split-mode layer
--tensor-split 1,1
如果你有兩張 24GB 顯卡,可以理解成平均分配:
--tensor-split 1,1
如果你是一張 24GB 加一張 12GB,可以用比例分配:
--tensor-split 2,1
這種方式的好處是彈性高、可控性強,也適合想測試多 GPU 是否真的吃到顯存的人。
你可以一邊跑模型,一邊用:
nvidia-smi
觀察每張 GPU 的 VRAM 使用量。
如果你看到:
GPU 0:使用 22000 MiB
GPU 1:使用 21000 MiB
代表模型確實分配到兩張卡上。
Ollama:簡單好用,但多 GPU 控制較不透明
Ollama 的優點是簡單,安裝、下載模型、啟動服務都很方便。對一般使用者來說,它是很好的本地 LLM 入門工具。
但 Ollama 對多 GPU 的手動控制通常沒有 llama.cpp CLI 那麼透明。它可能會自動偵測 NVIDIA GPU,也可能根據模型與環境分配資源,但你比較難精準控制每張卡要放多少。
所以如果你的需求是:
快速跑模型
簡單開 API
日常使用
不想研究太多參數
Ollama 很適合。
但如果你的需求是:
精準控制雙 GPU
測試 70B Q4
指定每張卡吃多少 VRAM
調整 split 模式
那 llama.cpp、KoboldCpp 或 text-generation-webui 會更有操作空間。
LM Studio:適合一般使用者,但多卡彈性有限
LM Studio 的優勢是圖形介面友善,適合不想碰命令列的人。你可以下載模型、設定 GPU offload、啟動本地 API,也能很快測試不同 GGUF 模型。
但 LM Studio 的多 GPU 控制通常會受版本與 UI 功能影響。不同版本可能會出現不同選項,例如:
GPU Offload
CUDA Devices
Tensor Split
Multi GPU
如果你只是單卡跑 7B、14B、32B 模型,LM Studio 很方便。
但如果你想穩定使用兩張以上 GPU 跑 70B 或更大的模型,建議還是要理解 llama.cpp 或其他後端工具的多卡參數。
vLLM:適合架 API 與多人服務
如果你的目標不是單人聊天,而是架設 LLM API 給多人使用,那 vLLM 會更適合。
vLLM 的強項是高吞吐、多請求處理、KV Cache 管理與 Tensor Parallel。你可以用類似下面的方式啟動多 GPU:
vllm serve Qwen/Qwen2.5-72B-Instruct \
--tensor-parallel-size 2
如果有四張 GPU:
vllm serve Qwen/Qwen2.5-72B-Instruct \
--tensor-parallel-size 4
vLLM 更適合:
API Server
多人同時請求
高吞吐推論
企業內部 LLM 服務
Linux / Docker / WSL2 環境
但對 Windows 桌面使用者來說,環境設定門檻會比 LM Studio、Ollama、llama.cpp 高。
單卡大 VRAM vs 多卡小 VRAM,哪個比較好?
如果你的目標只是本地推論,一個很實際的建議是:
優先選單張大 VRAM 顯卡,通常比多張小 VRAM 顯卡更省事。
例如:
1 張 48GB 顯卡
通常會比:
2 張 24GB 顯卡
更容易設定,也比較不容易遇到跨卡通訊、模型切分、框架支援與驅動問題。
但是,如果你手上已經有多張 RTX 3090、3090 Ti、4090、5090,或者你能用合理成本取得多張二手高 VRAM 顯卡,那多 GPU 仍然非常有價值。
差別在於:
單卡大 VRAM:簡單、穩定、少踩坑
多卡高 VRAM:彈性高、容量大、但需要調校
所以不要只問「哪個比較快」,而要問:
我要跑什麼模型?
我要跑多長上下文?
我要不要微調?
我要不要多人服務?
我能不能接受 Linux / Docker / 命令列?
KV Cache:長上下文才是真正的顯存殺手
很多人估算 LLM 顯存時,只看模型大小,卻忽略 KV Cache。
模型權重只是第一層顯存需求。當你把 Context Length 拉長,例如從 4K 拉到 16K、32K、64K,KV Cache 會快速增加。
這代表同一個模型,在不同上下文長度下,顯存需求會差很多。
例如你跑 70B Q4:
4K context:可能剛好能跑
16K context:顯存壓力明顯增加
32K context:可能需要更多 GPU 或更低量化
所以選硬體時,不要只問:
這張卡能不能跑 70B?
更應該問:
這張卡能不能跑 70B + 我需要的上下文長度?
如果你要做長文件摘要、法律文件分析、程式碼庫理解、RAG 多文件查詢,KV Cache 會變得非常重要。
LoRA / QLoRA:個人與小型實驗室最實際的微調方案
對個人、工作室、小型實驗室來說,完整訓練 LLM 通常不實際。更常見的做法是 LoRA 或 QLoRA。
LoRA 會在原本模型上加入少量可訓練參數,不需要更新整個模型。QLoRA 則進一步搭配量化,降低顯存需求。
這類方法適合:
讓模型學會特定格式
讓模型熟悉公司文件風格
讓模型微調客服語氣
讓模型適應特定領域資料
讓模型輸出固定結構
如果你有 24GB VRAM,已經可以做不少 LoRA / QLoRA 實驗。
如果你有雙 24GB 或更多 GPU,就可以嘗試更大的模型、更大的 batch size 或更長序列。
全參數訓練,不是把 GPU 插滿就好
完整訓練 LLM 的難度遠高於推論與 LoRA 微調。
你不只需要很多 GPU,還需要:
足夠 PCIe lanes
穩定的 Linux 環境
高速 NVMe 儲存
足夠系統 RAM
高瓦數電源
良好散熱
成熟訓練框架
資料處理流程
checkpoint 管理
很多人以為只要買四張顯卡就能訓練大模型,但實際上,四張 GPU 只是開始。
模型越大,GPU 之間同步越頻繁,訓練越容易被通訊效率拖慢。這也是為什麼企業級訓練會重視 NVLink、NVSwitch、InfiniBand 與專用 AI 伺服器。
多卡訓練真正吃的是通訊效率
當 GPU 數量增加,算力會增加,但通訊成本也會增加。
如果每張 GPU 都一直等待其他 GPU 傳資料,整體效能就會下降。這種情況下,你買更多顯卡不一定會得到等比例速度提升。
所以多 GPU 訓練要看的是整套系統:
GPU 數量
GPU VRAM
GPU 間互連
PCIe 通道配置
CPU 平台
記憶體容量
儲存速度
框架支援
模型切分策略
真正的多卡效能,不是顯卡規格單獨決定,而是整台機器一起決定。
NVLink、PCIe、NVSwitch 差在哪?
多 GPU 跑 LLM 時,GPU 之間要交換資料。這時候互連方式就很重要。
PCIe:一般消費級多卡主要依賴它
大多數消費級 RTX 顯卡都是透過 PCIe 互相溝通。
PCIe 的優點是普及,主機板都支援;缺點是頻寬有限,而且實際配置會受到 CPU PCIe lanes 與主機板設計影響。
有些主機板看起來可以插很多張 GPU,但實際可能是:
第一張:x16
第二張:x4
第三張:x4
或是:
雙卡:x8 / x8
對遊戲來說可能還好,但對多 GPU LLM 訓練或張量並行來說,頻寬會影響效率。
NVLink:加快 GPU 之間溝通,但不是自動合併顯存
NVLink 的作用是提高 GPU 之間的資料傳輸速度。
但要注意:NVLink 不等於顯存自動合併。
它比較像是讓兩張 GPU 之間有更快的高速公路,而不是把兩張 GPU 變成一張 GPU。
對 RTX 3090 / 3090 Ti 這類支援 NVLink 的卡來說,NVLink 可以改善部分多卡工作負載。但近年不少消費級 RTX 顯卡已經不再支援 NVLink,因此不能假設買兩張新卡就一定有高速互連。
簡單講:
NVLink 讓 GPU 溝通更快,但模型還是要靠軟體切分。
NVSwitch:資料中心級多 GPU 架構
NVSwitch 是更高階的多 GPU 互連架構,常見於資料中心級 AI 系統。
H100、H200 這類資料中心 GPU 搭配 NVSwitch,才能讓多張 GPU 以更高效率組成大型 AI 運算平台。
這種架構適合:
大規模模型訓練
企業級推論服務
高吞吐 AI API
多節點 GPU 叢集
大型研究機構
但它不是一般個人 AI PC 會採用的方案。因為它涉及機房、電力、散熱、伺服器平台與高昂成本。
硬體選購邏輯,不要只看 TOPS,要先看 VRAM
近年很多 AI PC、NPU、GPU 宣傳都會強調 TOPS,也就是每秒可以執行多少兆次運算。
TOPS 當然有參考價值,但對本地 LLM 來說,它不是第一優先。
跑 LLM 最重要的第一件事是:
模型能不能放進顯存?
如果模型放不進去,再高的 TOPS 也沒有意義。
VRAM,本地 LLM 第一優先
本地跑 LLM,VRAM 是最重要的規格之一。
你可以大致這樣理解:
7B / 8B:入門卡即可
14B:16GB VRAM 會比較舒服
32B:24GB VRAM 接近甜蜜點
70B Q4:通常需要雙 24GB 或更大 VRAM
100B+:需要更多 GPU 或更高 VRAM 工作站
當然,實際需求會受到量化格式、上下文長度、框架、batch size 影響,但大方向是:
VRAM 越大,能跑的模型越大,設定越簡單。
記憶體頻寬:影響 token 生成速度
除了 VRAM 容量,記憶體頻寬也很重要。
LLM 推論時,GPU 需要大量讀取模型權重。尤其在 batch size 較小、單人聊天的情境下,記憶體頻寬常常會影響 token 生成速度。
所以同樣是 24GB VRAM,不同顯卡的速度可能差很多。因為它們的記憶體頻寬、架構、Tensor Core、驅動最佳化都不同。
簡單講:
VRAM 決定能不能跑。
頻寬影響跑得快不快。
CUDA Core、Tensor Core:影響訓練與推論效率
CUDA Core、Tensor Core 會影響矩陣運算效率,對訓練與推論都有幫助。
但在 LLM 選卡時,不能只看核心數。因為如果 VRAM 太小,模型根本放不進去,再多核心也沒用。
所以選購順序建議是:
第一:VRAM 容量
第二:記憶體頻寬
第三:GPU 架構與 Tensor Core
第四:功耗與散熱
第五:價格與平台支援
TOPS:可以參考,但不能單獨判斷 LLM 表現
TOPS 很適合用來描述 AI 加速能力,但 LLM 實際表現還會受到很多因素影響:
VRAM 容量
記憶體頻寬
模型量化格式
上下文長度
batch size
推論框架
CUDA / ROCm 支援
驅動與後端最佳化
所以當你看到一張顯卡或 AI PC 宣傳 TOPS 很高,不要立刻認定它很適合跑 LLM。
你要先問:
它有多少 VRAM?
能不能載入我要跑的模型?
支援什麼框架?
能不能跑 CUDA?
長上下文會不會爆顯存?
不同預算的本地 LLM 硬體建議
接下來從實際選購角度,整理不同級距適合的方向。
入門級:RTX 5060 Ti 16GB
如果 RTX 5060 Ti 具備 16GB VRAM,它對本地 LLM 來說會是一張很有意義的入門卡。
它適合:
7B / 8B 小模型推論
12B / 14B 量化模型
輕量 RAG
個人 AI 助理
基礎 LoRA / QLoRA 實驗
WordPress / SEO / 文案生成工作流
它的限制也很明顯:
不適合順跑大型 70B
長上下文容易吃緊
多卡擴展價值有限
高吞吐 API 服務不適合
如果你是剛開始玩本地 AI,RTX 5060 Ti 16GB 的重點不是超強算力,而是它有足夠入門的 VRAM。
中階級:RTX 5070 / RTX 5070 Ti
RTX 5070 / 5070 Ti 這類中階卡通常會有更好的 GPU 架構、更高效能與更好的遊戲表現。
但跑 LLM 時,要特別注意 VRAM。
如果某張 RTX 5070 的 VRAM 低於 RTX 5060 Ti 16GB,那它在本地 LLM 上不一定比較實用。因為很多模型不是算不動,而是放不下。
RTX 5070 / 5070 Ti 適合:
更快的小模型推論
AI + 遊戲 + 創作混合用途
中小型模型微調
需要較新架構與較好能效的使用者
但購買前要先確認:
VRAM 容量
記憶體頻寬
功耗
散熱
價格差距
是否真的比 16GB 卡更適合 LLM
LLM 選卡不能只看型號高低,要先看 VRAM。
高階級:RTX 4090 / RTX 5090
高階 RTX 顯卡通常是本地 LLM 玩家最常討論的選項。
它們適合:
13B / 14B 高速推論
32B 模型較舒服
部分 70B 量化模型
LoRA / QLoRA 微調
創作、遊戲、AI 混合工作站
如果你只有一張高階卡,24GB 以上 VRAM 會是非常實用的甜蜜點。它可以兼顧速度、模型大小與使用便利性。
如果你有兩張以上高階卡,就可以進一步挑戰:
70B Q4
70B Q5
更長上下文
多模型工作流
本地 API 服務
但多卡高階 RTX 也要注意電源、散熱、主機板空間與 PCIe lanes。
專業工作站:RTX PRO 6000 Blackwell
RTX PRO 6000 Blackwell 這類專業卡的定位不是單純遊戲,也不是一般消費級 AI 玩具,而是專業工作站。
它適合:
需要大 VRAM 的 AI 工作站
長時間穩定運算
專業影像處理
科學計算
AI 推論與微調
多任務創作工作流
對於公司內部 AI 團隊、研究室、設計工作站、工程模擬與本地 LLM 部署來說,專業卡的價值在於穩定性、VRAM、驅動支援與長時間運作能力。
但它的價格通常也會比消費級 RTX 高很多,所以不一定適合一般個人玩家。
企業與資料中心:H100 / H200
H100、H200 是資料中心級 GPU,適合大規模 AI 訓練與高吞吐推論服務。
它們適合:
大型模型訓練
企業級 LLM 部署
多人 API 服務
高吞吐推論
多節點 GPU 叢集
AI 研究中心
但對個人或小型工作室來說,H100、H200 通常不是合理選擇。因為你不只要買 GPU,還要處理:
伺服器平台
機房電力
散熱
網路
維護
軟體部署
成本回收
所以如果你只是想在本地跑 LLM,RTX 系列或 RTX PRO 工作站通常更實際。
多卡組機注意事項,不是主機板插得下就能跑得好
很多人規劃多 GPU 工作站時,只看主機板有幾條 PCIe 插槽。但實際上,插得下不代表跑得好。
PCIe lanes 是否足夠
多張 GPU 需要足夠 PCIe 通道。一般消費級平台的 PCIe lanes 有限,插上第二張、第三張 GPU 後,可能會降速。
例如:
單卡:x16
雙卡:x8 / x8
三卡:x8 / x4 / x4
如果你只是跑簡單 layer split,影響可能還可以接受。
但如果你要做 tensor parallel 或訓練,PCIe 頻寬就會變得更重要。
想組多卡工作站,可以考慮:
Threadripper
Threadripper PRO
Xeon W
EPYC
伺服器平台
這些平台通常有更多 PCIe lanes,更適合多 GPU。
電源供應器瓦數與線材
多張高階顯卡會帶來非常高的功耗。
如果你組雙卡或四卡工作站,電源供應器可能需要:
1200W
1600W
甚至更高
除了瓦數,也要注意線材品質與接頭安全,特別是高階 RTX 顯卡常見的 12VHPWR / 12V-2x6 接頭。
不要用轉接線硬撐,也不要讓線材過度彎折。多 GPU 工作站的穩定性,電源非常重要。
散熱與機殼空間
多張高階顯卡插在一起,很容易互相吸熱。
一般三風扇開放式顯卡,在單卡環境很安靜,但多卡堆疊時可能會變成災難。因為上方顯卡會吸到下方顯卡的熱風,導致溫度上升、降頻、噪音增加。
多卡工作站可以考慮:
渦輪卡
伺服器機殼
高風量機殼
開放式機架
水冷方案
保持插槽間距
如果散熱做不好,多卡效能會被溫度限制住。
CPU 與 RAM 不能太弱
跑 LLM 時,CPU 不一定要最頂,但不能太弱。
CPU 會影響:
資料前處理
模型載入
PCIe lanes
多 GPU 配置
RAG 檢索
向量資料庫
多任務服務
系統 RAM 也很重要。建議:
入門:至少 32GB
本地 LLM 工作站:64GB 起跳
多 GPU / 微調 / RAG:128GB 以上更穩
如果你會用 Offload,系統 RAM 更不能太少。
儲存速度也會影響工作流
LLM 模型檔案非常大,資料集、向量資料庫、checkpoint、微調輸出也都會佔空間。
建議至少使用 NVMe SSD,並預留足夠容量。
常見配置可以是:
系統碟:1TB NVMe
模型碟:2TB~4TB NVMe
資料碟:依資料集大小擴充
備份碟:HDD 或 NAS
模型載入速度、資料處理速度、checkpoint 儲存速度,都會影響整體工作流。
常見迷思整理
迷思一:兩張 24GB 顯卡一定等於 48GB?
不一定。
只有在模型切分、張量並行、流水線並行、Layer Split 等軟體支援下,你才能讓大型模型分散到兩張 GPU 上。
正確說法是:
兩張 24GB 可以透過模型切分跑更大的模型,但不是自動變成一張 48GB 顯卡。
迷思二:多卡一定比單卡快?
不一定。
如果模型很小,單張高階 GPU 可能更快、更穩、更容易設定。
多卡只有在模型夠大、框架支援良好、切分合理、通訊成本可控時,才會展現價值。
迷思三:TOPS 越高,LLM 一定越快?
不一定。
LLM 表現不只看 TOPS,還要看:
VRAM
記憶體頻寬
量化格式
上下文長度
batch size
框架最佳化
GPU 架構
TOPS 可以參考,但不能單獨決定 LLM 效能。
迷思四:Offload 可以無痛解決顯存不足?
不行。
Offload 可以讓模型跑起來,但速度通常會下降。
如果你把太多資料丟到 CPU RAM 或 SSD,token 生成速度可能會變得很慢。
Offload 適合救急,不適合追求高效能。
迷思五:買 H100 / H200 就一定最適合?
不一定。
H100、H200 很強,但它們是資料中心級硬體。
對企業訓練、大型推論服務、高吞吐 API 來說很適合。
但對個人使用者來說,成本、電力、散熱、平台與維護門檻都太高。
如果只是本地跑 LLM,一張大 VRAM RTX 或 RTX PRO 工作站通常更實際。
多張顯示卡跑 LLM 時,顯存不是自動合併,而是靠軟體把模型、資料或訓練狀態分散到不同 GPU。
你可以這樣記:
多 GPU 跑 LLM,不是把顯存合併,而是把模型拆開放。
如果你的需求是本地推論,優先選擇單張大 VRAM 顯卡通常最簡單。
如果你的需求是大型模型微調、研究、API 服務或高吞吐部署,多 GPU 才能真正發揮價值。
如果你的顯存不夠,可以使用 Layer Split、Tensor Parallel、Pipeline Parallel 或 Offload,但每一種方法都有代價。
選購硬體時,不要只看 TOPS,也不要只看遊戲跑分。你應該先看:
VRAM 容量
記憶體頻寬
模型大小
量化格式
Context Length
PCIe / NVLink
CPU PCIe lanes
系統 RAM
電源與散熱
推論框架支援
對個人使用者來說,最實際的方向是:
7B / 14B:16GB VRAM 入門
32B:24GB VRAM 比較舒服
70B Q4:雙 24GB 或更高 VRAM
100B+:多 GPU 或專業工作站
最後,請不要把多 GPU 想成單純堆硬體。真正能讓多張顯卡發揮價值的,是模型切分策略、軟體框架、互連頻寬與整體平台設計。
顯卡越多,不代表一定越快。
但如果你理解多卡運作邏輯,選對框架、配好硬體、切好模型,多張 GPU 就能讓本地 LLM 從「勉強能跑」進化到「真正可用」。