Gemma 4 與 DeepSeek 正面交鋒：Gemma 4 的介紹與所有安裝方法大公開

2026-04-04 By 天上雲 0

⚔️ Gemma 4 的介紹與安裝指南

🚀 不用買課了，超簡單的步驟，讓小白也能立刻上手！

Google 正式推出了新一代開放模型 Gemma 4，號稱是「史上最強」的開放 AI 模型、完全免費，以 Apache 2.0 授權發布，直接對標 Meta 的 Llama 和阿里巴巴的 Qwen，以及和 DeepSeek 競爭，全力搶攻開源 AI 市場。以下是懶人包整理：

🚀 Gemma 4 亮點速覽

全方位戰線覆蓋：一口氣推出四種尺寸，從手機端側到資料中心一網打盡：
- 邊緣端：Effective 2B (E2B) 和 Effective 4B (E4B)，專為手機、樹莓派等低功耗設備設計。
- 工作站：26B 混合專家模型 (MoE) 和 31B 密集模型 (Dense)，針對本地開發、IDE 輔助和代理工作流設計。
性能強悍且輕巧：不再單純依賴參數規模，主打高效率的「每參數智能」。
- 支援原生多模態：全線支援圖像與影片處理，E2B/E4B 更獨家支援原生語音輸入（最長 30 秒），無需外掛語音識別模型。
- 超長上下文：邊緣模型支援 128K，大模型最高支援 256K，足以一次性分析整個程式碼庫。
- 語言覆蓋廣：原生支援超過 140 種語言。
- 原生強化：針對 JSON 輸出和函數呼叫進行最佳化，方便開發 AI 代理。
商業友好授權：採用 Apache 2.0 開源許可證，開發者可自由用於商業產品，消除了先前版本在商用授權上的不確定性。
硬體要求友善：31B 密集模型的未量化版本可在單張 80GB NVIDIA H100 上運行，量化版本則可部署於消費級 GPU。邊緣模型可完全離線運行，延遲接近即時。

🥊 性能對比：Gemma 4 vs Llama vs Qwen

Gemma 4 以「小參數」撬動「大性能」，其 31B 模型以 307 億參數在 Arena AI 文本排行榜上拿下開源模型全球第三，26B MoE 模型則位居第六。在特定任務上，Gemma 4 甚至超越了參數規模達 20 倍的競爭對手，展現出色的單位參數效率。

以下是 Gemma 4 在關鍵評測中的具體表現：

評測項目	Gemma 4 (31B)	Gemma 3 (27B)	備註 / 競爭對比
數學推理 (AIME 2026)	89.2%	21.2%	較前代大幅提升，展現理科能力的巨大飛躍。
程式碼生成 (LiveCodeBench v6)	80%	29.1%	程式能力堪稱代際斷層。Codeforces Elo 達 2150 分，相當於「紫名」選手。
智能體 (t2-bench)	86.4%	6.6%	差距巨大，證明其原生支援代理工作流程的設計目標。
科學推理 (GPQA Diamond)	85.7%	—	在此高難度推理測試中，僅次於 Qwen3.5 27B 的 85.8%。
多模態推理 (MMMU Pro)	76.9%	49.7%	多模態能力顯著領先前代，與 Qwen 等競爭。
長上下文 (MRCR v2 8-needle 128K)	66.4%	13.5%	在長文本資訊檢索與理解上表現優異，為文件分析等場景提供保障。

在端側市場，Gemma 4 的 E2B 和 E4B 模型在上下文長度、原生語音處理和推理能力上，相較於 Llama 4 和 Qwen 3.5 的對應產品，被認為具有競爭優勢。

💡 以下內容涵蓋在 Windows 及 Mac 上透過 LM Studio、Jan、GPT4All 等圖形化工具使用 Gemma 4 的安裝指南與工具比較。

硬體速查
在開始前，您需要根據硬體能力選擇合適版本的 Gemma 4 模型。下表提供參考，可以幫您避開「模型載入後電腦卡死」的常見問題：

模型版本	推薦硬體配置	適用場景
Gemma 4 E2B / E4B	無需獨立顯示卡，記憶體建議 8GB 以上	輕量級文字生成、摘要，配置要求低
Gemma 4 26B MoE	建議 12GB 顯示卡記憶體的獨立顯示卡	高品質文字生成、程式碼撰寫、邏輯推理任務
Gemma 4 31B Dense	需要 24GB 或更高顯示卡記憶體的旗艦顯示卡	追求頂尖效能，能處理複雜的長篇文件分析

🛠️ 主流 GUI 工具比較

先透過一個表格，直觀地對比幾款主流工具的側重點：

特性	LM Studio	Jan	GPT4All
主要優勢	極佳的使用者體驗與模型管理，提供內建模型搜尋、下載和效能比較	開源、完全的私隱保護，原生相容 OpenAI API	輕量級、啟動快速，甚至在 CPU 上也能流暢執行
適用族群	追求最佳 GUI 體驗、需要靈活調整模型參數的使用者	注重資料私隱、開源理念的開發者，需要本地 API 服務的使用者	硬體配置有限、希望極簡安裝、快速使用的普通使用者

🛠️ 安裝方法 (只需選其一)

方案一：LM Studio – 圖形界面首選

主要特點

圖形化搜尋與下載：內建模型瀏覽器，可以搜尋「Gemma」，LM Studio 會智慧推薦適合您硬體的版本。
友善的聊天界面：提供類似 ChatGPT 的界面，方便調整溫度、上下文長度等推理參數。
本地 API 伺服器：一鍵啟動，相容 OpenAI API，方便開發者整合。

安裝步驟

下載安裝：前往 LM Studio 官網，下載對應您系統的版本（Windows 為 .exe，macOS 為 .dmg）並安裝。
搜尋 Gemma 4：開啟 LM Studio，使用快速鍵 Cmd + Shift + M（Mac）或 Ctrl + Shift + M（Win）開啟模型搜尋視窗，輸入「Gemma 4」進行搜尋。
選擇並下載模型：根據您的硬體，選擇合適尺寸的模型（例如 gemma-4-e4b-instruct），點擊「Download」按鈕下載。
開始聊天：下載完成後，在聊天界面選擇該模型，等待載入完畢即可開始對話。

方案二：Jan – 開源與私隱首選

主要特點

100% 本地執行：所有資料都在您的電腦上處理，確保資料私隱安全。
一鍵安裝：界面簡潔直觀，無需命令列操作。
OpenAI 相容 API：內建 API 伺服器，可作為 OpenAI API 的本地替代方案。

安裝步驟

下載安裝：前往 Jan 官網下載安裝檔案。Windows 使用者執行 .exe，macOS 使用者安裝 .dmg 檔案。
下載模型：開啟 Jan，點擊左側的「Hub」圖示，在搜尋框中輸入「Gemma 4」，找到並點擊「Download」下載模型。
開始對話：下載完成後，回到聊天界面，從頂部的模型下拉選單中選擇剛剛下載的 Gemma 4 模型，即可開始聊天。

方案三：GPT4All – 輕量與易用首選

主要特點

CPU 友善：即使沒有獨立顯示卡也能流暢執行，適合普通電腦或筆記型電腦。
極簡設計：界面直觀，專注於聊天體驗，非常適合初學者。
內建 RAG 功能：支援載入本地文件，進行檢索增強生成（RAG），實現本地知識庫問答。

安裝步驟

下載安裝：前往 GPT4All 官網下載安裝程式，Windows 使用者執行 .exe，macOS 使用者安裝 .dmg 檔案。
選擇 Gemma 4：開啟 GPT4All，在「模型下載中心」找到並下載 Gemma 4 模型。
開始使用：模型下載並載入後，即可直接在聊天視窗中與模型進行互動。

如果您希望在 Gemma 4 的 GUI 軟體基礎上，進一步實現程式化呼叫（例如我們提到的 RESTful API 功能），可以考慮以下兩種方式：

Jan / LM Studio 的 API 伺服器：兩者都內建了 API 伺服器。您可以在軟體設定中啟用它，之後便可以用 curl 或 OpenAI SDK 進行本地呼叫。
結合 Ollama：先用 Ollama 下載 Gemma 4 模型，然後透過 Open WebUI 等專案，獲得一個功能豐富的網頁版 GUI。

方案四：使用 Ollama 本地安裝與部署 Gemma 4

1. 安裝 Ollama

下載安裝：前往 Ollama 官網，下載適用於 Windows、macOS 或 Linux 的安裝包並完成安裝。
檢查版本：打開終端機，輸入 ollama --version 確認安裝成功並確保是最新版。

2. 拉取 Gemma 4 模型

根據你的硬體選擇對應模型，在終端機執行拉取指令：

E4B 模型 (適合筆記型電腦或入門顯卡)：ollama pull gemma4:e4b
E2B 模型 (適合輕量級設備)：ollama pull gemma4:e2b
26B MoE 或 31B Dense 模型 (適合高效能工作站)：bashollama pull gemma4:26b-instruct-q4_K_M ollama pull gemma4:31b-instruct-q4_K_M

注意：請確認你的磁碟空間足夠。例如，E4B 模型的檔案大小約為 9.6 GB。

3. 測試運行

拉取完成後，即可用以下指令與模型對話：

在作業系統命令列模式下輸入以下命令:

ollama run gemma4:e4b

輸入你的問題，看到模型正常回覆，即表示本地推理環境已成功建立。

🔌 透過 REST API 使用 Gemma 4

當模型透過 Ollama 成功運行後，它會在背景啟動一個 REST API 伺服器，預設監聽在 http://localhost:11434。你可以透過 HTTP 請求與模型互動，非常適合整合到自己的應用程式中。

1. 啟動 API 伺服器

Ollama 通常會自動啟動 API，若無，可手動執行：

在作業系統命令列模式下輸入以下命令:

ollama serve

你會看到伺服器啟動的日誌，顯示 API 端點已就緒。

2. 文字生成 (Text-to-Text)

透過 /api/generate 端點，你可以發送提示詞讓模型生成回應。以下是用 curl 的範例，呼叫你已安裝的 Gemma 4 模型進行文字生成：

在作業系統命令列模式下輸入以下命令:

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "prompt": "請用繁體中文解釋什麼是混合專家模型 (MoE)。",
    "stream": false
  }'

model：指定要使用的模型名稱。
prompt：你的輸入提示詞。
stream: false：設定為 false 會在模型生成完畢後，一次性回傳完整回應；若設為 true 則會以串流方式逐字回傳。

文字生成回應範例：API 會回傳一個 JSON 物件，其中 "response" 欄位即為模型生成的文字內容，同時也會附帶執行時間、Token 數量等資訊。

3. 開啟多模態能力 (處理圖片/影片)

Gemma 4 原生支援多模態輸入，你可以將圖片或影片以 Base64 編碼或提供 URL 的方式傳入，讓模型進行描述、分析或 OCR 識別。

⚠️ 注意事項：

影片生成限制：Gemma 4 本身是一個大型語言模型，其多模態能力目前主要用於理解和分析圖片、影片中的內容（例如看圖說故事、圖表分析），而不是直接生成影片。要生成影片，需搭配 Google 的 Veo 3.1 等其他專用模型。
編碼處理：將圖片轉為 Base64 字串時，務必移除開頭的 Meta 資訊（如 data:image/png;base64,），否則模型可能無法正確讀取。

4. 範例：使用 Base64 編碼的圖片進行分析

假設你有一張名為 chart.png 的圖表，希望模型解讀其內容。步驟如下：

將圖片編碼為 Base64：
在 Linux/macOS 上，輸入：
base64 -i chart.png -o chart_base64.txt
在 Windows (PowerShell) 上，輸入：
[Convert]::ToBase64String([IO.File]::ReadAllBytes(“chart.png”)) > chart_base64.txt

構建 API 請求：
curl http://localhost:11434/api/generate \ -H “Content-Type: application/json” \ -d ‘{ “model”: “gemma4:e4b”, “prompt”: “請分析這張圖表的內容，並說明其趨勢。”, “images”: [“這裡貼上 chart_base64.txt 檔案中的 Base64 編碼字串”], “stream”: false }’

Gemma 4 的推出，標誌著開源 AI 的競爭已從「規模競賽」轉向「效率與場景深度」的比拼。對於開發者而言，這意味著能夠以更低的成本，在本地端部署和體驗到頂尖的 AI 能力。

趕快試試看吧！