- はじめに——「パラメータ効率革命」がローカルLLMの常識を変える
- Gemma 4とは——Gemini 3の技術をオープンモデルに
- Gemma 4のモデル構成——4つのモデルと使い分け
- ベンチマーク——「31Bが400B級を超える」の根拠
- ライセンス——Apache 2.0への画期的な変更
- アーキテクチャの特徴——なぜ小さいのに強いのか
- 【実践①】Ollamaでの導入——最速セットアップ
- 【実践②】llama.cppでの導入——より細かい制御が必要な場合
- 【実践③】vLLMでの導入——本番サービング向け
- 【実践④】エッジ展開——スマホ・Raspberry Piで動かす
- VRAM要件の詳細——量子化レベル別の一覧
- 主要機能の詳細
- 競合モデルとの比較——2026年4月時点の全体像
- 導入時の注意点とトラブルシューティング
- よくある質問(Q&A)
- まとめ——「ローカルLLMの民主化」が次のフェーズへ
- 参考リンク
はじめに——「パラメータ効率革命」がローカルLLMの常識を変える
「ローカルLLMを使いたいけど、高性能モデルはVRAMが足りなくて動かせない」——こんな悩みを抱えていませんか?
2026年4月2日、Googleが発表したGemma 4は、この常識を覆すモデルファミリーです。31Bパラメータのモデルが、400B級の競合モデルを上回るベンチマークスコアを叩き出す「パラメータ効率革命」。しかもライセンスはApache 2.0——商用利用完全自由、MAU制限なし、改変・再配布も制限なしです。
前世代のGemma 3では独自ライセンスにより商用利用に制約がありましたが、Gemma 4ではこの障壁が完全に撤廃されました。これは、MetaのLlama 4(カスタムライセンスでMAU制限あり)と比較しても、オープンモデルの中で最も自由度の高いライセンス体系です。
この記事では、Gemma 4の4モデル構成の使い分けから、ベンチマーク比較、Ollama・llama.cpp・vLLMでの具体的なセットアップ方法、さらにはスマートフォンやRaspberry Piでのエッジ展開まで、実践的な導入ガイドとして網羅的に解説します。
関連記事:ローカルLLMモデル選定ガイド——Llama 4・Gemma 3・Qwen 3・Phi-4の比較(本記事はこのガイドの最新モデル追補です)
Gemma 4とは——Gemini 3の技術をオープンモデルに
Gemma 4は、Googleの最上位プロプライエタリモデル「Gemini 3」と同じ研究基盤から構築されたオープンウェイトモデルファミリーです。Google DeepMindが開発し、2026年4月2日にリリースされました。
Gemmaシリーズの位置づけ:
Gemmaは「開発者が自分のハードウェアで実行できるモデル」というコンセプトで設計されています。クラウドのGemini APIと組み合わせることで、プライバシーを守りつつクラウドの処理能力も活用するハイブリッドAIアーキテクチャが構築できます。
これまでのGemmaシリーズ:
- Gemma 1(2024年2月):初代。2B / 7Bの2サイズ
- Gemma 2(2024年6月):2B / 9B / 27Bの3サイズ
- Gemma 3(2025年3月):1B / 4B / 12B / 27Bの4サイズ。マルチモーダル対応
- Gemma 4(2026年4月):E2B / E4B / 26B MoE / 31B Denseの4構成。Apache 2.0ライセンスへ移行
累計ダウンロード数は4億回を超え、コミュニティが構築したバリアント(ファインチューニング済みモデル)は10万種類以上。Googleはこのエコシステムを「Gemmaverse(ジェマバース)」と呼んでいます。
Gemma 4のモデル構成——4つのモデルと使い分け
Gemma 4は用途に応じた4つのモデルで構成されています。それぞれのスペックと推奨ユースケースを整理します。
| モデル名 | パラメータ数 | アクティブパラメータ | アーキテクチャ | コンテキスト長 | 対応モダリティ | 推奨用途 |
|---|---|---|---|---|---|---|
| E2B | 約5.1B(実効2.3B) | 2.3B | Dense + PLE | 128K | テキスト・画像・音声 | スマートフォン、Raspberry Pi、IoTデバイス |
| E4B | 約9.6B(実効4.5B) | 4.5B | Dense + PLE | 128K | テキスト・画像・音声 | ノートPC、タブレット、エッジサーバー |
| 26B MoE(A4B) | 26B | 約3.8B | Mixture of Experts | 256K | テキスト・画像 | コンシューマーGPU、ワークステーション |
| 31B Dense | 31B | 31B | Dense | 256K | テキスト・画像 | ハイエンドGPU、クラウド/TPU |
「E」とは何か?——Per-Layer Embeddings(PLE)の仕組み
E2B・E4Bの「E」はEffective(実効)パラメータを意味します。総パラメータ数には大規模な埋め込みテーブル(ルックアップ用)が含まれますが、推論時の実質的な計算負荷は実効パラメータ数に依存します。PLEという技術により、二次的な埋め込み信号をデコーダーの各層に送り込むことで、少ないパラメータで高い精度を実現しています。
26B MoE——「3.8Bのコストで26Bの知識」を使う
26B MoEモデルは、128個の小さなエキスパート(専門家ネットワーク)のうち、各トークンの処理時に8個+1個の共有エキスパートだけを活性化します。つまり、推論時の計算コストは約3.8Bモデル相当でありながら、26B分の知識容量を活用できます。
これは「VRAMには26B分を載せる必要があるが、推論速度は4Bクラス」という特性を持ちます。4bit量子化(Q4_K_M)で約14〜18GBのVRAMに収まるため、RTX 4090(24GB)はもちろん、16GB VRAMのGPUでも実行可能です。
どのモデルを選ぶべきか?——ハードウェア別の推奨
| あなたの環境 | 推奨モデル | 理由 |
|---|---|---|
| スマートフォン / Raspberry Pi | E2B | 4GB RAMで動作。オフライン対応 |
| ノートPC(8〜16GB RAM) | E4B | 汎用性が高く、Ollamaのデフォルト選択 |
| コンシューマーGPU(16GB VRAM) | 26B MoE | 品質とVRAM効率の最適バランス |
| ハイエンドGPU(24GB+ VRAM) | 31B Dense | 最高品質。RTX 4090で動作可能 |
| Mac(Apple Silicon 16GB+) | 26B MoE | ユニファイドメモリがVRAMとして使える |
| Mac(Apple Silicon 32GB+) | 31B Dense | Q4_K_Mで余裕を持って動作 |
ベンチマーク——「31Bが400B級を超える」の根拠
Gemma 4の最大の衝撃は、31Bという比較的小さなモデルが、はるかに大きなモデルを凌駕するベンチマークスコアを記録したことです。
主要ベンチマーク比較(31B Dense、ツールなし)
| ベンチマーク | Gemma 4 31B | Llama 4 | DeepSeek V4 | 評価内容 |
|---|---|---|---|---|
| AIME 2026(数学) | 89.2% | 88.3% | 42.5% | 高度な数学問題の解法 |
| LiveCodeBench v6(コーディング) | 80.0% | 77.1% | 52.0% | 実践的なコード生成 |
| GPQA Diamond(科学) | 84.3% | 82.3% | 58.6% | 専門的な科学推論 |
| τ2-bench(エージェント) | 86.4% | 85.5% | 57.5% | 自律的タスク実行能力 |
Gemma 3 27Bからの進化幅
特にインパクトが大きいのは、前世代Gemma 3 27Bからの改善幅です。
| ベンチマーク | Gemma 3 27B | Gemma 4 31B | 改善率 |
|---|---|---|---|
| AIME 2026(数学) | 20.8% | 89.2% | +328% |
| LiveCodeBench v6 | 29.1% | 80.0% | +175% |
| GPQA Diamond | 42.4% | 84.3% | +99% |
| BigBench Extra Hard | 19.3% | 74.4% | +285% |
わずか1世代で数学スコアが20.8%から89.2%に跳ね上がるという、通常ではありえない改善幅です。これはGemini 3の研究成果がオープンモデルに直接反映された結果と考えられます。
Arena AIリーダーボード
業界標準のArena AI(旧LMSys Chatbot Arena)テキストリーダーボードでは、31B Denseがオープンモデル全体で第3位、26B MoEが第6位にランクインしています。いずれも20倍以上のパラメータを持つモデルを上回っています。
ライセンス——Apache 2.0への画期的な変更
Gemma 4のもう一つの大きなニュースは、ライセンスがApache 2.0に変更されたことです。これはオープンモデルの利用シーンを劇的に広げます。
| 項目 | Gemma 4(Apache 2.0) | Llama 4(カスタムライセンス) | Qwen 3.5(Apache 2.0) |
|---|---|---|---|
| 商用利用 | 完全自由 | 条件付き(MAU制限あり) | 完全自由 |
| MAU上限 | なし | 7億MAUで別途ライセンス必要 | なし |
| 改変・再配布 | 自由 | 条件付き | 自由 |
| 利用規約の強制 | なし | Acceptable Use Policy適用 | なし |
| ソブリンAI展開 | 制限なし | 制限あり | 制限なし |
Apache 2.0の実務上の意味:
- スタートアップ:ユーザー数の増加を気にせずプロダクトに組み込める
- 企業の社内利用:法務レビューが大幅に簡素化される
- 政府・自治体:ソブリンAI(自国管理のAI基盤)に制限なく導入可能
- 研究機関:論文発表や派生モデルの公開に制約なし
アーキテクチャの特徴——なぜ小さいのに強いのか
Gemma 4がパラメータ数以上の性能を発揮する背景には、いくつかの技術的革新があります。
ハイブリッドアテンション機構
デコーダーの各層で、ローカルスライディングウィンドウアテンション(512〜1024トークン)とグローバルフルコンテキストアテンションを交互に配置しています。これにより、短距離の処理効率と長距離の文脈理解を両立しています。最終層は常にグローバルアテンションが配置され、全体の文脈を確実に捉えます。
Dual RoPE
スライディングウィンドウ層には標準的なRotary Position Embedding(RoPE)を、グローバル層にはProportional RoPEを採用しています。この二重構成により、256Kトークンという長大なコンテキストウィンドウでも品質劣化を抑えています。
共有KVキャッシュ
最後のN層が以前の層のKey-Valueテンソルを再利用することで、推論時のメモリ使用量と計算量を削減しています。
ネイティブマルチモーダル
すべてのモデルが画像入力に対応。E2B・E4Bはさらに音声入力にも対応しており、USMスタイルのConformerエンコーダーにより最大30秒の音声を処理できます。26B・31Bは最大60秒の動画理解(1fps)にも対応しています。
【実践①】Ollamaでの導入——最速セットアップ
Ollamaは、ローカルLLMを最も簡単に実行できるツールです。2つのコマンドでGemma 4を動かせます。
前提条件
- Ollama v0.20.0以降(Gemma 4対応にはこのバージョンが必要)
- macOS / Windows / Linux対応
ステップ1:Ollamaのインストール
macOS:
# Homebrew経由
brew install ollama
# または公式サイト(ollama.com)からデスクトップアプリをダウンロード
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows:
ollama.comから公式インストーラーをダウンロードして実行します。サービスは自動で起動し、ポート11434でリッスンします。
ステップ2:Gemma 4モデルのダウンロードと実行
# デフォルト(E4B)をダウンロード&実行(約9.6GBのダウンロード)
ollama run gemma4
# 各モデルを指定して実行
ollama run gemma4:2b # E2B — 最軽量、スマホ・Raspberry Pi向け
ollama run gemma4:4b # E4B — 汎用。ほとんどの開発者の出発点
ollama run gemma4:26b # 26B MoE — 品質とVRAMのベストバランス
ollama run gemma4:31b # 31B Dense — 最高品質(20GB+ VRAM推奨)
Ollamaは自動で適切な量子化を選択し、GGUFのダウンロード、メモリ管理を行います。
ステップ3:量子化を手動で指定する場合
# 高品質(メモリ多め)
ollama run gemma4:26b-q8_0
# メモリ節約(やや品質低下)
ollama run gemma4:26b-q4_K_M
# バランス型
ollama run gemma4:26b-q5_K_M
推奨:31Bモデルの場合はQ4_K_Mがスイートスポットです。約18GBに収まり、品質を維持しつつRTX 4090(24GB)に余裕で載ります。
ステップ4:APIとして使う
OllamaはOpenAI互換のREST APIをポート11434で提供します。
# APIリクエストの例
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:26b",
"messages": [{"role": "user", "content": "Pythonでフィボナッチ数列を計算する関数を書いてください"}]
}'
これにより、Open WebUI、Continue、Cline、その他のOpenAI互換クライアントからGemma 4を利用できます。
思考モード(Thinking Mode)の活用
Gemma 4はシステムプロンプトに<|think|>トークンを追加することで、推論過程を表示する「思考モード」を有効化できます。数学やコーディングなど、複雑なタスクで精度が向上します。
【実践②】llama.cppでの導入——より細かい制御が必要な場合
Ollamaよりも細かいパラメータ制御が必要な場合は、llama.cppを直接使用します。
ビルド手順
# リポジトリのクローン
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
# NVIDIA GPU(CUDA)を使う場合
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# CPUのみ、またはApple Silicon(Metal自動検出)の場合
cmake -B build -DGGML_CUDA=OFF
cmake --build build --config Release
モデルの実行
# 26B MoE(Dynamic 4-bit量子化)
./build/bin/llama-cli \
--hf-repo unsloth/gemma-4-26B-A4B-it-GGUF \
--hf-file gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
-p "日本の四季について200字で説明してください"
# 31B Dense
./build/bin/llama-cli \
--hf-repo unsloth/gemma-4-31B-it-GGUF \
--hf-file gemma-4-31B-it-UD-Q4_K_XL.gguf \
-p "RESTful APIの設計原則を説明してください"
注意事項:CUDA 13.2ランタイムは出力品質の問題が報告されています。CUDA 12.x系を使用してください(2026年4月8日時点)。
【実践③】vLLMでの導入——本番サービング向け
複数ユーザーへのサービングや本番パイプラインに組み込む場合は、vLLMが最適です。バッチ処理、Paged Attention、Continuous Batchingを自動で処理します。
# Dockerで起動
docker run --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 8000:8000 \
vllm/vllm-openai:latest \
--model google/gemma-4-31b-it \
--max-model-len 8192
起動後、OpenAI互換のAPIがhttp://localhost:8000/v1で利用可能になります。
【実践④】エッジ展開——スマホ・Raspberry Piで動かす
Gemma 4のE2B・E4Bモデルは、エッジデバイスでのオフライン実行を前提に設計されています。
Androidでの利用
GoogleはGemma 4をAndroid開発の中心に位置づけています。
- AICore Developer Preview:Android端末上でGemma 4(E2B / E4B)を直接実行可能。Gemini Nano 4の次世代基盤モデルとして、開発者が今日書いたコードが将来のGemini Nano 4搭載端末でそのまま動作
- ML Kit GenAI Prompt API:端末ハードウェア上でGemma 4を直接実行するアプリを構築可能
- 性能向上:前世代比で最大4倍高速化、バッテリー消費60%削減
Raspberry Pi / NVIDIA Jetson Orin Nano
E2Bモデルは4GBのRAMで動作するため、Raspberry Pi 5やNVIDIA Jetson Orin Nanoでも実行可能です。Google Pixel、Qualcomm、MediaTek、ARM、NVIDIAとの協業で、各ハードウェアに最適化されたデプロイが可能です。
エッジ展開のユースケース
- オフライン対応アプリ:ネットワーク接続なしでAI機能を提供し、接続時にクラウドと同期
- プライバシー重視の環境:医療記録、法律文書、財務データなど、端末外に出せないデータの処理
- 低遅延リアルタイム処理:ゲーム内AI、リアルタイムキャプション、産業品質検査
- コスト最適化:月間数百万リクエスト規模で、クラウドAPI費用が膨大になるケース
VRAM要件の詳細——量子化レベル別の一覧
実際にGemma 4を動かすにあたり、最も重要なのはメモリ要件です。量子化レベル別に整理します。
| モデル | 4bit(Q4_K_M) | 8bit | 16bit(フル精度) | 推奨GPU例 |
|---|---|---|---|---|
| E2B | 約4GB | 約5GB | 約15GB | 統合メモリ8GB以上 |
| E4B | 約3〜6GB | 約6GB | 約15GB | 統合メモリ8GB以上 |
| 26B MoE | 約14〜18GB | 約28GB | 約52GB | RTX 4090(24GB)/ Mac 16GB+ |
| 31B Dense | 約18〜20GB | 約34GB | 約62GB | RTX 4090(24GB)/ Mac 32GB+ |
ポイント:
- Apple Silicon MacではユニファイドメモリがVRAMとして使えるため、16GB MacBook Airでも26B MoE(Q4_K_M)が動作可能
- コンテキストウィンドウのサイズが大きくなるほど、KVキャッシュのメモリ消費が増加するため、16GBハードウェアでは入力を32Kトークン以内に抑えることを推奨
- 量子化の推奨は、小型モデル(E2B/E4B)は8bit、大型モデル(26B/31B)はDynamic 4-bit
主要機能の詳細
マルチモーダル入力
Gemma 4の全モデルが画像入力に対応しています。可変アスペクト比・可変解像度に対応しており、トークンバジェットを70〜1,120の範囲で設定することで、画質と処理速度のトレードオフを制御できます。
- 画像理解:OCR(多言語対応)、手書き文字認識、チャート・グラフの理解、PDF/ドキュメント解析、UI要素の検出
- 動画理解:26B・31Bで最大60秒(1fps)の動画を処理
- 音声入力:E2B・E4Bで音声認識・翻訳に対応(最大30秒)
エージェント機能
Gemma 4は「エージェンティックAI」としての利用を強く意識した設計になっています。
- ネイティブFunction Calling:外部APIやツールとの連携を組み込みでサポート
- 構造化JSON出力:APIレスポンスとして使いやすい構造化データを出力
- マルチステッププランニング:複数のステップにまたがるタスクの計画と実行
- UIバウンディングボックス検出:ブラウザ自動化やスクリーンパーシングに活用可能
多言語対応
140以上の言語をサポートし、文化的なコンテキストも理解します。日本語を含むアジア言語での精度も向上しています。
競合モデルとの比較——2026年4月時点の全体像
2026年4月現在、オープンモデル市場は激戦状態です。Gemma 4の立ち位置を主要な競合と比較します。
| モデル | 開発元 | パラメータ数 | ライセンス | AIME 2026 | コンテキスト長 | 強み |
|---|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 89.2% | 256K | パラメータ効率、Apache 2.0 | |
| Llama 4 | Meta | 非公開 | カスタム | 88.3% | 非公開 | エコシステムの広さ |
| DeepSeek V4 | DeepSeek | 非公開 | オープン | 42.5% | 非公開 | コスト効率 |
| Qwen 3.5 | Alibaba | 各種 | Apache 2.0 | — | 各種 | 多言語、長コンテキスト |
| Mistral | Mistral AI | 各種 | 各種 | — | 各種 | ヨーロッパのAI主権 |
2026年のDatabricksの調査によると、企業の75%以上が本番環境で2つ以上のLLMファミリーを併用しています。コスト、性能、データプライバシーの要件に応じてオープンモデルとクローズドモデルを組み合わせる「マルチモデル戦略」が主流になっています。
導入時の注意点とトラブルシューティング
リリース直後のモデルには既知の問題があります。スムーズな導入のために把握しておきましょう(2026年4月12日時点)。
Ollamaの既知の問題
- ツールコール(Function Calling)のバグ:Ollama v0.20.1以前ではGemma 4のツールコール応答にバグがあります。v0.20.2で修正済み
- デフォルトコンテキストウィンドウ:Ollamaのデフォルトは4096トークン。大きなプロジェクトで使う場合は
--num-ctxで拡張が必要 - モデルのアンロード:デフォルトでは5分間のアイドルでモデルがアンロードされます。
OLLAMA_KEEP_ALIVE=-1を設定すると常時ロード状態を維持
Apple Siliconユーザー
- Ollama v0.19以降でMLXフレームワークが自動で有効化され、高速推論が可能
- ブラウザのタブを多数開いているとメモリを圧迫するため、推論時は不要なアプリを閉じることを推奨
- 16GBマシンで26B MoEを動かす場合、長いプロンプト(32K超)では品質低下の可能性あり
CUDA環境
- CUDA 13.2ランタイムでは出力品質に問題が報告されています。CUDA 12.x系の使用を推奨
- llama.cppのビルド時に
-DGGML_CUDA=ONを指定してGPUアクセラレーションを有効化
よくある質問(Q&A)
Q1. Gemma 4はGemma 3の完全な上位互換ですか?
ベンチマーク上はほぼすべての指標でGemma 4が上回ります。ただし、Gemma 3のファインチューニング済みモデル(MedGemma等)のGemma 4版はまだリリースされていないため、特定の専門タスクでは引き続きGemma 3系のバリアントが有用です。
Q2. 26B MoEと31B Denseのどちらを選ぶべきですか?
26B MoEは31B Denseの約97%の品質を、はるかに少ない計算コスト(3.8Bクラスの推論速度)で達成します。VRAMが24GB未満の場合は26B MoE一択です。24GB以上あり、最高品質を求める場合は31B Denseを選択してください。
Q3. 商用利用に制限はありますか?
Apache 2.0ライセンスのため、商用利用に一切の制限がありません。MAU上限、利用規約の強制、再配布制限もなし。法務レビューの手間も大幅に軽減されます。
Q4. ファインチューニングは可能ですか?
可能です。Hugging Face Transformersが公式にMoE互換のファインチューニングをサポートしています。LoRA(Low-Rank Adaptation)を使えば、メモリ消費を抑えつつ特定タスクに最適化できます。ただし、MoEモデルのファインチューニングはDenseモデルより複雑で、ロードバランシングの補助損失関数に注意が必要です。
Q5. E2B/E4Bで画像や音声を処理できますか?
はい。E2B・E4Bはネイティブでテキスト・画像・音声のマルチモーダル入力に対応しています。26B・31Bは現時点ではテキストと画像のみです。ローカルのビジョン機能が必要な場合は、E4Bが最もバランスの取れた選択肢です。
Q6. 日本語の精度はどうですか?
140以上の言語をサポートしており、日本語も含まれています。前世代のGemma 3から多言語性能は向上していますが、英語と比較すると日本語での精度は若干下がる傾向があります。日本語特化のタスクでは、実際にテストして精度を確認することを推奨します。
まとめ——「ローカルLLMの民主化」が次のフェーズへ
Gemma 4は、ローカルLLMの世界に3つの大きな変化をもたらしました。
1. パラメータ効率革命:31Bのモデルが400B級を超える。モデルの大きさ=性能の時代は終わりつつあります。アーキテクチャの革新とトレーニング効率の向上が、コンパクトなモデルでフロンティア級の性能を実現しました。
2. Apache 2.0への移行:商用利用、改変、再配布が完全自由。これにより「ライセンスが不安で導入できない」という企業のハードルが消えます。
3. エッジからクラウドまでのスケーラビリティ:Raspberry Pi上の2Bモデルから、クラウドTPU上の31Bモデルまで、同じアーキテクチャファミリーでカバーできる。開発者は一つのエコシステムの中でスケールアップ/ダウンが可能です。
ローカルLLMの導入を検討中の方は、まずollama run gemma4:26bを試してみてください。14GBのVRAMで、18ヶ月前にはフロンティア級だった性能を、APIキーなし、ライセンス制限なし、データ送信なしで利用できます。
参考リンク
- Google公式ブログ「Gemma 4: Byte for byte, the most capable open models」
- Google DeepMind — Gemma 4
- Google AI for Developers — Gemma 4 model overview
- Ollama — Gemma 4 モデルページ
- Hugging Face — gemma-4-31B-it
免責事項:本記事は2026年4月12日時点の公開情報に基づく技術情報です。ベンチマークスコア、VRAM要件、ツールの互換性は、モデルやツールのアップデートにより変更される可能性があります。最新情報は各公式ソースで確認してください。

コメント