Google Gemma 4 実践導入ガイド【2026年版】——Apache 2.0で商用完全自由、31Bが400B級を超える「パラメータ効率革命」をOllamaでローカル実行する方法

はじめに——「パラメータ効率革命」がローカルLLMの常識を変える
Gemma 4とは——Gemini 3の技術をオープンモデルに
Gemma 4のモデル構成——4つのモデルと使い分け
ベンチマーク——「31Bが400B級を超える」の根拠
ライセンス——Apache 2.0への画期的な変更
アーキテクチャの特徴——なぜ小さいのに強いのか
【実践①】Ollamaでの導入——最速セットアップ
【実践②】llama.cppでの導入——より細かい制御が必要な場合
1. ビルド手順
2. モデルの実行
【実践③】vLLMでの導入——本番サービング向け
【実践④】エッジ展開——スマホ・Raspberry Piで動かす
VRAM要件の詳細——量子化レベル別の一覧
主要機能の詳細
競合モデルとの比較——2026年4月時点の全体像
導入時の注意点とトラブルシューティング
よくある質問（Q&A）
まとめ——「ローカルLLMの民主化」が次のフェーズへ
参考リンク

はじめに——「パラメータ効率革命」がローカルLLMの常識を変える

「ローカルLLMを使いたいけど、高性能モデルはVRAMが足りなくて動かせない」——こんな悩みを抱えていませんか？

2026年4月2日、Googleが発表したGemma 4は、この常識を覆すモデルファミリーです。31Bパラメータのモデルが、400B級の競合モデルを上回るベンチマークスコアを叩き出す「パラメータ効率革命」。しかもライセンスはApache 2.0——商用利用完全自由、MAU制限なし、改変・再配布も制限なしです。

前世代のGemma 3では独自ライセンスにより商用利用に制約がありましたが、Gemma 4ではこの障壁が完全に撤廃されました。これは、MetaのLlama 4（カスタムライセンスでMAU制限あり）と比較しても、オープンモデルの中で最も自由度の高いライセンス体系です。

この記事では、Gemma 4の4モデル構成の使い分けから、ベンチマーク比較、Ollama・llama.cpp・vLLMでの具体的なセットアップ方法、さらにはスマートフォンやRaspberry Piでのエッジ展開まで、実践的な導入ガイドとして網羅的に解説します。

関連記事：ローカルLLMモデル選定ガイド——Llama 4・Gemma 3・Qwen 3・Phi-4の比較（本記事はこのガイドの最新モデル追補です）

Gemma 4とは——Gemini 3の技術をオープンモデルに

Gemma 4は、Googleの最上位プロプライエタリモデル「Gemini 3」と同じ研究基盤から構築されたオープンウェイトモデルファミリーです。Google DeepMindが開発し、2026年4月2日にリリースされました。

Gemmaシリーズの位置づけ：

Gemmaは「開発者が自分のハードウェアで実行できるモデル」というコンセプトで設計されています。クラウドのGemini APIと組み合わせることで、プライバシーを守りつつクラウドの処理能力も活用するハイブリッドAIアーキテクチャが構築できます。

これまでのGemmaシリーズ：

Gemma 1（2024年2月）：初代。2B / 7Bの2サイズ
Gemma 2（2024年6月）：2B / 9B / 27Bの3サイズ
Gemma 3（2025年3月）：1B / 4B / 12B / 27Bの4サイズ。マルチモーダル対応
Gemma 4（2026年4月）：E2B / E4B / 26B MoE / 31B Denseの4構成。Apache 2.0ライセンスへ移行

累計ダウンロード数は4億回を超え、コミュニティが構築したバリアント（ファインチューニング済みモデル）は10万種類以上。Googleはこのエコシステムを「Gemmaverse（ジェマバース）」と呼んでいます。

Gemma 4のモデル構成——4つのモデルと使い分け

Gemma 4は用途に応じた4つのモデルで構成されています。それぞれのスペックと推奨ユースケースを整理します。

モデル名	パラメータ数	アクティブパラメータ	アーキテクチャ	コンテキスト長	対応モダリティ	推奨用途
E2B	約5.1B（実効2.3B）	2.3B	Dense + PLE	128K	テキスト・画像・音声	スマートフォン、Raspberry Pi、IoTデバイス
E4B	約9.6B（実効4.5B）	4.5B	Dense + PLE	128K	テキスト・画像・音声	ノートPC、タブレット、エッジサーバー
26B MoE（A4B）	26B	約3.8B	Mixture of Experts	256K	テキスト・画像	コンシューマーGPU、ワークステーション
31B Dense	31B	31B	Dense	256K	テキスト・画像	ハイエンドGPU、クラウド/TPU

「E」とは何か？——Per-Layer Embeddings（PLE）の仕組み

E2B・E4Bの「E」はEffective（実効）パラメータを意味します。総パラメータ数には大規模な埋め込みテーブル（ルックアップ用）が含まれますが、推論時の実質的な計算負荷は実効パラメータ数に依存します。PLEという技術により、二次的な埋め込み信号をデコーダーの各層に送り込むことで、少ないパラメータで高い精度を実現しています。

26B MoE——「3.8Bのコストで26Bの知識」を使う

26B MoEモデルは、128個の小さなエキスパート（専門家ネットワーク）のうち、各トークンの処理時に8個＋1個の共有エキスパートだけを活性化します。つまり、推論時の計算コストは約3.8Bモデル相当でありながら、26B分の知識容量を活用できます。

これは「VRAMには26B分を載せる必要があるが、推論速度は4Bクラス」という特性を持ちます。4bit量子化（Q4_K_M）で約14〜18GBのVRAMに収まるため、RTX 4090（24GB）はもちろん、16GB VRAMのGPUでも実行可能です。

どのモデルを選ぶべきか？——ハードウェア別の推奨

あなたの環境	推奨モデル	理由
スマートフォン / Raspberry Pi	E2B	4GB RAMで動作。オフライン対応
ノートPC（8〜16GB RAM）	E4B	汎用性が高く、Ollamaのデフォルト選択
コンシューマーGPU（16GB VRAM）	26B MoE	品質とVRAM効率の最適バランス
ハイエンドGPU（24GB+ VRAM）	31B Dense	最高品質。RTX 4090で動作可能
Mac（Apple Silicon 16GB+）	26B MoE	ユニファイドメモリがVRAMとして使える
Mac（Apple Silicon 32GB+）	31B Dense	Q4_K_Mで余裕を持って動作

ベンチマーク——「31Bが400B級を超える」の根拠

Gemma 4の最大の衝撃は、31Bという比較的小さなモデルが、はるかに大きなモデルを凌駕するベンチマークスコアを記録したことです。

主要ベンチマーク比較（31B Dense、ツールなし）

ベンチマーク	Gemma 4 31B	Llama 4	DeepSeek V4	評価内容
AIME 2026（数学）	89.2%	88.3%	42.5%	高度な数学問題の解法
LiveCodeBench v6（コーディング）	80.0%	77.1%	52.0%	実践的なコード生成
GPQA Diamond（科学）	84.3%	82.3%	58.6%	専門的な科学推論
τ2-bench（エージェント）	86.4%	85.5%	57.5%	自律的タスク実行能力

Gemma 3 27Bからの進化幅

特にインパクトが大きいのは、前世代Gemma 3 27Bからの改善幅です。

ベンチマーク	Gemma 3 27B	Gemma 4 31B	改善率
AIME 2026（数学）	20.8%	89.2%	+328%
LiveCodeBench v6	29.1%	80.0%	+175%
GPQA Diamond	42.4%	84.3%	+99%
BigBench Extra Hard	19.3%	74.4%	+285%

わずか1世代で数学スコアが20.8%から89.2%に跳ね上がるという、通常ではありえない改善幅です。これはGemini 3の研究成果がオープンモデルに直接反映された結果と考えられます。

Arena AIリーダーボード

業界標準のArena AI（旧LMSys Chatbot Arena）テキストリーダーボードでは、31B Denseがオープンモデル全体で第3位、26B MoEが第6位にランクインしています。いずれも20倍以上のパラメータを持つモデルを上回っています。

ライセンス——Apache 2.0への画期的な変更

Gemma 4のもう一つの大きなニュースは、ライセンスがApache 2.0に変更されたことです。これはオープンモデルの利用シーンを劇的に広げます。

項目	Gemma 4（Apache 2.0）	Llama 4（カスタムライセンス）	Qwen 3.5（Apache 2.0）
商用利用	完全自由	条件付き（MAU制限あり）	完全自由
MAU上限	なし	7億MAUで別途ライセンス必要	なし
改変・再配布	自由	条件付き	自由
利用規約の強制	なし	Acceptable Use Policy適用	なし
ソブリンAI展開	制限なし	制限あり	制限なし

Apache 2.0の実務上の意味：

スタートアップ：ユーザー数の増加を気にせずプロダクトに組み込める
企業の社内利用：法務レビューが大幅に簡素化される
政府・自治体：ソブリンAI（自国管理のAI基盤）に制限なく導入可能
研究機関：論文発表や派生モデルの公開に制約なし

アーキテクチャの特徴——なぜ小さいのに強いのか

Gemma 4がパラメータ数以上の性能を発揮する背景には、いくつかの技術的革新があります。

ハイブリッドアテンション機構

デコーダーの各層で、ローカルスライディングウィンドウアテンション（512〜1024トークン）とグローバルフルコンテキストアテンションを交互に配置しています。これにより、短距離の処理効率と長距離の文脈理解を両立しています。最終層は常にグローバルアテンションが配置され、全体の文脈を確実に捉えます。

Dual RoPE

スライディングウィンドウ層には標準的なRotary Position Embedding（RoPE）を、グローバル層にはProportional RoPEを採用しています。この二重構成により、256Kトークンという長大なコンテキストウィンドウでも品質劣化を抑えています。

共有KVキャッシュ

最後のN層が以前の層のKey-Valueテンソルを再利用することで、推論時のメモリ使用量と計算量を削減しています。

ネイティブマルチモーダル

すべてのモデルが画像入力に対応。E2B・E4Bはさらに音声入力にも対応しており、USMスタイルのConformerエンコーダーにより最大30秒の音声を処理できます。26B・31Bは最大60秒の動画理解（1fps）にも対応しています。

【実践①】Ollamaでの導入——最速セットアップ

Ollamaは、ローカルLLMを最も簡単に実行できるツールです。2つのコマンドでGemma 4を動かせます。

前提条件

Ollama v0.20.0以降（Gemma 4対応にはこのバージョンが必要）
macOS / Windows / Linux対応

ステップ1：Ollamaのインストール

macOS：

# Homebrew経由
brew install ollama

# または公式サイト（ollama.com）からデスクトップアプリをダウンロード

Linux：

curl -fsSL https://ollama.com/install.sh | sh

Windows：
ollama.comから公式インストーラーをダウンロードして実行します。サービスは自動で起動し、ポート11434でリッスンします。

ステップ2：Gemma 4モデルのダウンロードと実行

# デフォルト（E4B）をダウンロード＆実行（約9.6GBのダウンロード）
ollama run gemma4

# 各モデルを指定して実行
ollama run gemma4:2b    # E2B — 最軽量、スマホ・Raspberry Pi向け
ollama run gemma4:4b    # E4B — 汎用。ほとんどの開発者の出発点
ollama run gemma4:26b   # 26B MoE — 品質とVRAMのベストバランス
ollama run gemma4:31b   # 31B Dense — 最高品質（20GB+ VRAM推奨）

Ollamaは自動で適切な量子化を選択し、GGUFのダウンロード、メモリ管理を行います。

ステップ3：量子化を手動で指定する場合

# 高品質（メモリ多め）
ollama run gemma4:26b-q8_0

# メモリ節約（やや品質低下）
ollama run gemma4:26b-q4_K_M

# バランス型
ollama run gemma4:26b-q5_K_M

推奨：31Bモデルの場合はQ4_K_Mがスイートスポットです。約18GBに収まり、品質を維持しつつRTX 4090（24GB）に余裕で載ります。

ステップ4：APIとして使う

OllamaはOpenAI互換のREST APIをポート11434で提供します。

# APIリクエストの例
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:26b",
    "messages": [{"role": "user", "content": "Pythonでフィボナッチ数列を計算する関数を書いてください"}]
  }'

これにより、Open WebUI、Continue、Cline、その他のOpenAI互換クライアントからGemma 4を利用できます。

思考モード（Thinking Mode）の活用

Gemma 4はシステムプロンプトに<|think|>トークンを追加することで、推論過程を表示する「思考モード」を有効化できます。数学やコーディングなど、複雑なタスクで精度が向上します。

【実践②】llama.cppでの導入——より細かい制御が必要な場合

Ollamaよりも細かいパラメータ制御が必要な場合は、llama.cppを直接使用します。

ビルド手順

# リポジトリのクローン
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# NVIDIA GPU（CUDA）を使う場合
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

# CPUのみ、またはApple Silicon（Metal自動検出）の場合
cmake -B build -DGGML_CUDA=OFF
cmake --build build --config Release

モデルの実行

# 26B MoE（Dynamic 4-bit量子化）
./build/bin/llama-cli \
  --hf-repo unsloth/gemma-4-26B-A4B-it-GGUF \
  --hf-file gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
  -p "日本の四季について200字で説明してください"

# 31B Dense
./build/bin/llama-cli \
  --hf-repo unsloth/gemma-4-31B-it-GGUF \
  --hf-file gemma-4-31B-it-UD-Q4_K_XL.gguf \
  -p "RESTful APIの設計原則を説明してください"

注意事項：CUDA 13.2ランタイムは出力品質の問題が報告されています。CUDA 12.x系を使用してください（2026年4月8日時点）。

【実践③】vLLMでの導入——本番サービング向け

複数ユーザーへのサービングや本番パイプラインに組み込む場合は、vLLMが最適です。バッチ処理、Paged Attention、Continuous Batchingを自動で処理します。

# Dockerで起動
docker run --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model google/gemma-4-31b-it \
  --max-model-len 8192

起動後、OpenAI互換のAPIがhttp://localhost:8000/v1で利用可能になります。

【実践④】エッジ展開——スマホ・Raspberry Piで動かす

Gemma 4のE2B・E4Bモデルは、エッジデバイスでのオフライン実行を前提に設計されています。

Androidでの利用

GoogleはGemma 4をAndroid開発の中心に位置づけています。

AICore Developer Preview：Android端末上でGemma 4（E2B / E4B）を直接実行可能。Gemini Nano 4の次世代基盤モデルとして、開発者が今日書いたコードが将来のGemini Nano 4搭載端末でそのまま動作
ML Kit GenAI Prompt API：端末ハードウェア上でGemma 4を直接実行するアプリを構築可能
性能向上：前世代比で最大4倍高速化、バッテリー消費60%削減

Raspberry Pi / NVIDIA Jetson Orin Nano

E2Bモデルは4GBのRAMで動作するため、Raspberry Pi 5やNVIDIA Jetson Orin Nanoでも実行可能です。Google Pixel、Qualcomm、MediaTek、ARM、NVIDIAとの協業で、各ハードウェアに最適化されたデプロイが可能です。

エッジ展開のユースケース

オフライン対応アプリ：ネットワーク接続なしでAI機能を提供し、接続時にクラウドと同期
プライバシー重視の環境：医療記録、法律文書、財務データなど、端末外に出せないデータの処理
低遅延リアルタイム処理：ゲーム内AI、リアルタイムキャプション、産業品質検査
コスト最適化：月間数百万リクエスト規模で、クラウドAPI費用が膨大になるケース

VRAM要件の詳細——量子化レベル別の一覧

実際にGemma 4を動かすにあたり、最も重要なのはメモリ要件です。量子化レベル別に整理します。

モデル	4bit（Q4_K_M）	8bit	16bit（フル精度）	推奨GPU例
E2B	約4GB	約5GB	約15GB	統合メモリ8GB以上
E4B	約3〜6GB	約6GB	約15GB	統合メモリ8GB以上
26B MoE	約14〜18GB	約28GB	約52GB	RTX 4090（24GB）/ Mac 16GB+
31B Dense	約18〜20GB	約34GB	約62GB	RTX 4090（24GB）/ Mac 32GB+

ポイント：

Apple Silicon MacではユニファイドメモリがVRAMとして使えるため、16GB MacBook Airでも26B MoE（Q4_K_M）が動作可能
コンテキストウィンドウのサイズが大きくなるほど、KVキャッシュのメモリ消費が増加するため、16GBハードウェアでは入力を32Kトークン以内に抑えることを推奨
量子化の推奨は、小型モデル（E2B/E4B）は8bit、大型モデル（26B/31B）はDynamic 4-bit

主要機能の詳細

マルチモーダル入力

Gemma 4の全モデルが画像入力に対応しています。可変アスペクト比・可変解像度に対応しており、トークンバジェットを70〜1,120の範囲で設定することで、画質と処理速度のトレードオフを制御できます。

画像理解：OCR（多言語対応）、手書き文字認識、チャート・グラフの理解、PDF/ドキュメント解析、UI要素の検出
動画理解：26B・31Bで最大60秒（1fps）の動画を処理
音声入力：E2B・E4Bで音声認識・翻訳に対応（最大30秒）

エージェント機能

Gemma 4は「エージェンティックAI」としての利用を強く意識した設計になっています。

ネイティブFunction Calling：外部APIやツールとの連携を組み込みでサポート
構造化JSON出力：APIレスポンスとして使いやすい構造化データを出力
マルチステッププランニング：複数のステップにまたがるタスクの計画と実行
UIバウンディングボックス検出：ブラウザ自動化やスクリーンパーシングに活用可能

多言語対応

140以上の言語をサポートし、文化的なコンテキストも理解します。日本語を含むアジア言語での精度も向上しています。

競合モデルとの比較——2026年4月時点の全体像

2026年4月現在、オープンモデル市場は激戦状態です。Gemma 4の立ち位置を主要な競合と比較します。

モデル	開発元	パラメータ数	ライセンス	AIME 2026	コンテキスト長	強み
Gemma 4 31B	Google	31B	Apache 2.0	89.2%	256K	パラメータ効率、Apache 2.0
Llama 4	Meta	非公開	カスタム	88.3%	非公開	エコシステムの広さ
DeepSeek V4	DeepSeek	非公開	オープン	42.5%	非公開	コスト効率
Qwen 3.5	Alibaba	各種	Apache 2.0	—	各種	多言語、長コンテキスト
Mistral	Mistral AI	各種	各種	—	各種	ヨーロッパのAI主権

2026年のDatabricksの調査によると、企業の75%以上が本番環境で2つ以上のLLMファミリーを併用しています。コスト、性能、データプライバシーの要件に応じてオープンモデルとクローズドモデルを組み合わせる「マルチモデル戦略」が主流になっています。

導入時の注意点とトラブルシューティング

リリース直後のモデルには既知の問題があります。スムーズな導入のために把握しておきましょう（2026年4月12日時点）。

Ollamaの既知の問題

ツールコール（Function Calling）のバグ：Ollama v0.20.1以前ではGemma 4のツールコール応答にバグがあります。v0.20.2で修正済み
デフォルトコンテキストウィンドウ：Ollamaのデフォルトは4096トークン。大きなプロジェクトで使う場合は--num-ctxで拡張が必要
モデルのアンロード：デフォルトでは5分間のアイドルでモデルがアンロードされます。OLLAMA_KEEP_ALIVE=-1を設定すると常時ロード状態を維持

Apple Siliconユーザー

Ollama v0.19以降でMLXフレームワークが自動で有効化され、高速推論が可能
ブラウザのタブを多数開いているとメモリを圧迫するため、推論時は不要なアプリを閉じることを推奨
16GBマシンで26B MoEを動かす場合、長いプロンプト（32K超）では品質低下の可能性あり

CUDA環境

CUDA 13.2ランタイムでは出力品質に問題が報告されています。CUDA 12.x系の使用を推奨
llama.cppのビルド時に-DGGML_CUDA=ONを指定してGPUアクセラレーションを有効化

よくある質問（Q&A）

Q1. Gemma 4はGemma 3の完全な上位互換ですか？

ベンチマーク上はほぼすべての指標でGemma 4が上回ります。ただし、Gemma 3のファインチューニング済みモデル（MedGemma等）のGemma 4版はまだリリースされていないため、特定の専門タスクでは引き続きGemma 3系のバリアントが有用です。

Q2. 26B MoEと31B Denseのどちらを選ぶべきですか？

26B MoEは31B Denseの約97%の品質を、はるかに少ない計算コスト（3.8Bクラスの推論速度）で達成します。VRAMが24GB未満の場合は26B MoE一択です。24GB以上あり、最高品質を求める場合は31B Denseを選択してください。

Q3. 商用利用に制限はありますか？

Apache 2.0ライセンスのため、商用利用に一切の制限がありません。MAU上限、利用規約の強制、再配布制限もなし。法務レビューの手間も大幅に軽減されます。

Q4. ファインチューニングは可能ですか？

可能です。Hugging Face Transformersが公式にMoE互換のファインチューニングをサポートしています。LoRA（Low-Rank Adaptation）を使えば、メモリ消費を抑えつつ特定タスクに最適化できます。ただし、MoEモデルのファインチューニングはDenseモデルより複雑で、ロードバランシングの補助損失関数に注意が必要です。

Q5. E2B/E4Bで画像や音声を処理できますか？

はい。E2B・E4Bはネイティブでテキスト・画像・音声のマルチモーダル入力に対応しています。26B・31Bは現時点ではテキストと画像のみです。ローカルのビジョン機能が必要な場合は、E4Bが最もバランスの取れた選択肢です。

Q6. 日本語の精度はどうですか？

140以上の言語をサポートしており、日本語も含まれています。前世代のGemma 3から多言語性能は向上していますが、英語と比較すると日本語での精度は若干下がる傾向があります。日本語特化のタスクでは、実際にテストして精度を確認することを推奨します。

まとめ——「ローカルLLMの民主化」が次のフェーズへ

Gemma 4は、ローカルLLMの世界に3つの大きな変化をもたらしました。

1. パラメータ効率革命：31Bのモデルが400B級を超える。モデルの大きさ＝性能の時代は終わりつつあります。アーキテクチャの革新とトレーニング効率の向上が、コンパクトなモデルでフロンティア級の性能を実現しました。

2. Apache 2.0への移行：商用利用、改変、再配布が完全自由。これにより「ライセンスが不安で導入できない」という企業のハードルが消えます。

3. エッジからクラウドまでのスケーラビリティ：Raspberry Pi上の2Bモデルから、クラウドTPU上の31Bモデルまで、同じアーキテクチャファミリーでカバーできる。開発者は一つのエコシステムの中でスケールアップ/ダウンが可能です。

ローカルLLMの導入を検討中の方は、まずollama run gemma4:26bを試してみてください。14GBのVRAMで、18ヶ月前にはフロンティア級だった性能を、APIキーなし、ライセンス制限なし、データ送信なしで利用できます。

参考リンク

免責事項：本記事は2026年4月12日時点の公開情報に基づく技術情報です。ベンチマークスコア、VRAM要件、ツールの互換性は、モデルやツールのアップデートにより変更される可能性があります。最新情報は各公式ソースで確認してください。