ローカルLLMモデル選定ガイド【2026年版】Llama 4・Gemma 3・Qwen 3・Phi-4を日本語業務シナリオ別に徹底比較

はじめに——「Ollamaは入れた。で、どのモデルを選べばいいの？」
この記事で比較する4つのモデルファミリー
各モデルの特徴と日本語業務での強み・弱み
業務シナリオ別おすすめモデル
ハードウェア別の推奨モデルサイズ
実践：Ollamaでモデルをインストールして試す
1. 各モデルのインストールコマンド
2. 日本語性能を手軽にテストするプロンプト例
モデル選定の判断フローチャート
ライセンスの違い——商用利用の落とし穴
2026年後半の注目アップデート
セキュリティ上の注意点
よくある質問（Q&A）
まとめ——「最強のモデル」ではなく「自分に合うモデル」を選ぶ
参考リンク

はじめに——「Ollamaは入れた。で、どのモデルを選べばいいの？」

ローカルLLMへの関心が急速に高まっています。Ollamaをインストールし、「ollama run」でモデルを動かすところまではできた。しかし、その先で多くの人が直面する問題があります。

「モデルが多すぎて、どれを選べばいいかわからない」

2026年3月現在、Ollamaのライブラリには数百のモデルが並んでいます。Llama 4、Gemma 3、Qwen 3、Phi-4——大手テック企業がそれぞれ異なるアーキテクチャと設計思想で競い合い、さらにそれぞれのモデルにサイズ違い・量子化違いのバリエーションが存在します。

ネット上のベンチマーク情報は英語圏の評価が中心で、「日本語の文書を要約させたい」「社内FAQに答えさせたい」「Python以外のコードも書かせたい」といった日本語業務シナリオで、どのモデルが実際に使えるのか——この情報が圧倒的に不足しています。

本記事では、2026年時点で入手可能な主要オープンソースモデル4ファミリーを「日本語業務での実用性」という軸で比較します。Ollamaの入門記事（ローカルLLM入門 — Ollama・LM Studioで社内専用AIを動かす）の「次のステップ」として、あなたの業務と予算に合ったモデルを選ぶための判断基準をお伝えします。

この記事で比較する4つのモデルファミリー

まず、2026年3月時点の主要オープンソースLLMファミリーを俯瞰しましょう。

モデル	開発元	リリース時期	パラメータサイズ	アーキテクチャ	ライセンス
Llama 4 Scout / Maverick	Meta	2025年4月	Scout: 109B（17B稼働）/ Maverick: 400B（17B稼働）	MoE（Mixture of Experts）	Llama License（条件付きオープン）
Gemma 3	Google DeepMind	2025年3月	1B / 4B / 12B / 27B	Dense + SigLIP Vision Encoder	Gemma License（条件付きオープン）
Qwen 3	Alibaba Cloud	2025年4月	0.6B～32B（Dense） / 30B-A3B / 235B-A22B（MoE）	Dense + MoE	Apache 2.0（商用自由）
Phi-4	Microsoft	2025年1月	14B / 3.8B（mini）/ 5.6B（multimodal）	Dense Transformer	MIT License（商用自由）

ひと目でわかるのは、設計思想がまったく異なることです。Llama 4は「少ないパラメータを稼働させる巨大MoE」、Gemma 3は「1GPU完結の高効率マルチモーダル」、Qwen 3は「小型から超大型まで全サイズ揃えるフルラインナップ」、Phi-4は「14Bで大型モデル並みの推論力」。

どれが「最強」かではなく、あなたの業務シナリオとハードウェアに合うのはどれか——これが正しい問いです。

各モデルの特徴と日本語業務での強み・弱み

Llama 4（Meta）——マルチモーダルMoEの先駆者

Llama 4はMetaが2025年4月にリリースした第4世代のオープンウェイトモデルで、同社初のMoE（Mixture of Experts）アーキテクチャを採用しています。Scoutは16のエキスパートを持つ軽量モデル、Maverickは128のエキスパートを持つ大型モデルです。

日本語業務での強み：

最大10Mトークンという圧倒的なコンテキスト長（Scout）を持ち、長文の社内規程や契約書をまるごと読み込ませる用途に強みがあります。マルチモーダル対応により、テキストと画像を同時に処理できるため、文書画像の分析にも活用可能です。30兆トークン以上のデータで訓練されており、多言語対応も充実しています。

日本語業務での弱み：

MoEアーキテクチャのため、全パラメータをVRAMに載せる必要があり、個人PCやMac miniで動かすにはScoutでもハードルが高いのが最大の課題です。Maverick（400B総パラメータ）は単独GPUでは困難で、クラウド推論やマルチGPU構成が前提になります。また、EU域内での利用が制限されるライセンス条件がある点にも注意が必要です。

Gemma 3（Google DeepMind）——1GPU完結の優等生

Gemma 3はGoogleのGeminiモデルから蒸留された軽量オープンモデルで、4サイズ（1B/4B/12B/27B）で展開されています。最大の特徴は、27Bパラメータでも単一GPUで動作し、128Kトークンのコンテキスト長を持つことです。

日本語業務での強み：

140以上の言語をサポートし、Gemma 3のトークナイザーはGemini 2.0と同じもので、中国語・日本語・韓国語（CJK）のエンコーディングが大幅に改善されています。SigLIPビジョンエンコーダによるマルチモーダル対応（4B以上）で、画像とテキストの同時理解が可能です。QAT（量子化対応学習）版が提供されており、NVIDIA RTX 3090のような一般的なGPUでも27Bモデルを動かせます。

日本語業務での弱み：

高度な数学・コーディング推論ではQwen 3に一歩譲る傾向があります。また、Gemma Licenseは商用利用可能ですが、Apacheほど制約が少ないわけではなく、利用規約の確認が必要です。

Qwen 3（Alibaba Cloud）——日本語業務の最有力候補

Qwen 3はAlibaba Cloudが2025年4月にリリースしたフルラインナップのLLMシリーズで、0.6Bから235Bまで8サイズを展開しています。Denseモデル（全パラメータ稼働）とMoEモデル（部分パラメータ稼働）の両方を提供しています。

日本語業務での強み：

100以上の言語をサポートし、中国語に隣接する日本語の処理品質が高いのが最大の特徴です。アジア言語のトレーニングデータ比率が他モデルより高いと推測されます。Thinkingモード（深い推論）とNon-thinkingモード（高速応答）をひとつのモデル内で切り替えられるハイブリッド設計で、業務シナリオに応じた使い分けが可能です。Apache 2.0ライセンスで商用利用が完全に自由な点も中小企業にとって大きな利点です。

さらに注目すべきは、Qwen 3の「サイズ圧縮効率」です。公式発表によると、Qwen3-4Bは前世代のQwen2.5-72Bに匹敵する性能を示しています。小型モデルでも高い品質を実現できるため、限られたハードウェアでの運用に適しています。

日本語業務での弱み：

マルチモーダル（画像入力）はQwen 3の標準テキストモデルには非搭載で、別途Qwen-VLシリーズが必要です。また、Thinkingモード使用時はトークン消費量が増加し、応答速度が低下します。

Phi-4（Microsoft）——14Bで大型モデルに匹敵する推論力

Phi-4はMicrosoftの小型言語モデル（SLM）ファミリーの最新世代で、14Bパラメータという比較的小さなサイズで強力な推論能力を発揮します。Phi-4-reasoningは14Bでありながら、70Bクラスのモデルに匹敵する数学・科学・コーディングの推論性能を実現しています。

日本語業務での強み：

14Bパラメータのため、一般的なノートPCやデスクトップでも動作可能で、導入ハードルが低いのが特徴です。STEM分野（科学・技術・工学・数学）の推論に特化しており、技術文書の分析やコード生成タスクで高い性能を発揮します。MIT Licenseで完全にオープンソースです。Phi-4-multimodal（5.6B）はテキスト・画像・音声の同時処理に対応し、日本語音声認識にも対応しています。

日本語業務での弱み：

公式ドキュメントで「英語に最適化されており、多言語は限定的」と明記されている点が最大の課題です。日本語での自然な文章生成や、敬語・ビジネス日本語の処理品質では、Qwen 3やGemma 3に劣る傾向があります。日本語の文書要約やFAQ応答よりも、コード生成や数学的推論に向いています。

業務シナリオ別おすすめモデル

ここからが本記事の核心です。「結局、私の業務にはどれがいいの？」という問いに、シナリオ別で回答します。

業務シナリオ	第1候補	第2候補	選定理由
日本語の文書要約・議事録整理	Qwen 3（14B / 32B）	Gemma 3（12B / 27B）	日本語の自然さ・敬語理解でQwen 3が優位。Gemma 3もCJK対応が大幅改善
社内FAQ・問い合わせ応答	Qwen 3（8B / 14B）	Gemma 3（4B / 12B）	RAGとの組み合わせでQwen 3が安定。Gemma 3は軽量で応答速度が速い
コード生成・プログラミング補助	Qwen 3（32B / 30B-A3B）	Phi-4（14B reasoning）	Qwen 3はCodeForces Eloで高スコア。Phi-4はSTEM推論に特化
英語⇔日本語翻訳	Qwen 3（14B以上）	Gemma 3（12B以上）	中国語隣接でアジア言語翻訳に強いQwen 3が優位
画像＋テキストの複合分析	Gemma 3（4B / 12B / 27B）	Phi-4 multimodal（5.6B）	Gemma 3はビジョン機能が標準搭載。Phi-4 multimodalは超軽量
数学・技術計算・STEM推論	Phi-4 reasoning（14B）	Qwen 3（32B thinking）	Phi-4はSTEM特化で14Bながら70Bクラスの性能
超長文書の一括処理	Llama 4 Scout（10Mトークン）	Gemma 3 27B（128Kトークン）	10Mコンテキストは唯一無二。ただしハードウェア要件は高い
低スペックPC・Mac miniで動かしたい	Qwen 3（4B / 8B）	Gemma 3（4B）/ Phi-4 mini（3.8B）	少ないVRAM・統合メモリでも動く小型モデル同士の比較

まとめると、日本語業務全般ではQwen 3がファーストチョイスになるケースが多いでしょう。ただし、マルチモーダル用途ではGemma 3、STEM特化タスクではPhi-4、超長文処理ではLlama 4と、シナリオごとに最適解が変わります。

ハードウェア別の推奨モデルサイズ

モデルの性能だけで選んでも、手元のPCで動かなければ意味がありません。ここでは、ハードウェア構成別に「現実的に動く」モデルサイズを整理します。

ハードウェア構成	利用可能VRAM / メモリ	推奨モデルサイズ	具体的なモデル例
Mac mini M4（16GB統合メモリ）	約10-12GB利用可能	4B～8B（Q4量子化）	Qwen3:8b, Gemma3:4b, Phi-4-mini
Mac mini M4 Pro（24GB）	約18-20GB利用可能	8B～14B（Q4量子化）	Qwen3:14b, Gemma3:12b, Phi-4
Mac Studio M4 Max（64GB）	約50-55GB利用可能	27B～32B（Q4量子化）	Qwen3:32b, Gemma3:27b
NVIDIA RTX 4090（24GB VRAM）	24GB VRAM	14B（FP16）/ 27-32B（Q4量子化）	Qwen3:14b, Gemma3:27b-qat, Phi-4
NVIDIA RTX 5090（32GB VRAM）	32GB VRAM	27B-32B（Q4-Q8量子化）	Qwen3:32b, Gemma3:27b
クラウドGPU（A100/H100）	40-80GB VRAM	32B以上 / MoEモデル	Qwen3:235b-a22b, Llama4 Scout/Maverick

量子化について：「Q4量子化」とは、モデルの重みデータを16ビット浮動小数点から4ビット整数に圧縮する技術です。メモリ使用量が約4分の1になるかわりに、品質が若干低下します。Ollamaではデフォルトでこの量子化が適用されるため、上記の「推奨サイズ」はQ4量子化前提の数値です。

Gemma 3のQAT（量子化対応学習）版は、量子化による品質劣化が特に少なく設計されているため、メモリが限られた環境では特に有利です。

実践：Ollamaでモデルをインストールして試す

各モデルはOllamaのワンコマンドで試せます。まだOllamaをインストールしていない方は、ローカルLLM入門記事を参照してください。

各モデルのインストールコマンド

# Qwen 3（日本語業務の最有力候補）
ollama run qwen3:8b          # 8Bモデル（16GB RAM環境向け）
ollama run qwen3:14b         # 14Bモデル（24GB RAM環境向け）
ollama run qwen3:32b         # 32Bモデル（64GB RAM環境向け）
ollama run qwen3:30b-a3b     # 30B MoEモデル（3B稼働、省メモリ）

# Gemma 3（マルチモーダル対応の優等生）
ollama run gemma3:4b          # 4Bモデル（軽量でも高性能）
ollama run gemma3:12b         # 12Bモデル（バランス型）
ollama run gemma3:27b         # 27Bモデル（最高性能）
ollama run gemma3:27b-qat     # 27B QAT版（省メモリ）

# Phi-4（STEM推論特化）
ollama run phi4               # 14Bモデル
ollama run phi4-mini           # 3.8Bモデル（超軽量）

# Llama 4（超長文・マルチモーダル）
ollama run llama4:scout       # Scout 109Bモデル（要高スペック）

日本語性能を手軽にテストするプロンプト例

モデルを比較する際は、同じプロンプトを各モデルに投げて結果を比較するのが効果的です。以下は、日本語業務の品質を素早くチェックするためのテストプロンプトです。

テスト1：文書要約（敬語の自然さ）

以下の会議メモを、上司に報告するための3行の要約にしてください。
敬語を使い、結論→理由→次のアクションの順で書いてください。

「本日のマーケティング会議では、Q2のSNS広告予算について議論しました。
田中部長からInstagram広告の費用対効果が低下しているとの報告があり、
YouTube Shortsへの予算シフトを検討することになりました。
来週までに各チャネルのCPA比較データを山田さんが用意します。」

テスト2：FAQ応答（正確性と簡潔さ）

あなたは中小企業の社内AIアシスタントです。
以下の質問に、100文字以内で簡潔に回答してください。

質問：「有給休暇は入社何ヶ月目から取れますか？」

テスト3：翻訳（ニュアンスの保持）

以下の英文メールを、ビジネス日本語に翻訳してください。
相手は取引先の部長です。適切な敬語を使用してください。

"We appreciate your continued partnership. However, we need to 
discuss the delivery timeline for Q3, as our internal priorities 
have shifted. Could we schedule a call next week?"

モデル選定の判断フローチャート

迷ったときは、以下の順序で判断してください。

ステップ1：ハードウェアで選択肢を絞る

手元のPCのメモリ/VRAM容量を確認し、上の「ハードウェア別推奨サイズ」の表から現実的なモデルサイズを特定します。

ステップ2：主要な用途で候補を絞る

「業務シナリオ別おすすめモデル」の表から、自分の主要な業務に合った候補を2つ選びます。

ステップ3：テストプロンプトで実際に比較する

上のテストプロンプト（または実際の業務データ）を両方のモデルに投げ、出力品質を比較します。

ステップ4：速度と品質のバランスを見る

品質が同等なら、応答速度が速い（パラメータが少ない）方を選びます。業務で「待ち時間」は生産性に直結します。

判断に迷ったら：日本語業務がメインならQwen 3、画像も扱うならGemma 3、コード・数学特化ならPhi-4、超長文ならLlama 4 Scoutを起点に検討してください。

ライセンスの違い——商用利用の落とし穴

モデルの性能が良くても、ライセンス条件で使えないケースがあります。特に中小企業がサービスに組み込む場合は注意が必要です。

モデル	ライセンス	商用利用	主な制約
Qwen 3	Apache 2.0	◎ 完全自由	なし
Phi-4	MIT License	◎ 完全自由	なし
Gemma 3	Gemma License	○ 条件付き可能	利用規約への同意が必要。再配布時の条件あり
Llama 4	Llama License	△ 条件付き	月間7億ユーザー超のサービスはMeta承認が必要。EU域内利用に制限あり

中小企業への実務的アドバイス：社内利用のみ（社内FAQ、社内文書処理など）であれば、4モデルとも問題なく使用できます。外部顧客向けサービスに組み込む場合は、Qwen 3（Apache 2.0）またはPhi-4（MIT）が最もリスクが低い選択肢です。

2026年後半の注目アップデート

ローカルLLMの世界は進化が非常に速いため、今後の動向も押さえておきましょう。

Qwen 3.5シリーズ（2025年後半リリース）：最新のQwen 3.5-35B-A3Bは、わずか3Bの稼働パラメータで前世代のQwen3-235B-A22B（22B稼働）を上回る性能を実現しています。Gated DeltaNetとMoEのハイブリッドアーキテクチャで100万トークンのコンテキストに対応し、コスト効率が飛躍的に向上しました。Ollamaでも「ollama run qwen3.5:35b-a3b」で利用可能です。

Gemma 3n（2025年6月リリース）：モバイルファーストのMatFormerアーキテクチャを採用した新モデルで、スマートフォンやエッジデバイスでの動作に最適化されています。音声入力にも対応し、10B未満のパラメータでLMArenaスコア1300超を達成した初のモデルです。

Llama 4 Behemoth（未リリース）：288Bの稼働パラメータ、2T総パラメータという超大型モデルが開発中と発表されています。リリース時期は未定ですが、オープンソース最強クラスの推論性能が期待されています。

Phi-4-reasoning-plus：強化学習による追加トレーニングを施した推論特化モデルで、14Bながらより高精度な数学・科学推論を実現しています。

セキュリティ上の注意点

ローカルLLMを使うメリットのひとつは「データが外部に出ない」安全性ですが、モデルファイル自体のセキュリティも考慮が必要です。

1. 公式ソースからダウンロードする

Ollamaの公式ライブラリ、Hugging Faceの公式リポジトリ、各開発元のGitHubからダウンロードしてください。非公式のミラーサイトや、SNSで共有された直リンクからのダウンロードは避けましょう。Hugging Faceでは4.47Mのモデルがスキャンされ、51,700のモデルに安全性の問題が発見されています。

2. Safetensors形式を優先する

PyTorchの標準保存形式であるPickle形式には、読み込み時に任意のコードが実行されるリスクがあります。可能な限り、より安全なSafetensors形式のモデルを選んでください。Ollamaで配布されるモデルは基本的にGGUF形式で安全ですが、Hugging Faceから直接ダウンロードする場合は形式を確認しましょう。

3. モデルカードを確認する

信頼できるモデルには、訓練データの概要、評価結果、既知の制限事項を記載した「モデルカード」があります。モデルカードがないモデルは避けるのが賢明です。

AIモデルのセキュリティについて詳しく知りたい方は、AIサプライチェーン攻撃入門も併せてお読みください。

よくある質問（Q&A）

Q1. 「とりあえず1つ試すなら」何がおすすめですか？

日本語業務がメインならQwen 3の8Bモデルをおすすめします。「ollama run qwen3:8b」ですぐに試せ、16GBメモリのMac miniでも動作します。日本語の品質が高く、Apache 2.0ライセンスで商用利用も自由です。

Q2. 量子化するとどのくらい品質が落ちますか？

Q4量子化（4ビット）では、一般的に元モデル比で5〜10%程度の品質低下が見られます。ただし、日常的な文書要約やFAQ応答では体感できないことが多いです。Gemma 3のQAT版は量子化を前提に訓練されているため、品質低下が特に少なく設計されています。コーディングや数学推論など精密さが求められるタスクでは、可能な限り大きなサイズ（FP16）で動かすのが理想です。

Q3. DeepSeek-R1やDeepSeek-V3は候補に入りませんか？

DeepSeekは優秀なモデルですが、本記事では「日本の中小企業が業務利用する」観点から、開発元のサポート体制、コミュニティの活発さ、ドキュメントの充実度を重視して4モデルに絞りました。DeepSeekはオープンソースとしてのコード公開は行っていますが、中国の法規制に基づくデータプライバシーの懸念がある場合は注意が必要です。性能面では非常に競争力があるため、データプライバシーの問題がない用途では検討する価値があります。

Q4. 複数のモデルを用途別に使い分けるのはアリですか？

むしろ推奨します。たとえば「日本語の文書処理はQwen 3、画像分析はGemma 3、コード生成はPhi-4」というように使い分けると、それぞれの得意分野を最大限活かせます。Ollamaでは複数のモデルをインストールして切り替えるのが簡単なので、用途別の使い分けに追加コストはかかりません。

Q5. ローカルLLMとクラウドAPI（ChatGPT等）はどう使い分ければよいですか？

判断基準は「データの機密性」と「品質要求」の2軸です。機密データを扱う業務（社内文書要約、顧客データ分析）はローカルLLM、品質が最重要で機密性が低い業務（マーケティングコピー作成、一般的なリサーチ）はクラウドAPIという使い分けが合理的です。詳しくはAIコスト最適化ガイドをご覧ください。

まとめ——「最強のモデル」ではなく「自分に合うモデル」を選ぶ

ローカルLLMのモデル選定で最も大切なのは、ベンチマークのスコアではなく、あなたの業務シナリオ・ハードウェア・ライセンス条件に合致するかどうかです。

最後に、本記事の要点を3つにまとめます。

1. 日本語業務ならQwen 3を試してみるのがおすすめ。アジア言語処理の品質、Apache 2.0の自由なライセンス、0.6Bから235Bまでのフルラインナップ——日本語業務での第一候補です。

2. 用途に応じて使い分ける。画像分析ならGemma 3、数学・コード推論ならPhi-4、超長文処理ならLlama 4 Scout。万能モデルを探すより、得意分野の異なるモデルを組み合わせるのが賢い戦略です。

3. ハードウェアの制約を受け入れる。メモリ16GBなら8Bモデル、24GBなら14Bモデルというように、スペックに合ったサイズを選ぶことで、快適な応答速度を維持できます。小さなモデルでも、適切なプロンプトとRAGを組み合わせれば、驚くほど実用的な結果が得られます。

最適なモデルは使う環境によって違います。この記事を参考にして頂き、まずは「ollama run」で1つ試してみてください。

【テンプレートで今すぐ始める】ローカルLLMの導入に必要な稟議書・セキュリティ評価・構築チェックリスト・運用ルールを、全12テンプレートにまとめました。 → ローカルLLM導入・運用完全テンプレートパック（¥14,800） https://note.com/ai_guide_expert/n/n4fc22645f217

参考リンク

免責事項：本記事は2026年3月時点の公開情報に基づく情報提供であり、特定のモデルやベンダーの推奨・保証ではありません。ベンチマーク結果は評価条件により変動し、実際の業務での性能を保証するものではありません。モデルのライセンス条件は変更される可能性があるため、利用前に各公式サイトで最新の利用規約を確認してください。