ローカルLLM入門 — Ollama・LM Studioで社内専用AIを動かす
はじめに——「ChatGPTを使いたいけど、データが外に出るのが怖い」を解決する
「社員にChatGPTを使わせたいが、顧客データや契約書の内容が外部サーバーに送られるのは困る」
これは、中小企業の経営者やIT担当者から最も多く聞く悩みのひとつです。実際、多くの企業がセキュリティポリシー上の理由でChatGPTの業務利用を禁止、または制限しています。
しかし2026年現在、この問題には明確な解決策があります。ローカルLLM——つまり、自社のPCやサーバー上でAIを動かす方法です。
インターネットに接続する必要はありません。データは一切外部に送信されません。しかも、最近のオープンソースモデルの進化は目覚ましく、特定の用途ではChatGPTに匹敵する性能を発揮するものも出てきています。
この記事では、ローカルLLMの基礎知識から、実際に動かすまでの手順、モデルの選び方、商用APIとのコスト比較まで、ビジネスパーソン向けに実践的に解説します。
そもそもローカルLLMとは?——クラウドAIとの違いを整理する
クラウドAI(ChatGPT、Claude、Geminiなど)
皆さんが普段使っているChatGPTやClaude、Geminiは「クラウドAI」です。質問を入力すると、インターネット経由でOpenAIやGoogleのサーバーにデータが送られ、そこで処理された結果が返ってきます。
- メリット: 最高性能のモデルを手軽に使える、常に最新版が使える
- リスク: データが社外サーバーに送信される、従量課金でコストが膨らむ可能性
ローカルLLM
ローカルLLMは、オープンソース(無料公開)のAIモデルを自分のPCにダウンロードして動かします。処理はすべてPC内で完結し、データは一切外に出ません。
- メリット: データが外部に出ない、従量課金なし、オフラインで動作
- デメリット: 高性能PCが必要、クラウドAIより性能が劣る場合がある
| 比較項目 | クラウドAI | ローカルLLM |
|---|---|---|
| データの行き先 | 外部サーバー | 自社PC内で完結 |
| インターネット | 必須 | 不要(モデル初回ダウンロード時のみ) |
| 性能 | 最高水準 | 用途によってはクラウドに匹敵 |
| コスト構造 | 月額課金 or 従量課金 | 初期投資(PC)+電気代のみ |
| 導入の手軽さ | アカウント作成だけ | PC準備+ツールインストール |
| カスタマイズ | 限定的 | モデルの改良・社内データ連携が自由 |
必要なPCスペック——何を買えばいい?
ローカルLLMを快適に動かすために最も重要なのはGPU(グラフィックボード)のVRAM容量です。VRAMはAIモデルを読み込むためのメモリで、これが多いほど大きなモデルを動かせます。
推奨スペック一覧
| 構成 | 想定用途 | 目安価格 |
|---|---|---|
| エントリー: VRAM 8GB(RTX 4060) / RAM 16GB | 7B〜8Bモデル(社内FAQ、簡易要約) | 15〜20万円 |
| スタンダード: VRAM 12GB(RTX 4070) / RAM 32GB | 8B〜14Bモデル(文書作成、翻訳、コード生成) | 25〜35万円 |
| プロフェッショナル: VRAM 16GB(RTX 4070 Ti SUPER) / RAM 32GB | 14B〜32Bモデル(高品質な日本語応答、RAG連携) | 35〜50万円 |
| ハイエンド: VRAM 24GB(RTX 4090) / RAM 64GB | 32B〜70Bモデル(GPT-4級の性能を目指す) | 50〜80万円 |
Mac(Apple Silicon)の場合
M1/M2/M3/M4チップ搭載のMacは、統合メモリをGPUメモリとしても使えるため、ローカルLLMとの相性が良好です。メモリ32GB以上のモデルであれば、多くのローカルLLMを快適に動かせます。特にM4 Pro/Max搭載のMacは、コストパフォーマンスに優れた選択肢です。
「まず試したい」なら今のPCでOK
8Bクラスの小型モデルであれば、GPUがなくてもCPUだけで動作します。速度は遅くなりますが、「ローカルLLMとはどんなものか」を体験するには十分です。まず今のPCで試してみて、本格導入時にスペックアップするのが賢いアプローチです。
ツール比較——OllamaとLM Studio、どっちを選ぶ?
ローカルLLMを動かすには、モデル本体に加えて「実行ツール」が必要です。2026年時点で主流の2ツールを比較します。
| 比較項目 | Ollama | LM Studio |
|---|---|---|
| インターフェース | コマンドライン(CLI)中心 ※GUI版も登場 | グラフィカル(GUI)中心 |
| 難易度 | ターミナルに慣れていれば簡単 | マウス操作だけで完結、初心者向き |
| モデル入手 | ollama pull モデル名で一発 | アプリ内でモデルを検索・ダウンロード |
| API提供 | ◎ OpenAI互換APIを標準提供 | ○ ローカルAPIサーバー機能あり |
| 他ツール連携 | ◎ LangChain、LlamaIndex等と統合しやすい | △ 単体利用が基本 |
| Docker対応 | ◎ 公式Dockerイメージあり | ✕ |
| 対応OS | macOS / Linux / Windows | macOS / Windows / Linux(ベータ) |
| 費用 | 完全無料(オープンソース) | 個人・商用ともに無料 |
| おすすめユーザー | 開発者、社内システム連携を見据える企業 | 非エンジニア、まず試したい個人 |
結論:迷ったらこう選ぶ
- 「まずAIチャットを体験したい」→ LM Studio GUIでChatGPTのように使える。モデルの検索・ダウンロードもアプリ内で完結。
- 「社内システムに組み込みたい」→ Ollama API連携が強力。社内Webアプリやチャットボットのバックエンドとして最適。
- 迷ったら両方入れるのもアリ。LM Studioで試して、本番はOllamaに移行するパターンが多い。
Ollamaで動かしてみよう——3ステップで完了
ステップ1:インストール
Mac:
brew install ollama
Windows / Linux: ollama.com からインストーラーをダウンロードして実行。
ステップ2:モデルをダウンロード&実行
ターミナル(コマンドプロンプト)で以下を入力するだけです。
ollama run gemma3:4b
初回はモデルのダウンロード(数GB)が走りますが、2回目以降は即座に起動します。起動後はそのままチャットが始まります。
>>> 日本語で自己紹介してください。
こんにちは!私はGemma 3という言語モデルです。Googleが開発した
オープンソースのAIで、質問への回答や文章の作成、翻訳など、
さまざまなタスクをお手伝いできます。
ステップ3:他のモデルも試す
ollama run qwen3:8b # 日本語に強い Alibaba製モデル
ollama run llama3.1:8b # Meta製の定番モデル
ollama run phi4-mini:3.8b # Microsoft製の軽量モデル
モデルの切り替えはollama run モデル名だけ。気に入らなければollama rm モデル名で削除できます。
LM Studioで動かしてみよう——GUIで簡単セットアップ
ステップ1:インストール
lmstudio.ai からアプリをダウンロードしてインストール。
ステップ2:モデルを選んでダウンロード
アプリを起動すると、人気モデルの一覧が表示されます。検索バーに「gemma3」「qwen」などと入力してモデルを探し、「Download」ボタンをクリック。モデルサイズやVRAM使用量の目安も表示されるので、自分のPCに合ったものを選べます。
ステップ3:チャット開始
ダウンロードが完了したら、左メニューの「Chat」を開き、モデルを選択して対話開始。ChatGPTとほぼ同じ感覚で使えます。
日本語で使えるおすすめモデル——目的別ガイド
ローカルLLMの世界には数千のモデルがありますが、日本語業務で実用的なものは限られます。2026年時点のおすすめを目的別に整理します。
汎用・万能型(まず試すならこれ)
| モデル | パラメータ数 | 必要VRAM | 日本語 | 特徴 |
|---|---|---|---|---|
| Gemma 3 4B | 43億 | 約4GB | ◎ | Google製。軽量で日本語も流暢。画像認識(Vision)対応。初心者の第一歩に最適 |
| Gemma 3 12B | 122億 | 約8GB | ◎ | 4Bの上位版。日本語の精度がさらに向上。日本語文字画像の読み取りも可能 |
| Qwen 3 8B | 80億 | 約6GB | ◎ | Alibaba製。日本語を含むアジア言語に特に強い。コード生成も得意 |
| Llama 3.1 8B | 80億 | 約6GB | ○ | Meta製の定番。英語は最強クラス。日本語も実用水準。派生モデルが豊富 |
高性能型(本格業務利用)
| モデル | パラメータ数 | 必要VRAM | 日本語 | 特徴 |
|---|---|---|---|---|
| Qwen 2.5 32B | 320億 | 約20GB | ◎ | 日本語の自然さはローカルLLM最高峰。ビジネス文書作成に最適 |
| Qwen 2.5 72B | 720億 | 約48GB | ◎ | GPT-4に匹敵する性能。要ハイエンドGPU |
| Llama 3.1 70B | 700億 | 約48GB | ○ | 汎用性のトップクラス。英語中心の業務に |
| GPT-OSS 20B | 200億 | 約14GB | ○ | OpenAI初のOSSモデル。GPT品質をローカルで。Apache 2.0ライセンス |
軽量・エッジ型(低スペックPCでも動く)
| モデル | パラメータ数 | 必要VRAM | 日本語 | 特徴 |
|---|---|---|---|---|
| Gemma 3n E4B | 40億相当 | 約3GB | ○ | Google製の超軽量版。スマホでも動作可能な設計 |
| Phi-4 Mini 3.8B | 38億 | 約3GB | ○ | Microsoft製。論理的思考とコード生成に強み |
| Gemma 2 JPN 2B | 26億 | 約2GB | ◎ | Google謹製の日本語特化モデル。超軽量 |
特化型
| モデル | 用途 | 特徴 |
|---|---|---|
| PLaMo-2-Translate | 英日翻訳 | 日本のスタートアップ開発。プロンプト不要で高品質翻訳。超長文も一括処理可能 |
| ELYZA-Japanese-Llama | 日本語全般 | 国産AI。日本語の文化的文脈に強い |
| DeepSeek-V3 | コード生成・推論 | 推論効率が極めて高い。低スペックでも動かしやすい |
日本語性能で選ぶなら
迷ったらQwen 3 8BかGemma 3 12Bから始めましょう。 どちらも日本語の自然さと精度のバランスが良く、一般的なゲーミングPC〜ビジネスPCで動作します。
商用API vs ローカルLLM——コストと精度のトレードオフ
コスト比較シミュレーション(社員20名で3年間利用した場合)
| 項目 | クラウドAI(ChatGPT Team) | ローカルLLM |
|---|---|---|
| 初期費用 | ほぼ0円 | PC購入:約40〜80万円 |
| 月額費用 | 約4,500円 × 20名 = 9万円/月 | 電気代:約5,000円/月 |
| 3年間合計 | 約324万円 | 約58〜98万円(PC代+電気代) |
| 追加コスト | API利用量が増えると追加課金 | 保守・運用の人件費(兼任可能) |
ポイント: 利用人数と頻度が増えるほど、ローカルLLMのコスト優位が拡大します。逆に、少人数・低頻度なら クラウドAIの方が手軽でコスパが良い場合もあります。
精度比較の実態
| タスク | クラウドAI(GPT-5/Claude) | ローカルLLM(8B級) | ローカルLLM(32B級以上) |
|---|---|---|---|
| 日常的な質問応答 | ◎ | ○ | ◎ |
| 日本語ビジネス文書作成 | ◎ | △〜○ | ○〜◎ |
| データ分析・コード生成 | ◎ | ○ | ◎ |
| 高度な推論・複雑なタスク | ◎ | △ | ○ |
| 社内ナレッジ検索(RAG連携) | ○ | ○ | ◎ |
| 翻訳(英日) | ◎ | ○ | ◎ |
重要な事実: 8Bクラスの小型モデルでも、2024年のGPT-4に迫る性能を持つものが出てきています。「すべてのタスクで最高性能が必要」でない限り、ローカルLLMは十分に実用的です。特に、社内FAQ対応、定型文書の作成、翻訳、データのクレンジングといった定型的なタスクでは、クラウドAIに遜色ない結果が得られます。
どちらを選ぶべきか?
| こんな企業は → | おすすめ |
|---|---|
| 機密データ(顧客情報、契約書、医療記録)をAIで処理したい | ローカルLLM |
| オフライン環境(工場、倉庫など)でAIを使いたい | ローカルLLM |
| 最新・最高性能のAIを常に使いたい | クラウドAI |
| まずは少人数で試したい(5名以下) | クラウドAI |
| 大量のドキュメントを繰り返し処理する | ローカルLLM |
| 社内にIT担当者がいない | クラウドAI |
実務上のベストプラクティスは「ハイブリッド運用」です。 機密性の低い作業はクラウドAI、機密データを含む作業はローカルLLM、と使い分けるのが最もバランスが良い方法です。
実際の活用シナリオ
シナリオ1:社内ナレッジ検索システム
社内マニュアル、過去の議事録、技術資料をローカルLLMに読み込ませ、社員が自然言語で検索できるシステムを構築。クラウドを使わないため、社外秘の資料も安心して扱えます。
技術キーワード: RAG(Retrieval-Augmented Generation)、ベクトルDB
シナリオ2:カスタマーサポートの自動応答
顧客からの問い合わせに対し、ローカルLLMが過去のFAQや対応履歴をもとに回答案を生成。担当者が確認・修正して送信する「半自動化」から始められます。
シナリオ3:契約書・見積書のドラフト作成
過去の契約書テンプレートを学習させ、新規案件の条件を入力するだけでドラフトを自動生成。機密性の高い契約内容が外部に漏れるリスクがゼロです。
シナリオ4:議事録の要約と議事アクション抽出
会議の録音テキスト(文字起こし済み)をローカルLLMに渡して、要約と次回までのアクションアイテムを自動抽出。
よくある質問(FAQ)
Q1. 本当にデータは外に出ないのですか?
はい。ローカルLLMはモデルのダウンロード時のみインターネットを使いますが、ダウンロード後はオフラインで完全に動作します。チャットの内容が外部サーバーに送信されることは一切ありません。心配なら、モデルダウンロード後にネットワークを切断しても動作することを確認できます。
Q2. オープンソースのAIモデルは商用利用できますか?
モデルによってライセンスが異なります。主要モデルのライセンスは以下の通りです。
| モデル | ライセンス | 商用利用 |
|---|---|---|
| Llama 3.1 | Llama 3.1 Community License | ◎(月間アクティブユーザー7億人未満) |
| Gemma 3 | Gemma Terms of Use | ◎ |
| Qwen 2.5 / 3 | Apache 2.0 | ◎ |
| GPT-OSS | Apache 2.0 | ◎ |
| Phi-4 | MIT License | ◎ |
| DeepSeek-V3 | MIT License | ◎ |
主要なモデルのほとんどが商用利用可能です。ただし、導入前に必ず最新のライセンス条件を確認してください。
Q3. モデルのアップデートはどうするのですか?
Ollamaの場合、ollama pull モデル名で最新版に更新できます。LM Studioはアプリ内の更新ボタンからワンクリック。ただし、クラウドAIのような「常に最新」ではなく、自分のタイミングで更新する運用になります。
Q4. 社内の複数人で同時に使えますか?
OllamaはAPIサーバーとして動作するため、社内ネットワーク上の複数PCからアクセス可能です。ただし、同時リクエスト数はGPUの性能に依存します。本格的な複数人利用には、Open WebUI(ブラウザベースのチャットUI)を組み合わせるのがおすすめです。
Q5. 日本語のグラフやレポートは作れますか?
ローカルLLMは基本的にテキスト生成のツールです。グラフの自動生成やExcel操作が必要な場合は、前回の記事で紹介したChatGPT Advanced Data Analysisの方が向いています。ローカルLLMは「データを外に出せない文書の作成・要約・分類」に強みがあります。
導入ロードマップ——4ステップで始める
ステップ1:まず体験する(今日〜1週間)
LM Studioをインストールし、Gemma 3 4Bで「日本語で自己紹介して」と入力してみましょう。ローカルLLMの応答速度と品質を体感するところからスタートです。
ステップ2:業務タスクで試す(1〜2週間)
実際の業務データ(社内FAQ、メールテンプレート、議事録など)を使って、精度を検証します。「この品質なら実務で使えるか?」を判断しましょう。
ステップ3:モデルを選定する(2〜4週間)
複数のモデルを試して、自社の業務に最適なものを選びます。日本語の精度、応答速度、必要なPCスペックのバランスで判断します。
ステップ4:運用ルールを決めて展開(1〜2ヶ月)
- ローカルLLMで処理してよいデータの範囲を明確にする
- 利用ガイドラインを作成する
- 必要に応じてPC環境を整備する
- Ollama+Open WebUIで社内チャット環境を構築する
まとめ——データを守りながらAIを活用する時代へ
ローカルLLMは、もはや「技術者の趣味」ではありません。2026年現在、Ollamaならコマンド1行、LM Studioならマウス操作だけで、自社PC上にAIチャット環境を構築できます。
最も重要なポイントを3つにまとめます。
1. データは外に出ない。 ローカルLLMはオフラインで動作し、入力した内容が外部に送信されることはありません。
2. コストは初期投資型。 クラウドAIの月額課金と異なり、PC購入後は電気代だけ。利用量が増えても追加コストはかかりません。
3. まず試すのは無料。 OllamaもLM Studioも無料です。今のPCでも小型モデルなら動きます。
「セキュリティが心配でAI活用に踏み出せない」という状態が、もっともリスクの高い選択かもしれません。ローカルLLMという選択肢を知った今日が、その一歩を踏み出す最良のタイミングです。

コメント