ローカルLLM×マルチモーダル実践ガイド【2026年版】|Llava・Qwen2.5-VL・Gemma 3をOllamaで動かして社内の画像・PDF・図面を完全オフラインで読み取る——「見せるAI」をクラウドに出さずに使う方法

  1. はじめに——「画像を読めるAI」をクラウドに出さずに使いたい
  2. ローカルVLM(Vision-Language Model)とは何か
    1. VLMの基本的な仕組み
    2. なぜ「ローカル」で動かすのか
  3. 2026年版 ローカルVLMモデル比較——どれを選ぶべきか
    1. 主要モデル一覧
    2. 業務用途別おすすめモデル
  4. Ollamaセットアップ手順——VLMを動かすまでの最短ルート
    1. ステップ1:Ollamaのインストール
    2. ステップ2:VLMモデルのダウンロード
    3. ステップ3:画像を入力してテスト
  5. PythonからVLMを呼び出す——業務自動化への第一歩
    1. 基本的な呼び出しコード
    2. 請求書読み取りの自動化スクリプト(実用例)
    3. REST APIを使った呼び出し(他言語・他システム連携用)
  6. AnythingLLMからVLMを使う——ノーコードで画像+RAGを統合
    1. AnythingLLMでVLMを使うメリット
    2. セットアップ手順
  7. 業務シナリオ別プロンプト集——コピペで使える実践テンプレート
    1. シナリオ1:経理——レシート・請求書のデータ化
    2. シナリオ2:製造業——外観検査写真の異常検出
    3. シナリオ3:不動産——間取り図の情報抽出
    4. シナリオ4:総務・法務——契約書スキャン画像のサマリー作成
    5. シナリオ5:小売・EC——商品写真からの説明文自動生成
  8. ハードウェア要件と性能チューニング
    1. 推奨ハードウェア構成
    2. 性能を改善するポイント
  9. 注意点とローカルVLMの限界
    1. 精度の限界
    2. 運用上の注意
  10. よくある質問(Q&A)
    1. Q1. GPUがないPCでもVLMは動かせる?
    2. Q2. Qwen2.5-VLは中国製モデルだが、セキュリティ上の問題はないか?
    3. Q3. PDF文書をそのままVLMに入力できる?
    4. Q4. VLMとOCR専用ツール(Tesseract等)はどう使い分ける?
    5. Q5. 複数枚の画像を一度に処理できる?
  11. まとめ——「見せるAI」をクラウドに出さない選択肢がここにある
  12. 参考リンク

はじめに——「画像を読めるAI」をクラウドに出さずに使いたい

製造業の外観検査写真、不動産の図面、経理のレシートや請求書——業務で扱う画像やPDFには、社外に出せない情報が大量に含まれています。

クラウドAPIのGPT-4oやClaude Visionを使えば高精度な画像認識は可能ですが、「この画像をクラウドに送信して大丈夫か?」という懸念が常につきまといます。特に機密性の高い書類や個人情報を含む画像は、社外のサーバーに送ること自体がセキュリティポリシー上許容されないケースも多いでしょう。

そこで注目されているのが、VLM(Vision-Language Model:視覚言語モデル)のローカル実行です。2025年以降、Qwen2.5-VL、Gemma 3、LLaVAといったオープンソースのマルチモーダルモデルが急速に進化し、Ollamaを使えば自社のPC1台で、完全オフラインの画像認識AIを動かせるようになりました。

本記事では、モデル選定からOllamaでのセットアップ、Python・AnythingLLMからの呼び出し、業務シナリオ別のプロンプト設計まで、ローカルVLMの実践ガイドを一気通貫で解説します。

関連記事:ローカルLLMの基本概念やメリットをまだ把握していない方は、まず「ローカルLLM入門ガイド」からご覧ください。


ローカルVLM(Vision-Language Model)とは何か

VLMの基本的な仕組み

VLMとは、テキストだけでなく画像も入力として受け取り、画像の内容を理解した上でテキストで回答できるAIモデルのことです。「マルチモーダルモデル」や「ビジョンモデル」とも呼ばれます。

内部的には、画像をビジョンエンコーダー(Vision Transformer等)で特徴量に変換し、その特徴量をテキストと一緒に大規模言語モデル(LLM)に入力する仕組みです。つまり、VLMは「目(ビジョンエンコーダー)」と「脳(LLM)」の2つのコンポーネントで構成されています。

なぜ「ローカル」で動かすのか

ローカルVLMの最大のメリットは以下の3点です。

メリット説明
データが外部に出ない画像データはすべて自社のPC内で処理されるため、クラウドへの送信が不要。機密図面、個人情報を含む書類、医療画像なども安心して処理できる
通信コストゼロAPI利用料が発生しない。大量の画像を処理するバッチ業務では、クラウドAPIと比較して大幅なコスト削減が可能
オフラインで動作インターネット接続なしで動作するため、ネットワーク環境が制限された工場や現場でも利用可能

関連記事:マルチモーダルAIの業務活用シナリオ全般については「マルチモーダルAI業務活用ガイド」で詳しく解説しています。


2026年版 ローカルVLMモデル比較——どれを選ぶべきか

2026年3月時点でOllamaから利用できる主要なVLMを比較します。

主要モデル一覧

モデル開発元パラメータサイズVRAM目安(Q4量子化)コンテキスト長特徴
Qwen2.5-VLAlibaba(通義千問)3B / 7B / 72B3B: 約3GB / 7B: 約6GB / 72B: 約40GB128K文書・表・図の理解に特に強い。請求書やフォームの構造化出力、バウンディングボックスによる物体位置特定に対応。7Bモデルが性能とサイズのバランスに優れる
Gemma 3Google DeepMind4B / 12B / 27B4B: 約3GB / 12B: 約8GB / 27B: 約16GB128K140以上の言語に対応。スライディングウィンドウアテンションによりメモリ効率が高い。シングルGPUで動作する最も高性能なオープンモデルの一つ。1Bモデルはテキスト専用なので注意
LLaVA 1.6LLaVA Team7B / 13B / 34B7B: 約5GB / 13B: 約9GB / 34B: 約20GB4K〜32KVLMの先駆け的モデル。高解像度画像に対応し、テキスト認識と論理推論が改善。コミュニティの蓄積が豊富で参考資料が多い
Llama 3.2 VisionMeta11B / 90B11B: 約8GB / 90B: 約50GB128KMetaのLlamaファミリーのビジョン対応版。汎用的な画像理解に強いが、文書OCRではQwen2.5-VLに劣る傾向
MiniCPM-V 2.6OpenBMB / 清華大学8B約5.5GB32Kサイズの割に高性能。複数画像の同時処理やビデオフレームの理解に対応。エッジデバイス向けに最適化

業務用途別おすすめモデル

業務用途おすすめモデル理由
請求書・レシートのOCR+構造化Qwen2.5-VL(7B)DocVQAベンチマークで95.7のスコア。表やフォームの構造化JSON出力に対応しており、経理業務との親和性が最も高い
製造業の外観検査写真の分析Gemma 3(12B)汎用的な画像理解力が高く、128Kの長いコンテキストで複数枚の比較分析も可能。日本語対応も良好
不動産の図面・間取り図の読み取りQwen2.5-VL(7B)図やレイアウトの空間的理解に強く、バウンディングボックスで領域を特定できる
日本語ドキュメントの汎用分析Gemma 3(12B)140以上の言語をサポートし、日本語のテキスト認識と理解で安定した性能
軽量環境(ノートPC)での利用Gemma 3(4B)またはQwen2.5-VL(3B)3〜4GB程度のVRAMで動作し、Apple Silicon搭載のMacBookでも実用的な速度

関連記事:テキスト処理LLMのモデル選定については「ローカルLLMモデル選定ガイド」をご覧ください。


Ollamaセットアップ手順——VLMを動かすまでの最短ルート

ステップ1:Ollamaのインストール

Ollamaは公式サイト(https://ollama.com/)からダウンロードできます。macOS、Windows、Linuxに対応しています。

■ macOSの場合
公式サイトからzipをダウンロード → 解凍 → ApplicationsフォルダにドラッグしてCLIを有効化

■ Windowsの場合
公式サイトからインストーラー(.exe)をダウンロード → 実行

■ Linuxの場合
curl -fsSL https://ollama.com/install.sh | sh

インストール後、ターミナルで以下のコマンドを実行してバージョンを確認します。

ollama --version

重要:Qwen2.5-VLを利用するにはOllama 0.7.0以上が必要です。バージョンが古い場合はアップデートしてください。

ステップ2:VLMモデルのダウンロード

利用したいモデルをpullコマンドでダウンロードします。

# Qwen2.5-VL(7B、推奨)
ollama pull qwen2.5vl

# Qwen2.5-VL(3B、軽量版)
ollama pull qwen2.5vl:3b

# Gemma 3(4B、デフォルト)
ollama pull gemma3

# Gemma 3(12B)
ollama pull gemma3:12b

# LLaVA 1.6(7B)
ollama pull llava

# Llama 3.2 Vision(11B)
ollama pull llama3.2-vision

ダウンロード容量の目安:Qwen2.5-VL 7Bで約6GB、Gemma 3 4Bで約3GB。初回のみダウンロードが必要で、以降はローカルから即座に起動できます。

ステップ3:画像を入力してテスト

CLIから直接画像を入力してテストできます。

# CLIで対話モードを起動
ollama run qwen2.5vl

# 対話モード内で画像パスを指定
>>> /Users/username/Desktop/invoice.jpg この請求書の金額と日付を読み取ってください

画像ファイルのパスを入力し、続けてプロンプトを書くだけで、モデルが画像を分析して回答を返します。Ollamaの2025年5月のマルチモーダルエンジン刷新により、複数画像の同時入力にも対応しています。

# 複数画像の同時入力例(Gemma 3)
ollama run gemma3:12b
>>> /path/to/image1.jpg /path/to/image2.jpg この2枚の製品写真を比較して、外観上の違いを列挙してください

関連記事:Mac miniでのローカルLLM環境構築の詳細は「Mac mini ローカルLLM構築ガイド」をご覧ください。


PythonからVLMを呼び出す——業務自動化への第一歩

CLIでの手動テストの次は、Pythonスクリプトからの呼び出しです。これにより、大量の画像を自動処理するバッチ処理や、社内システムとの連携が可能になります。

基本的な呼び出しコード

まず、Ollama公式Pythonライブラリをインストールします。

pip install ollama

基本的な画像分析コードは以下の通りです。

import ollama

response = ollama.chat(
    model='qwen2.5vl',
    messages=[{
        'role': 'user',
        'content': 'この画像の内容を日本語で説明してください。',
        'images': ['./sample_image.jpg']
    }]
)

print(response['message']['content'])

請求書読み取りの自動化スクリプト(実用例)

経理業務でよくある「紙の請求書をスキャンしてデータ化する」処理の自動化例です。

import ollama
import json
import glob

def extract_invoice_data(image_path):
    """請求書画像から構造化データを抽出する"""
    response = ollama.chat(
        model='qwen2.5vl',
        messages=[{
            'role': 'user',
            'content': '''この請求書画像から以下の情報をJSON形式で抽出してください。
{
  "発行日": "",
  "請求書番号": "",
  "発行元会社名": "",
  "合計金額": "",
  "税額": "",
  "支払期限": "",
  "明細": [{"品目": "", "数量": "", "単価": "", "金額": ""}]
}
読み取れない項目は"不明"としてください。''',
            'images': [image_path]
        }]
    )
    return response['message']['content']

# フォルダ内の全請求書画像を一括処理
for image_file in glob.glob('./invoices/*.jpg'):
    print(f"処理中: {image_file}")
    result = extract_invoice_data(image_file)
    print(result)
    print("---")

REST APIを使った呼び出し(他言語・他システム連携用)

Ollamaはデフォルトで http://localhost:11434 にREST APIを公開しています。Pythonに限らず、どの言語・システムからでもHTTPリクエストで呼び出せます。

# curlでの呼び出し例(画像はBase64エンコード)
curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5vl",
  "messages": [{
    "role": "user",
    "content": "この画像を説明してください。",
    "images": ["(Base64エンコードされた画像データ)"]
  }]
}'

AnythingLLMからVLMを使う——ノーコードで画像+RAGを統合

AnythingLLMは、OllamaをバックエンドとしてGUIベースでLLMを操作できるオーケストレーションツールです。コーディング不要で画像のドラッグ&ドロップ入力やRAG(社内文書検索)との組み合わせが可能です。

AnythingLLMでVLMを使うメリット

機能説明
画像のドラッグ&ドロップチャット画面に画像をドラッグするだけでVLMに入力できる。ITに詳しくないスタッフでも利用可能
RAGとの統合社内マニュアルや仕様書をベクトルDBに格納し、画像分析結果と組み合わせた回答が可能。例:「この部品の写真を見て、マニュアルの該当箇所を教えて」
マルチユーザー・ワークスペース部署ごとにワークスペースを分け、それぞれ異なるモデルやドキュメントを割り当てられる
Webウィジェット社内ポータルにチャットウィジェットを埋め込み、画像付きの問い合わせ窓口として利用可能

セットアップ手順

■ 1. AnythingLLMのインストール
  公式サイト(https://anythingllm.com/)からデスクトップ版をダウンロード

■ 2. LLMプロバイダーとしてOllamaを選択
  設定 → LLM Preference → Ollamaを選択
  サーバーURL: http://localhost:11434(デフォルト)

■ 3. ビジョン対応モデルを選択
  モデル一覧からqwen2.5vl、gemma3等のビジョン対応モデルを選択

■ 4. ワークスペースを作成してドキュメントをアップロード
  RAGを使う場合は、関連する社内文書(PDF・テキスト)をワークスペースにドラッグ&ドロップ

■ 5. チャット画面で画像を入力
  チャット入力欄に画像をドラッグ&ドロップまたはクリップボードから貼り付け

関連記事:RAGの構築手順や最適化については「ローカルLLM×RAG統合ガイド」をご覧ください。


業務シナリオ別プロンプト集——コピペで使える実践テンプレート

以下は、業種・業務ごとにそのまま使えるプロンプトテンプレートです。モデルにはQwen2.5-VL(7B)またはGemma 3(12B)を推奨します。

シナリオ1:経理——レシート・請求書のデータ化

この画像はレシートまたは請求書です。以下の情報をJSON形式で抽出してください。

{
  "店舗名または発行元": "",
  "日付": "YYYY-MM-DD形式",
  "合計金額": "数値のみ(円記号不要)",
  "消費税額": "数値のみ",
  "支払方法": "現金/クレジットカード/その他",
  "主な品目": ["品目1", "品目2", "品目3"]
}

読み取れない項目は null としてください。
推測で補完せず、画像に記載されている情報のみを抽出してください。

シナリオ2:製造業——外観検査写真の異常検出

この画像は製品の外観検査写真です。以下の観点で分析してください。

1. 表面に傷、ヒビ、変色、汚れなどの異常が見られるか
2. 異常がある場合、その位置(画像内の上下左右)と大きさの概算
3. 異常の深刻度(軽微 / 要確認 / 重大)
4. 総合判定(合格 / 要再検査 / 不合格)

回答は以下のJSON形式で出力してください。
{
  "異常の有無": "あり/なし",
  "異常箇所": [{"位置": "", "種類": "", "深刻度": ""}],
  "総合判定": "",
  "補足コメント": ""
}

シナリオ3:不動産——間取り図の情報抽出

この画像は物件の間取り図です。以下の情報を読み取ってください。

1. 間取りタイプ(例:2LDK、3DK等)
2. 各部屋の名称と広さ(帖数または㎡)
3. バルコニー・ベランダの有無と方角
4. 水回り(キッチン・バス・トイレ)の配置
5. 玄関の位置
6. 特記事項(ウォークインクローゼット、床暖房表記など)

読み取れない情報は「図面からは判読不可」と明記してください。

シナリオ4:総務・法務——契約書スキャン画像のサマリー作成

この画像はスキャンされた契約書のページです。以下の情報を抽出してください。

1. 契約書のタイトル
2. 契約当事者(甲・乙)
3. 契約日
4. 契約期間
5. 主要な条項のサマリー(各条項を1〜2文で要約)
6. 特に注意すべき条項(違約金、解除条件、競業避止など)

注意:法的アドバイスではなく、文書の内容の読み取りと整理のみを行ってください。

シナリオ5:小売・EC——商品写真からの説明文自動生成

この画像は販売用の商品写真です。ECサイトの商品説明文を作成してください。

条件:
- 文字数:150〜200文字
- トーン:カジュアルで親しみやすい
- 含めるべき情報:色、素材感、サイズ感、使用シーン
- 最後に商品のアピールポイントを1文で

写真から確認できる情報のみで記述し、推測は「〜のように見えます」と表現してください。

ハードウェア要件と性能チューニング

推奨ハードウェア構成

利用レベル構成例対応モデル処理速度の目安
エントリーMacBook Air / Pro(M1/M2、16GB RAM)Qwen2.5-VL 3B、Gemma 3 4B画像1枚あたり10〜30秒
スタンダードMac mini M4 Pro(48GB RAM)またはRTX 4070搭載PC(12GB VRAM)Qwen2.5-VL 7B、Gemma 3 12B画像1枚あたり5〜15秒
ハイエンドRTX 4090搭載PC(24GB VRAM)またはMac Studio M2 UltraGemma 3 27B、Llama 3.2 Vision 11B画像1枚あたり3〜8秒

性能を改善するポイント

■ 画像サイズを適切にリサイズする
 → 多くのVLMは内部で画像をリサイズするが、事前に長辺1,024px程度に縮小しておくと
  読み込み時間が短縮される

■ Q4量子化モデルを使う
 → Ollamaのデフォルトダウンロードは通常Q4量子化版。
  精度を優先する場合はQ8版(例:ollama pull qwen2.5vl:7b-instruct-q8_0)も選択可能
  だが、VRAM消費は約2倍になる

■ GPUオフロードを確認する
 → NVIDIA GPUの場合、ollama ps コマンドでGPU利用状況を確認
 → Apple SiliconのMacでは自動的にMetal Performance Shadersが利用される

■ コンテキスト長を制限する
 → 長いコンテキストが不要な場合、環境変数 OLLAMA_NUM_CTX で制限するとメモリ節約に

注意点とローカルVLMの限界

ローカルVLMは強力ですが、万能ではありません。現時点での限界を正直にお伝えします。

精度の限界

項目クラウドAPI(GPT-4o / Claude Vision)ローカルVLM(7B〜12Bクラス)
手書き日本語の認識高精度やや不安定(特に崩し字)
複雑な表の構造化ほぼ正確セル結合や多段ヘッダーで誤りが出る場合あり
写真中の微細な欠陥検出高感度明確な異常は検出可能だが、微妙な色むらや微小な傷は見逃す場合あり
ハルシネーション少ない比較的多い。読み取れない文字を「推測」で補完する傾向がある

運用上の注意

  • VLMの出力を最終判断にしない。特に外観検査や契約書の読み取りでは、VLMの出力は「一次スクリーニング」として扱い、最終判断は人間が行うワークフローを設計してください。
  • ハルシネーション対策として「読み取れない場合はnullと回答せよ」をプロンプトに明記する。これにより、モデルが無理に補完するリスクを低減できます。
  • モデルの更新に注意。Ollamaのモデルは頻繁にアップデートされます。本番環境では特定バージョンを固定して運用し、更新時は検証環境でテストしてから切り替えてください。
  • PDFの直接入力には一工夫必要。現時点のOllama VLMはPDFを直接読めません。PDFをページ単位でPNG/JPEG画像に変換してから入力する必要があります。Pythonの pdf2image ライブラリ等で自動変換が可能です。

よくある質問(Q&A)

Q1. GPUがないPCでもVLMは動かせる?

はい、CPU実行も可能です。ただし処理速度は大幅に遅くなります(画像1枚あたり数分かかる場合があります)。実用的な速度で使うには、Apple Silicon搭載のMac(M1以降)またはNVIDIA GPUを搭載したPCを推奨します。Intel CPUのみのPCでは、Qwen2.5-VL 3BやGemma 3 4B等の小型モデルに限定して試用可能です。

Q2. Qwen2.5-VLは中国製モデルだが、セキュリティ上の問題はないか?

ローカル実行の場合、モデルはダウンロード後にPC内で完全にオフライン動作します。推論時にデータが外部に送信されることはありません。ただし、モデルファイルのダウンロード元の信頼性は確認すべきです。Ollamaの公式ライブラリ経由でのダウンロードであれば、改ざんリスクは低いと考えられます。組織のセキュリティポリシーで中国製モデルが禁止されている場合は、Gemma 3(Google)やLlama 3.2 Vision(Meta)を選択してください。

Q3. PDF文書をそのままVLMに入力できる?

現時点のOllamaのVLMは、画像ファイル(JPEG、PNG等)の入力に対応していますが、PDFの直接入力はサポートしていません。PDFを処理するには、ページ単位で画像に変換する前処理が必要です。Pythonの pdf2image ライブラリや、macOSの sips コマンドで自動変換できます。AnythingLLMはPDFのテキスト抽出(RAG用)に対応していますが、これはVLMによる画像認識ではなくテキスト抽出エンジンによる処理です。

Q4. VLMとOCR専用ツール(Tesseract等)はどう使い分ける?

OCR専用ツールは「文字を正確にテキスト化する」ことに特化しています。一方、VLMは「画像の内容を理解して自然言語で回答する」ことが得意です。定型フォーマットの帳票で文字抽出精度が最重要ならOCR専用ツール、画像の文脈理解や構造化出力が必要ならVLMが適しています。両者を組み合わせるアプローチ(OCRで文字を抽出→VLMで構造化・要約)も有効です。

Q5. 複数枚の画像を一度に処理できる?

Ollamaの2025年5月のマルチモーダルエンジン刷新により、Gemma 3等のモデルでは1つのプロンプト内で複数画像の同時入力が可能になっています。CLIでは画像パスをスペース区切りで並べ、Python APIでは images リストに複数のパスを含めます。ただし、画像枚数が増えるとVRAM消費と処理時間が増大するため、同時入力は4〜5枚程度を目安にしてください。


まとめ——「見せるAI」をクラウドに出さない選択肢がここにある

2026年のローカルVLMは、「実験的なおもちゃ」から「業務で使える実用ツール」へと確実に進化しています。

本記事のポイントを3つに絞ります。

1. Qwen2.5-VL(7B)とGemma 3(12B)が実用の中心。文書OCR・構造化出力にはQwen2.5-VL、汎用的な画像理解と日本語対応にはGemma 3を選択。どちらもOllamaでワンコマンドでセットアップ可能。

2. まずはCLIで試し、Pythonで自動化し、AnythingLLMで全社展開する。段階的に導入することで、技術的なハードルとコストを最小限に抑えられます。

3. 精度の限界を理解した上で「一次スクリーニング」として使う。ローカルVLMの出力は人間のレビューと組み合わせることで、安全かつ効率的なワークフローが実現します。

機密画像をクラウドに送らずに済む——それだけで、AIの活用範囲は大きく広がります。今日からOllamaをインストールして、自社の画像やPDFで試してみてください。


参考リンク


免責事項:本記事は2026年3月時点の公開情報に基づく情報提供です。各AIモデルの性能は利用環境やバージョンにより異なります。業務での利用にあたっては、自社のデータと要件で十分なテストを行った上で導入判断してください。モデルやツールのバージョンアップにより、本記事の手順やコマンドが変更される可能性があります。

コメント

タイトルとURLをコピーしました