はじめに——「テキストしか検索できないRAG」の限界
「RAGを導入したのに、図面やスライドの中身が検索に引っかからない」——こんな悩みを抱えていませんか?
2026年現在、多くの企業がRAG(検索拡張生成)を導入し、社内ドキュメントをAIで検索・活用する環境を構築しています。しかし、現実の業務資料はテキストだけで成り立っているわけではありません。製造業の設計図面、不動産の物件写真、営業部門のスライド資料、品質管理の検査画像——こうした「テキスト以外の情報」こそが、現場にとって最も価値のあるデータであることが少なくありません。
従来のテキストベースRAGでは、PDF内の図表やグラフ、画像に埋め込まれた情報を拾うことができず、「肝心な部分」がAIの回答から抜け落ちてしまうという構造的な問題がありました。
この記事では、テキストだけでなく画像・PDF図面・スライド・動画キャプションまでをベクトル化して横断検索できる「マルチモーダルRAG」の設計と実装方法を、中小企業の具体的なユースケースとともに解説します。
この記事の対象読者:
既存のテキストベースRAGを構築済み(または検討中)で、画像や図面も検索対象に加えたい企業のDX推進担当者・情報システム部門の方。ローカルLLMやクラウドAPIを使ったRAG構築の基本知識がある方を想定しています。
この記事でわかること:
マルチモーダルRAGの3つの実装アプローチの違い、ビジョンエンベディング(CLIP/ColPali/ColQwen2)の仕組みと選び方、中小企業の具体的ユースケース5選、そしてDify・LangChainなど既存ツールでの構築手順です。
「ローカルLLM×マルチモーダル実践ガイド」との違い:
当サイトの既存記事「ローカルLLM×マルチモーダル実践ガイド」は、「画像をLLMに見せて内容を読み取る」(=LLMの入力側にマルチモーダル機能を使う)話です。一方、本記事は「画像をベクトル化して検索可能にする」(=検索側にマルチモーダル機能を使う)話です。前者は「1枚の画像について質問する」場面、後者は「数千〜数万の画像・文書の中から該当するものを探し出す」場面で力を発揮します。
前提知識——マルチモーダルRAGとは何か
従来RAGの仕組み(テキストベース)
通常のRAGは、テキストデータをエンベディングモデルで数値ベクトルに変換し、ベクトルデータベースに格納します。ユーザーが質問すると、その質問もベクトル化され、類似度の高い文書チャンクが検索(Retrieval)されます。検索結果をLLMに渡して回答を生成(Generation)する——これがRAGの基本フローです。
この仕組みではテキストしか扱えないため、PDF内の図表、写真、フローチャート、グラフなどの「視覚的な情報」は検索対象になりません。
マルチモーダルRAGの基本コンセプト
マルチモーダルRAGは、テキストに加えて画像・図表・スライドなどの複数の情報形式(モダリティ)を検索・活用できるように拡張されたRAGシステムです。
ポイントは、テキストと画像を同じベクトル空間に配置することです。テキストで「青い外壁の3LDKマンション」と検索すると、その条件に合致する物件写真がベクトルの類似度計算でヒットする——これが「見えるRAG」の本質です。
「LLMで画像を読む」との違い
混同されやすいのが、GPT-4oやClaude 3.5 SonnetなどのマルチモーダルLLMに画像を直接入力して内容を読み取るアプローチです。これは1枚ずつの画像に対して質問する場面では有効ですが、数千〜数万の画像を横断検索する場面では実用的ではありません(すべての画像をLLMに送るわけにはいかないため)。
マルチモーダルRAGは、大量の画像・文書を事前にベクトル化してインデックス化しておくことで、リアルタイムの検索を可能にします。
マルチモーダルRAGの3つの実装アプローチ
マルチモーダルRAGを構築するには、主に3つのアプローチがあります。それぞれにメリット・デメリットがあり、ユースケースに応じた選択が重要です。
アプローチ1:すべてのモダリティを同一ベクトル空間に埋め込む
CLIPのようなマルチモーダルエンベディングモデルを使い、テキストと画像を共通のベクトル空間にマッピングします。テキストで検索しても画像がヒットし、画像で検索してもテキストがヒットする「クロスモーダル検索」が実現します。
メリット:テキストと画像をシームレスに横断検索できる。追加のテキスト変換処理が不要。
デメリット:マルチモーダル対応のエンベディングモデルが必要。テキスト専用モデルに比べてテキスト検索精度がやや劣る場合がある。
適したユースケース:物件写真検索、商品画像検索、設計図面の類似検索。
アプローチ2:すべてのモダリティをテキストに変換(キャプション化)
画像をマルチモーダルLLM(GPT-4o、Geminiなど)に説明させてテキスト化し、そのテキストを通常のテキストエンベディングでベクトル化する方法です。「画像の説明文」をインデックスに入れることで、テキスト検索の仕組みをそのまま活用できます。
メリット:既存のテキストベースRAGパイプラインをほぼそのまま流用可能。テキスト検索の精度が高い。
デメリット:画像→テキスト変換の精度に依存する。図面の細かなディテールや色情報が失われることがある。変換コスト(API呼び出し回数)がかかる。
適したユースケース:既存RAG環境への最小限の追加、テキストでの検索精度を重視する場面。
アプローチ3:ドキュメントページを丸ごと画像としてエンベディング(ColPali方式)
2024年に発表されたColPaliは、PDFや書類のページを「画像」としてそのまま取り込み、ビジョン言語モデル(VLM)を使って、テキスト・レイアウト・図表・チャートを含む全情報をマルチベクトルとしてエンベディングします。OCRや画像抽出といった前処理パイプラインが不要になるのが最大の特徴です。
後継モデルのColQwen2(Qwen2-VLベース)は日本語にも対応しており、2026年現在、実用的なマルチモーダルドキュメント検索の本命と目されています。さらにColQwen2.5(Qwen2.5-VLベース)やColSmolなど、モデルの選択肢も急速に広がっています。
メリット:OCR不要でページ全体の視覚情報を検索可能。レイアウト・図表・テキストを統合的に扱える。
デメリット:ページ単位のエンベディングのため、粒度の細かい検索にはやや不向き。モデルのGPU要件が比較的高い。
適したユースケース:PDF図面検索、社内報告書の横断検索、スライド資料の内容検索。
3つのアプローチの比較まとめ
| 比較項目 | アプローチ1(同一空間エンベディング) | アプローチ2(キャプション化) | アプローチ3(ColPali方式) |
|---|---|---|---|
| 代表的モデル | CLIP, Amazon Titan Multimodal Embeddings, Jina CLIP v2 | GPT-4o + text-embedding-3-large | ColPali, ColQwen2, ColQwen2.5 |
| 前処理の複雑さ | 低い | 中程度(LLM呼び出しが必要) | 非常に低い(ページ画像化のみ) |
| テキスト検索精度 | やや劣る場合あり | 高い | 高い(特にドキュメント検索) |
| 画像検索精度 | 高い | 画像→テキスト変換精度に依存 | 高い(レイアウト情報も保持) |
| 日本語対応 | CLIPは日本語が弱い(多言語CLIP推奨) | LLM依存(GPT-4o等は対応) | ColQwen2以降は対応 |
| GPU要件 | 低〜中 | 低(API利用の場合) | 中〜高 |
| おすすめ場面 | 画像中心の検索(EC、不動産) | 既存RAGへの最小追加 | PDF・書類中心の業務文書検索 |
ビジョンエンベディングモデルの選び方【2026年版】
マルチモーダルRAGの検索精度を左右する最大の要素が、エンベディングモデルの選択です。2026年時点で実用的な主要モデルを整理します。
CLIP(OpenAI)
2021年にOpenAIが発表した、テキストと画像を同じベクトル空間にマッピングする先駆的モデルです。テキストクエリで画像を検索する「ゼロショット画像分類」の基盤技術として広く普及しました。
ただし、CLIPはテキストクエリに対してテキストドキュメントの類似度を過大評価する傾向があり、テキストと画像が混在する環境では画像が検索結果から押し出されるケースが報告されています。また、日本語テキストを含む画像の検索精度にも課題があります。
判定:画像中心の類似検索には引き続き有効ですが、テキストと画像の混在環境やドキュメント検索にはColPali系が優位です。
ColPali / ColQwen2 / ColQwen2.5
ColPaliファミリーは、ドキュメントの各ページを画像としてそのまま取り込み、ColBERTスタイルのマルチベクトル表現を生成する検索モデルです。OCRやレイアウト解析なしに、テキスト・レイアウト・図表をまとめて検索できます。
ColQwen2はQwen2-VLを基盤とし、日本語を含む多言語に対応。ViDoReベンチマークでColPaliから+5 nDCG@5ポイント改善しています。2025年後半にはQwen2.5-VLベースのColQwen2.5もリリースされ、さらなる精度向上が報告されています。
対応ベクトルDBも充実しており、Vespa、Qdrant、Weaviate、Elasticsearchなどの主要DBでの利用例が公開されています。
判定:PDF・書類中心のマルチモーダルRAGにおける2026年時点の第一選択。中小企業がドキュメント検索に使うなら、まずこれを検討すべきです。
Amazon Titan Multimodal Embeddings G1
AWSのAmazon Bedrockで利用可能なマネージドのマルチモーダルエンベディングモデルです。テキスト・画像・テキスト+画像の3パターンでエンベディングを生成でき、Amazon Bedrock Knowledge Basesとの統合も進んでいます。
判定:AWSを既に使っている企業には導入しやすい選択肢。マネージドサービスのため、GPUの運用管理が不要です。
Jina Embeddings v4 / その他のマルチモーダル対応モデル
Jina AIのエンベディングモデルやVDR-2B-Multiなど、マルチモーダル対応のエンベディングモデルが増えています。無料のAPIキーを提供しているプロバイダもあり、「とりあえず試してみたい」場合の選択肢として有用です。
モデル選択のフローチャート
Q1. 検索対象は主にPDF・書類か、それとも写真・商品画像か?
PDF・書類が中心 → ColQwen2 / ColQwen2.5 を検討
写真・商品画像が中心 → CLIP系モデル / Amazon Titan Multimodal を検討
Q2. AWSを既に利用しているか?
はい → Amazon Titan Multimodal Embeddings G1 + Amazon Bedrock Knowledge Bases を検討
いいえ → 次の質問へ
Q3. GPUリソースは確保できるか?
はい → ColQwen2.5をローカルまたはクラウドGPUで運用
いいえ → Amazon Titan Multimodal(マネージド)またはJina API(無料枠あり)
中小企業のユースケース5選——「見えるRAG」が効く現場
マルチモーダルRAGは、テキストだけでは検索しきれなかった業務情報を「見える化」する技術です。以下に、中小企業で特に効果が高いユースケースを紹介します。
ユースケース1:製造業——設計図面の類似検索
課題:過去に作成した数千枚の設計図面(CAD図面のPDF/画像)から、類似する部品や形状を探すのに、ベテラン技術者の記憶と手作業に頼っている。
マルチモーダルRAGでの解決:ColQwen2でPDF図面をページ単位でエンベディング。「M8ボルトの固定穴が4箇所あるフランジ」のようなテキスト検索で該当図面がヒットする。また、新規図面の画像を入力して過去の類似図面を検索することも可能。
期待効果:図面検索時間の大幅削減、ベテラン知見のシステム化、類似部品の再利用率向上。
ユースケース2:不動産——物件写真の条件検索
課題:物件データベースにテキスト条件(間取り・面積・価格)は登録されているが、「明るいリビング」「和モダンな外観」といった感性的な条件では検索できない。
マルチモーダルRAGでの解決:CLIPまたはAmazon Titan Multimodalで物件写真をベクトル化。テキストでの感性検索と画像での類似検索の両方が可能に。「南向きの大きな窓があるリビング」で該当写真がヒットする。
期待効果:顧客ニーズに合致した物件提案の迅速化、Web上での物件検索体験の向上。
ユースケース3:建設・設備管理——点検報告書の横断検索
課題:現場で撮影した写真付きの点検報告書(PDF)が年間数百件蓄積されるが、テキスト検索では写真に映っている亀裂や劣化の状態を探せない。
マルチモーダルRAGでの解決:ColQwen2で点検報告書のPDFを丸ごとエンベディング。「外壁のひび割れ写真がある報告書」で該当ページが検索可能に。LLMと組み合わせて「過去3年間のひび割れ報告の傾向」を要約させることもできる。
期待効果:過去事例の迅速な参照、予防保全の判断支援。
ユースケース4:小売・EC——商品画像の類似検索
課題:顧客が「こういう雰囲気の服が欲しい」と参考画像を見せても、テキストベースの商品検索では対応できない。
マルチモーダルRAGでの解決:CLIP系モデルで商品画像をベクトル化。顧客が参考画像をアップロードすると、類似商品が検索結果に表示される。テキストでも「ネイビーのストライプシャツ」で該当商品がヒット。
期待効果:購買体験の向上、コンバージョン率の改善。
ユースケース5:士業・コンサル——スライド資料のナレッジ検索
課題:過去の提案書やプレゼン資料(PowerPoint/PDF)に有用なフレームワークや分析結果が埋もれているが、テキスト抽出だけでは図表やチャートの内容が失われる。
マルチモーダルRAGでの解決:ColQwen2でスライドをページ画像としてエンベディング。「市場シェアの推移グラフ」「3C分析のフレームワーク」などで該当スライドが検索可能に。
期待効果:提案書作成時間の短縮、組織的なナレッジ活用。
実装ガイド——Difyで始めるマルチモーダルRAG
2025年12月にリリースされたDify v1.11.0でマルチモーダルRAGがサポートされ、ノーコードに近い環境でマルチモーダルRAGを構築できるようになりました。ここでは、最も手軽な構築手順を紹介します。
前提条件
Dify v1.11.0以降がインストールされていること。画像対応のエンベディングモデル(Vision対応モデル)のAPIキーが設定されていること。モデル選択画面で名前に「Vision」と付いているモデルを選びます。
ステップ1:ナレッジベースの作成
Difyのナレッジベース機能で、新しいナレッジベースを作成します。ここで重要なのは、エンベディングモデルとしてVision対応モデルを選択することです。テキスト専用のエンベディングモデル(OpenAIのtext-embedding-3-largeなど)では画像を処理できません。
ステップ2:ドキュメントのアップロード
PDFやスライドをアップロードします。Difyは内部的に画像を抽出し、Vision対応エンベディングモデルで画像とテキストの両方をベクトル化します。
ステップ3:チャットボットの作成
ナレッジベースを参照先として設定したチャットボットを作成します。ユーザーが質問すると、テキストだけでなく関連する画像も検索結果として取得され、マルチモーダルLLM(GPT-4o等)がテキストと画像の両方を参照して回答を生成します。
注意点:「意外な落とし穴」
Difyのマルチモーダルナレッジベースでは、基本的にSingle-Vector方式で検索が行われます。つまり、アプローチ1(同一ベクトル空間)に近い方式です。ColPali方式(アプローチ3)を使いたい場合は、現時点ではPythonでのカスタム実装が必要です。
実装ガイド——ColQwen2 + Qdrantでのカスタム構築
Difyで手軽に始めた後、より高精度なドキュメント検索が必要になった場合は、ColQwen2とベクトルDBを組み合わせたカスタム構築を検討しましょう。
全体アーキテクチャ
構成要素は以下の3つです。
1. エンベディング生成:ColQwen2(またはColQwen2.5)でPDFの各ページを画像化し、マルチベクトルエンベディングを生成します。
2. ベクトルDB:Qdrant、Vespa、Weaviateなど、マルチベクトル検索に対応したベクトルDBにエンベディングを格納します。
3. 検索+回答生成:ユーザーのクエリをColQwen2でエンベディングし、ベクトルDBでMaxSim(最大類似度)検索を実行。ヒットしたページ画像をマルチモーダルLLMに渡して回答を生成します。
構築のポイント
PDFの画像化:pdf2imageなどのライブラリでPDFの各ページをPNG/JPEG画像に変換します。ColQwen2は任意の解像度・アスペクト比をサポートしているため、リサイズ不要です。
エンベディングの生成:colpali-engineパッケージ(pip install colpali-engine)を使い、ページ画像からマルチベクトルを生成します。ColQwen2はページあたり最大768パッチのエンベディングを出力します。
トークンプーリング:HierarchicalTokenPoolerを使えば、マルチベクトルのシーケンス長を圧縮でき、ストレージと検索速度のバランスを調整できます。
検索の実行:ColBERTスタイルのMaxSim検索で、クエリの各トークンベクトルとドキュメントの各パッチベクトルの最大類似度を合算してスコアリングします。バイナリ表現を使ったハミング距離での近似検索で候補を絞り、上位候補に対して浮動小数点での精密なMaxSim計算を行う2段階リランキングが推奨されます。
GPU要件の目安
| モデル | パラメータ数 | 推奨GPU(推論) | 備考 |
|---|---|---|---|
| ColQwen2 v1.0 | 約2B | NVIDIA T4(16GB)以上 | bfloat16で動作 |
| ColQwen2.5 v0.2 | 約3B | NVIDIA A10(24GB)推奨 | 精度向上版 |
| ColQwen2.5-7B Multilingual | 約7B | NVIDIA A100(40GB)推奨 | 多言語高精度版 |
中小企業でコストを抑えたい場合は、ColQwen2 v1.0(2Bパラメータ)をT4 GPUのクラウドインスタンスで運用するのが現実的な出発点です。
セキュリティとデータ管理の注意点
マルチモーダルRAGでは、テキストだけでなく画像データも扱うため、セキュリティとデータ管理の考慮事項が追加されます。
画像データの取り扱い
設計図面や点検写真には機密情報が含まれることが多いため、エンベディング生成をクラウドAPIで行う場合はデータの送信先に注意が必要です。機密性の高い画像を扱う場合は、ローカル環境でのColQwen2運用を検討しましょう。
アクセス制御
テキストベースRAGと同様に、「誰がどの画像・文書にアクセスできるか」のアクセス制御が重要です。特にマルチテナント環境(複数部署・複数顧客で共有するシステム)では、ベクトルDBのメタデータフィルタリング機能を活用して、検索結果に表示される画像を適切に制限しましょう。
ストレージ容量の見積もり
マルチモーダルRAGでは、元画像ファイル+エンベディングベクトルの両方を保持する必要があるため、テキストベースRAGよりもストレージ要件が大きくなります。ColQwen2のマルチベクトル(ページあたり最大768ベクトル)は特にサイズが大きいため、トークンプーリングによる圧縮やバイナリ量子化の活用を検討しましょう。
導入ロードマップ——段階的に始める「見えるRAG」
マルチモーダルRAGは、いきなりすべてのドキュメントを対象にする必要はありません。段階的な導入を推奨します。
フェーズ1:小規模PoC(1〜2週間)
まず、最も効果が見込める1種類の文書(例:設計図面、物件写真)に絞って、少量のデータ(数十〜数百件)でDifyのマルチモーダルRAGを試します。テキスト検索との精度差を体感し、ビジネスインパクトを評価します。
フェーズ2:パイロット運用(1〜2ヶ月)
PoCで効果を確認したら、対象データを数千件規模に拡大します。ColQwen2でのカスタム構築を検討し、検索精度と応答速度を本番レベルに調整します。
フェーズ3:本番展開(2〜3ヶ月以降)
複数の文書種別を対象に拡大し、アクセス制御やログ管理を整備して全社展開します。
最初に取り組むべき領域の選び方
以下の条件を満たす領域から着手するのがおすすめです。
1. テキスト以外の情報(図表・写真・図面)が業務上の重要な意思決定に使われている
2. 「ファイルを開いて目視で確認する」手戻りが頻繁に発生している
3. 対象データが比較的定型的で、品質が安定している(手書きメモなどは後回し)
よくある質問(Q&A)
Q1. 既存のテキストベースRAGを捨てて作り直す必要がある?
いいえ。アプローチ2(キャプション化)を使えば、既存のテキストベースRAGパイプラインにマルチモーダルLLMでの画像テキスト変換を追加するだけで拡張できます。まずはこの方法で始め、精度に不満があればColPali系への移行を検討するのが現実的です。
Q2. 動画も検索対象にできる?
動画を直接エンベディングするモデルはまだ発展途上ですが、動画をフレーム画像に分割し、各フレームをCLIPやColQwen2でエンベディングする方法で疑似的な動画検索が可能です。また、動画の字幕・キャプションをテキストとしてエンベディングする方法もあります。
Q3. 手書き文書やFAX受信画像も検索できる?
ColQwen2はOCR不要で画像をエンベディングするため、手書き文書やFAX画像も理論的には検索対象にできます。ただし、手書き文字の認識精度は印刷文書に比べて低くなるため、重要度の高い手書き文書は別途OCR処理を併用することを推奨します。
Q4. 画像の検索結果をLLMの回答に含められる?
はい。検索でヒットした画像をマルチモーダルLLM(GPT-4o、Claude 3.5 Sonnet、Geminiなど)に入力することで、画像の内容を踏まえた回答を生成できます。DifyのマルチモーダルRAGでは、この連携が標準で組み込まれています。
Q5. CLIPとColQwen2はどちらを選ぶべき?
検索対象がPDFや業務文書中心ならColQwen2が優位です。CLIPはテキストクエリに対してテキストドキュメントの類似度を過大評価する傾向があり、テキストと画像が混在する環境ではColQwen2の方がバランスの取れた検索結果を返します。一方、純粋な画像同士の類似検索(商品画像の類似検索など)ではCLIPも引き続き有効です。
まとめ——「見える」ことで、RAGの実用性は一段上がる
マルチモーダルRAGは、テキストベースRAGの「テキストしか検索できない」という構造的な限界を突破する技術です。2026年現在、以下の3点が実務上のポイントです。
1. 3つのアプローチを理解し、ユースケースに合わせて選ぶ。PDF・書類中心ならColPali系、写真・画像中心ならCLIP系、既存RAGの最小拡張ならキャプション化方式。
2. 小さく始めて、段階的に拡大する。DifyのマルチモーダルRAGで小規模PoCから始め、効果を確認してからColQwen2でのカスタム構築に進むのが現実的です。
3. セキュリティとストレージの追加考慮を忘れない。画像データの機密性、アクセス制御、マルチベクトルのストレージ容量は、テキストベースRAGにはなかった設計ポイントです。
「テキストで聞いて、画像で答える」——この体験を社内のドキュメント検索に導入すれば、「ファイルを開いて目で確認する」手戻りが激減し、ナレッジの活用効率が大幅に向上するはずです。
参考リンク
- ColPali: Efficient Document Retrieval with Vision Language Models(論文)
- ColPali / ColQwen2 公式リポジトリ(GitHub)
- ColQwen2 — Hugging Face Transformers ドキュメント
- Amazon Titan Multimodal Embeddings G1 — AWS公式ドキュメント
- Dify 公式ドキュメント
- マルチモーダルRAGを作ってみた — DevelopersIO
免責事項:本記事は2026年4月時点の公開情報に基づく情報提供であり、各ツール・サービスの最新仕様については公式ドキュメントを必ず確認してください。記載のモデルやツールのバージョン・仕様は急速に変化しているため、導入検討時には最新情報を参照することを推奨します。

コメント