マルチモーダルAI業務活用ガイド【2026年版】|商品写真・図面・レシート・動画をAIに「見せて」業務を自動化する実践プロンプト集

  1. はじめに——「AIに見せる」という発想が業務を変える
  2. マルチモーダルAIとは?——テキストだけじゃない「入力の拡張」
    1. 主要ツール比較:GPT-4o vs Claude vs Gemini
    2. 画像入力で何ができるのか——6つの基本能力
  3. 【製造業】外観検査・品質管理への応用
    1. ユースケース①:製品の外観検査レポート自動生成
    2. ユースケース②:図面・仕様書の読み取りと差異チェック
    3. 実践プロンプト集(製造業)
  4. 【不動産】図面・物件写真の読み取りと業務効率化
    1. ユースケース③:間取り図・平面図の自動解析
    2. ユースケース④:物件写真からの設備チェックリスト生成
    3. 実践プロンプト集(不動産)
  5. 【経理・財務】レシート・請求書・帳票の自動仕訳
    1. ユースケース⑤:レシート・領収書からの仕訳データ抽出
    2. ユースケース⑥:請求書の項目チェックと支払い条件抽出
    3. 実践プロンプト集(経理)
  6. 【小売・EC】商品写真からの説明文・タグ自動生成
    1. 実践プロンプト集(小売・EC)
  7. 【共通】マルチモーダルAI活用の注意点とリスク管理
  8. API連携でさらに自動化——Dify・n8nとの組み合わせ
  9. よくある質問(Q&A)
  10. まとめ——「見せる」AIが現場の非効率を解消する
  1. はじめに——「AIに見せる」という発想が業務を変える
  2. マルチモーダルAIとは?——テキストだけじゃない「入力の拡張」
    1. 主要ツール比較:GPT-4o vs Claude vs Gemini
    2. 画像入力で何ができるのか——6つの基本能力
  3. 【製造業】外観検査・品質管理への応用
    1. ユースケース①:製品の外観検査レポート自動生成
    2. ユースケース②:図面・仕様書の読み取りと差異チェック
    3. 実践プロンプト集(製造業)
  4. 【不動産】図面・物件写真の読み取りと業務効率化
    1. ユースケース③:間取り図・平面図の自動解析
    2. ユースケース④:物件写真からの設備チェックリスト生成
    3. 実践プロンプト集(不動産)
  5. 【経理・財務】レシート・請求書・帳票の自動仕訳
    1. ユースケース⑤:レシート・領収書からの仕訳データ抽出
    2. ユースケース⑥:請求書の項目チェックと支払い条件抽出
    3. 実践プロンプト集(経理)
  6. 【小売・EC】商品写真からの説明文・タグ自動生成
    1. 実践プロンプト集(小売・EC)
  7. 【共通】マルチモーダルAI活用の注意点とリスク管理
  8. API連携でさらに自動化——Dify・n8nとの組み合わせ
  9. よくある質問(Q&A)
    1. Q1. スマートフォンで撮った写真でも使えますか?
    2. Q2. PDFもそのまま入力できますか?
    3. Q3. 一度に何枚まで画像を入力できますか?
    4. Q4. 日本語の手書き文字も読み取れますか?
    5. Q5. 競合他社の商品写真を入力して分析させてもいいですか?
    6. Q6. 社内で使う場合、セキュリティ上の懸念はありますか?
  10. まとめ——「見せる」AIが現場の非効率を解消する

はじめに——「AIに見せる」という発想が業務を変える

ChatGPTやClaudeにテキストで質問する使い方は、すでに多くのビジネスパーソンに浸透しています。しかし、「画像や写真をAIに見せて、業務を自動化する」という使い方は、まだ多くの現場で活用しきれていません。

2026年現在、GPT-4o(OpenAI)やClaude 3.5 Sonnet(Anthropic)をはじめとするマルチモーダルAIは、テキストだけでなく画像・PDF・動画フレームを入力として受け付けます。これにより、これまで「人の目」に頼っていた業務の一部を、AIが代替できるようになっています。

本記事では、製造業・不動産・経理・小売の4業種に絞り、画像入力AIを使った具体的なユースケースと、明日から現場で使えるコピペ可能なプロンプトを徹底解説します。

「AIに何を見せれば何ができるのか」が、この記事を読み終えた後に明確になります。


マルチモーダルAIとは?——テキストだけじゃない「入力の拡張」

マルチモーダル(Multimodal)とは、「複数の入力形式に対応している」という意味です。テキスト、画像、音声、動画など複数のモダリティ(入力チャンネル)を扱えるAIを指します。

業務活用の文脈では、特に「画像+テキストの組み合わせ入力」が最も実用的です。たとえば:

  • 商品写真を見せて「この商品の説明文を書いて」
  • レシートの写真を見せて「勘定科目に分類して」
  • 工場の部品写真を見せて「外観上の異常を報告書にして」

このような「見せて+指示する」という操作が、現場業務の大きな効率化につながります。

主要ツール比較:GPT-4o vs Claude vs Gemini

ツール画像入力強み注意点
GPT-4o(OpenAI)○(複数枚可)文字認識精度が高い。OCR的な用途に強いAPI利用はコスト管理が必要
Claude 3.5 Sonnet(Anthropic)○(複数枚可)長文出力・構造化出力が得意。図面・書類の読み取りに強い動画は未対応(静止画フレームは可)
Gemini 1.5 Pro(Google)○(動画も可)動画・長時間コンテンツの処理が可能。Google Workspaceとの連携日本語出力の精度はモデルバージョンによる

本記事では、日本語SME向けに実績のあるGPT-4oとClaudeを中心に解説します。

画像入力で何ができるのか——6つの基本能力

能力具体例
① テキスト抽出(OCR)レシート・名刺・書類の文字を読み取る
② 物体認識・カウント写真内の商品数・部品数を数える
③ 状態・品質の評価傷・汚れ・変形の有無を判定する
④ 図面・レイアウト解析間取り図・回路図・フロアマップの要素を抽出する
⑤ 説明文・レポート生成写真から商品説明文・点検レポートを自動生成する
⑥ 比較・差異検出2枚の画像(図面before/after等)の違いを指摘する

【製造業】外観検査・品質管理への応用

製造業では、外観検査・受入検査・出荷前確認などに多くの人的コストがかかっています。画像入力AIを活用することで、「目視確認→記録→報告書作成」の一連の流れを大幅に効率化できます。

※関連記事:製造業のAI活用ガイド【2026年版】

ユースケース①:製品の外観検査レポート自動生成

課題:検査員が目視で確認し、手書きまたはExcelで記録→上長に報告。1件あたり10〜20分かかるケースも。

AIによる解決:部品・製品の写真をAIに入力し、異常の有無・箇所・程度を構造化して出力。報告書のたたき台を数秒で生成。

効果のポイント:

  • 記録ミス・記録漏れの防止
  • 検査員が確認・修正するだけの工程に変わる
  • 過去の検査記録との比較がしやすくなる

ユースケース②:図面・仕様書の読み取りと差異チェック

課題:設計変更時に旧図面と新図面の差異を目で確認する作業が発生。ベテラン担当者の属人的スキルに依存している。

AIによる解決:2枚の図面を並べてAIに入力し、「変更点・差異を箇条書きにして」と指示するだけで差異リストを自動生成。

実践プロンプト集(製造業)

以下のプロンプトは、GPT-4oまたはClaudeのチャット画面に画像を添付した上で入力してください。

【プロンプト1】外観検査レポート生成

添付した製品写真を確認し、以下のフォーマットで外観検査レポートを作成してください。

【外観検査レポート】
- 検査日:(今日の日付を入力)
- 製品名:(製品名を入力)
- 外観の全体評価:(良好 / 要確認 / 不良 で判定)
- 確認された異常:(箇所・内容・深刻度を箇条書き。異常なしの場合は「異常なし」と記載)
- 推奨対応:(廃棄 / 修正後再検査 / 合格 など)
- 特記事項:(その他気になる点があれば記載)

判断が難しい箇所は「要人間確認」と明記してください。

【プロンプト2】図面の差異チェック

添付した2枚の図面(1枚目が旧版、2枚目が新版)を比較し、変更・追加・削除された箇所をすべて箇条書きで列挙してください。
変更箇所は「旧:〇〇→新:〇〇」の形式で記載してください。
読み取れない・判断が難しい箇所は「要確認」と明示してください。

【プロンプト3】受入検査チェックリスト自動生成

添付した部品の写真と仕様書(PDFまたは画像)を確認し、受入検査で確認すべきチェックリストを作成してください。
チェック項目は「外観」「寸法・数量」「表示・ラベル」「付属品」のカテゴリに分類してください。
各項目は「確認内容 / 合否判定基準 / 判定(○/×/要確認)」の3列形式でお願いします。

【不動産】図面・物件写真の読み取りと業務効率化

不動産業界では、物件情報の入力・確認・資料作成に多くの手作業が発生しています。図面や写真をAIに読み取らせることで、物件登録・マイソク作成・現地調査報告書の効率が大幅に改善します。

※関連記事:不動産業のAI活用ガイド【2026年版】

ユースケース③:間取り図・平面図の自動解析

課題:間取り図から部屋数・面積・設備を手入力する作業が発生。登録ミスや表記ゆれが問題になる。

AIによる解決:間取り図をAIに入力し、「間取り情報をJSON形式で出力して」と指示することで、物件管理システムへのインポート用データを自動生成できる。

ユースケース④:物件写真からの設備チェックリスト生成

課題:現地調査後に設備状況を一覧化する作業が担当者ごとにバラつく。記入漏れも発生しやすい。

AIによる解決:現地で撮影した写真(キッチン・浴室・電気設備など)をまとめてAIに入力し、設備一覧を自動生成。目視調査の補助ツールとして機能する。

実践プロンプト集(不動産)

【プロンプト4】間取り図の構造化データ出力

添付した間取り図を解析し、以下の情報をJSON形式で出力してください。

{
  "間取り": "(例:3LDK)",
  "専有面積": "(平米数、読み取れない場合は null)",
  "部屋一覧": [
    {"部屋名": "", "用途": "", "広さ(畳またはm²)": ""}
  ],
  "設備": {
    "キッチン": "(あり/なし/不明)",
    "バス・トイレ": "(別/ユニット/不明)",
    "洗面室": "(あり/なし/不明)",
    "収納": "(あり/なし/不明)",
    "バルコニー": "(あり/なし/不明)"
  },
  "読み取れなかった情報": []
}

【プロンプト5】物件写真からの現況報告書生成

添付した物件写真(複数可)を確認し、現況調査報告書を作成してください。

【現況調査報告書】
■ 外観・共用部
- 外観の状態:
- エントランス:

■ 室内(各エリアごと)
- 玄関:
- リビング・ダイニング:
- キッチン:
- 浴室・洗面:
- 洋室・和室(確認できた部屋分):

■ 要修繕・要確認箇所
(写真から判断できる傷・汚れ・設備の不具合等を箇条書きで)

■ 総合所見

写真から判断できない項目は「現地要確認」と記載してください。

【プロンプト6】物件紹介文の自動生成(マイソク用)

添付した物件の間取り図・外観写真・室内写真を参考に、不動産の物件紹介文を作成してください。

条件:
- ターゲット:30〜40代ファミリー層
- 文字数:300〜400字
- トーン:親しみやすく、具体的なメリットを伝える
- 記載事項:間取り・設備の特長・周辺環境(写真から読み取れる範囲)・おすすめポイント

写真から読み取れない情報(駅距離・築年数等)は「●●」と空欄にしてください。

【経理・財務】レシート・請求書・帳票の自動仕訳

経理業務は、「書類を見て→内容を判断して→入力する」というシンプルながら反復的な作業の連続です。この流れこそが、画像入力AIが最も威力を発揮する領域の一つです。

※関連記事:経理・財務部門のAI活用ガイド【2026年版】

ユースケース⑤:レシート・領収書からの仕訳データ抽出

課題:従業員の経費精算時にレシートの手入力・転記が発生。入力ミスや勘定科目の誤りが起きやすい。

AIによる解決:レシート写真をAIに入力し、日付・金額・店舗名・勘定科目の候補をCSV形式で出力。会計ソフトへのインポートデータを自動生成できる。

注意点:消費税の扱い(軽減税率など)や勘定科目の最終判断は、人間が確認することが必要です。AIの出力は「たたき台」として活用してください。

ユースケース⑥:請求書の項目チェックと支払い条件抽出

課題:取引先からの請求書の内容確認・承認フローに時間がかかる。特に件数が多い月末は担当者の負荷が高い。

AIによる解決:請求書画像をAIに入力し、「必須項目が揃っているか確認して」「支払い期限・振込先をまとめて」と指示するだけで、確認作業を大幅に短縮。

実践プロンプト集(経理)

【プロンプト7】レシート仕訳データの自動抽出

添付したレシート(領収書)の画像を読み取り、以下のCSV形式でデータを出力してください。

日付,取引先名,金額(税込),消費税率,勘定科目(候補),摘要,備考

- 消費税率は「10%」または「8%(軽減)」で判断してください
- 勘定科目は以下から最も適切なものを選んでください:
  交通費 / 接待交際費 / 会議費 / 消耗品費 / 通信費 / 福利厚生費 / 外注費 / その他
- 読み取れない・判断できない項目は「要確認」と記載してください
- 複数枚の画像がある場合は、1枚1行で出力してください

【プロンプト8】請求書の必須項目チェック

添付した請求書の画像を確認し、以下のチェックリストに従って確認結果を出力してください。

【請求書チェックリスト】
□ 発行日・請求日:(記載あり/なし/要確認)
□ 請求書番号:(記載あり/なし)
□ 発行者名・住所:(記載あり/なし)
□ 宛先(自社名):(正確/誤記/なし)
□ 請求金額(税込):(金額を記載)
□ 消費税額の明記:(あり/なし)
□ 支払期限:(日付を記載/記載なし)
□ 振込先口座情報:(あり/なし)
□ インボイス登録番号:(あり/番号を記載/なし)

【総合判定】:(問題なし / 要確認事項あり / 差し戻し推奨)
【要確認事項】:(ある場合は箇条書きで)

【プロンプト9】複数レシートの月次経費集計

添付した複数のレシート画像(今月分の経費)を読み取り、以下の形式で月次経費集計表を作成してください。

1. レシートごとの一覧表(日付・取引先・金額・勘定科目)
2. 勘定科目別の合計金額
3. 合計金額(税込)
4. 読み取れなかった・要確認のレシートがあればその旨を記載

出力形式はMarkdownの表でお願いします。

【小売・EC】商品写真からの説明文・タグ自動生成

ECサイト運営や小売業では、新商品登録の際に写真撮影→説明文作成→タグ設定という手順が発生します。商品点数が多い場合、この作業が大きなボトルネックになります。画像入力AIを使えば、商品写真を見せるだけで説明文・検索タグ・SEOメタ情報を自動生成できます。

実践プロンプト集(小売・EC)

【プロンプト10】商品説明文の自動生成

添付した商品写真を確認し、ECサイト用の商品説明文を作成してください。

条件:
- ターゲット:(例:20〜30代女性 / ビジネスパーソン / 主婦層)
- 文字数:150〜200字(商品説明)+ 箇条書き特長3〜5点
- トーン:(例:丁寧・上品 / カジュアル・親しみやすい)
- 含める情報:素材・カラー・サイズ感・使用シーン(写真から読み取れる範囲)
- 含めない情報:価格・在庫(別途入力のため)

写真から読み取れない情報は「●●」と空欄にしてください。

【プロンプト11】検索タグ・カテゴリ候補の生成

添付した商品写真を確認し、ECサイトの検索・フィルター用タグを生成してください。

出力フォーマット:
- カテゴリ(大分類):
- カテゴリ(中分類):
- カテゴリ(小分類):
- 検索タグ(10〜15個):カンマ区切りで出力
- カラータグ:
- 素材タグ(読み取れる場合):
- シーンタグ(例:オフィス、アウトドア、プレゼント):

【共通】マルチモーダルAI活用の注意点とリスク管理

画像入力AIは非常に便利ですが、業務に取り入れる際にはいくつかの注意点があります。

リスク内容対策
情報漏えい機密情報・個人情報が含まれる書類・写真をクラウドAIに送信するリスク社内規定でAIに送信できる情報の範囲を明確化。機密度の高いデータはローカルLLMまたはAPIの「オプトアウト設定」で対応
誤認識・ハルシネーションAIが画像を読み誤ったり、存在しない情報を「見えた」かのように出力するケースAIの出力は必ず人間が最終確認。特に金額・日付・法的判断は要注意
著作権・肖像権他者の著作物・人物が写った画像をAIに入力→出力を外部公開するリスク第三者の著作権・肖像権に関わる画像の商用利用には注意。詳しくはAI著作権ガイドを参照
画質・解像度の限界低解像度画像では文字や細部の読み取り精度が下がる業務用途には300dpi以上の解像度を目安に。スマートフォン撮影の場合はなるべく明るい環境で近距離撮影

情報漏えい対策の基本ルール:

  • ChatGPT / Claudeの「チャット履歴オフ」設定を有効化(設定→データコントロール)
  • API利用時は「学習利用オプトアウト」設定を確認
  • 個人番号(マイナンバー)・銀行口座全桁・パスワードが含まれる画像は送信しない

API連携でさらに自動化——Dify・n8nとの組み合わせ

ここまで紹介したプロンプトは、チャット画面での手動操作が前提です。より高度な自動化を目指す場合は、ノーコード・ローコードのAI連携ツールとの組み合わせが効果的です。

ツール特長マルチモーダルとの連携例
DifyAIアプリをノーコードで構築。ワークフロー機能あり画像アップロード→GPT-4o API→結果をSlack通知 というフローを構築可能
n8n200以上のサービスと連携できる自動化ツールメール添付のレシート画像→Claude API→会計ソフトへ自動入力 というパイプラインを構築可能
Make(旧Integromat)ビジュアルなワークフロー構築ツールGoogle Driveに保存した写真→GPT-4o→Notionに自動記録 など

※DifyおよびGPT-4o APIを使ったワークフロー構築の詳細は、Dify活用ガイドをご参照ください。


よくある質問(Q&A)

Q1. スマートフォンで撮った写真でも使えますか?

はい、使えます。最新のスマートフォンのカメラ(1200万画素以上)で撮影した画像であれば、テキスト読み取り・物体認識とも十分な精度が出ます。ただし、手ブレ・逆光・低照度の写真は認識精度が下がるため、なるべく安定した環境での撮影を推奨します。

Q2. PDFもそのまま入力できますか?

Claude(claude.ai)はPDFを直接入力として受け付けます。GPT-4oの場合はPDFを画像に変換してから入力するか、ファイルアップロード機能(ChatGPT Plus)を利用してください。いずれの場合も、スキャン品質が低いPDFは認識精度が落ちます。

Q3. 一度に何枚まで画像を入力できますか?

ChatGPT(GPT-4o)・Claude ともに、1回のメッセージで複数枚の画像を入力できます。ただし、1枚あたりのファイルサイズ(通常20MB以下)や1回のリクエストの合計サイズ制限があります。大量の画像を処理したい場合はAPI経由でバッチ処理するのが現実的です。

Q4. 日本語の手書き文字も読み取れますか?

GPT-4oおよびClaudeは、比較的読みやすい手書き文字であればある程度読み取れます。ただし、崩し字・特殊な略字・鉛筆書きの薄い文字は精度が落ちる場合があります。手書き帳票の読み取りには、専用のOCRツール(Google Document AI、AWSTextractなど)との組み合わせが効果的なケースもあります。

Q5. 競合他社の商品写真を入力して分析させてもいいですか?

公開されている商品写真をAIで分析すること自体は、一般的に市場調査の範囲と考えられます。ただし、分析結果を自社の商品説明や広告にそのまま流用することは、著作権侵害や不正競争防止法に抵触する可能性があります。AI生成コンテンツと著作権の詳細はこちらの記事をご参照ください。

Q6. 社内で使う場合、セキュリティ上の懸念はありますか?

はい、特に機密情報が含まれる書類・図面・帳票の扱いには注意が必要です。OpenAIおよびAnthropicともに、APIアクセスでは学習への利用をオプトアウトできる設定があります。また、機密度が高いデータには、社内環境で動作するローカルLLMの活用も検討してください。詳細はローカルLLM活用ガイドをご参照ください。


まとめ——「見せる」AIが現場の非効率を解消する

マルチモーダルAIの画像入力機能は、「文字を打って使うAI」から「見せて使うAI」へのパラダイムシフトを象徴しています。

本記事で紹介した活用領域を振り返ります。

業種主なユースケース期待できる効果
製造業外観検査レポート生成・図面差異チェック検査記録作成の時間削減・記録品質の標準化
不動産間取り図解析・物件現況報告書・紹介文生成物件登録作業の効率化・営業資料作成の高速化
経理・財務レシート仕訳・請求書チェック・経費集計手入力ミスの削減・月次処理のスピードアップ
小売・EC商品説明文・検索タグの自動生成新商品登録の工数削減・SEO品質の標準化

重要なのは、AIの出力をそのまま最終成果物にしないことです。AIは「人間の作業のたたき台を数秒で作る」ツールとして位置づけ、最終確認・修正・判断は必ず人間が行う体制を整えてください。

まずは本記事のプロンプトをコピーして、手元の写真や書類で試してみるところから始めましょう。小さな成功体験の積み重ねが、組織全体のAI活用文化を育てます。


免責事項:本記事は2026年3月時点の公開情報に基づく情報提供であり、特定のビジネス判断や法的アドバイスを提供するものではありません。AIツールの機能・料金・利用規約は変更される場合があります。業務への導入に際しては、各ツールの最新情報および社内の情報セキュリティポリシーを必ず確認してください。経理・法務に関わる判断は、専門家へのご相談をお勧めします。

コメント

タイトルとURLをコピーしました