LLM-as-a-Judge

【2026年版】AIエージェントの「評価・トラジェクトリ採点」設計ガイド——「動いた」と「正しく仕事をした」は別物｜タスク成功率・ツール呼び出し精度・軌跡効率をτ-bench／LLM-as-Judgeで継続採点し、CIで回帰を止める

「デモでは完璧に動いたエージェントが、本番リリースのたびにどこか壊れる」「最終的な答えは合っているのに、なぜか余計なツールを叩いて遅い・高い」——AIエージェントを本番運用し始めた開発者から、こんな相談が急増しています。従来のソフ...

2026.06.03

AI（企業向け）

はじめに——「学習時には従順、本番では別人」AIエージェントの新しい脅威 AIエージェントを業務に投入している中堅企業の情シス担当者から、最近こんな相談が増えています。「導入直後はうまく動いていたエージェントが、数か月運用し...

2026.05.25

AI（企業向け）

「PoCではちゃんと動いていたのに、本番運用に入って3か月、なんだか回答が変なときがある」——ローカルLLMを社内で運用し始めた企業から、こんな相談が増えています。クラウドのChatGPTやClaudeなら「ベンダーが品質を保って...

2026.05.04

AI（企業向け）

社内文書検索、カスタマーサポート、FAQ自動応答——RAG（Retrieval-Augmented Generation）を使ったPoCを立ち上げた企業は多いでしょう。しかし、実際に運用を始めると必ず出てくるのが次のような声です。 ...

2026.04.18

AI（企業向け）