評価駆動開発

AI(企業向け)

【2026年版】AIエージェントの「評価・トラジェクトリ採点」設計ガイド——「動いた」と「正しく仕事をした」は別物|タスク成功率・ツール呼び出し精度・軌跡効率をτ-bench/LLM-as-Judgeで継続採点し、CIで回帰を止める

「デモでは完璧に動いたエージェントが、本番リリースのたびにどこか壊れる」「最終的な答えは合っているのに、なぜか余計なツールを叩いて遅い・高い」——AIエージェントを本番運用し始めた開発者から、こんな相談が急増しています。 従来のソフ...
AI(企業向け)

RAG×「評価駆動開発(Eval-Driven Development)」完全ガイド【2026年版】——Ragas・DeepEval・TruLensで「とりあえず動くRAG」から「精度を継続的に改善できるRAG」に引き上げる指標設計・ゴールデンデータセット構築・CI/CD組み込み

社内文書検索、カスタマーサポート、FAQ自動応答——RAG(Retrieval-Augmented Generation)を使ったPoCを立ち上げた企業は多いでしょう。しかし、実際に運用を始めると必ず出てくるのが次のような声です。 ...
タイトルとURLをコピーしました