← サービス一覧に戻る

SERVICE DETAIL — RAG / AI精度設計

「動くRAG」ではなく、
「使えるRAG」を。

要件定義から設計・実装・運用まで一気通貫。 業務文書で正答率93.6%を実現した、RAG/AI精度設計の専門チームです。

CATEGORY

RAG / AI精度設計

PHASE

課題整理〜運用

RECORD

RAG/LLM 10件+

ACCURACY

0.0%

大手商社・週次レポート分析

一般的なRAG: 38.8% から大幅改善

RAG SOLUTION

「動くRAG」と「使えるRAG」は、まったく別物です。

AIコード生成やノーコードで、RAGは誰でも「作れる」時代になりました。しかし、デモで動いたシステムが本番で精度を出せず、現場に定着しない —— その差は4つの設計レイヤーに表れます。

動くRAG

デモは動く。本番で崩れる。

CursorやDify、GPTsで1時間で形になる。
しかし業務データに当てた瞬間、精度40-60%台で頭打ち。

運用設計なし
評価セットなし
検索設計ベクトル単体
データ設計自動分割

本番精度

40-60%

使えるRAG

業務文書で93.6%。半年後も使える。

4つの設計レイヤーを丁寧に積み上げ、
"作って終わり"にしない運用設計まで納品。

04 運用設計監視・更新フロー
03 評価駆動の改善49問評価セット
02 ハイブリッド検索ベクトル+BM25+Rerank
01 データ設計構造別チャンク+メタ

本番精度

93.6%

WHY FORWARD DEPLOYED

なぜ、AIは「作っても使われない」のか。

問題は、もうモデルの性能ではありません。デモから本番へ——現場の業務に接続しきれないことが、最大の壁です。

0%

企業の生成AIパイロットが、明確な収益・コスト改善に至っていない

出典: MIT, 2025

0%

企業が、AI導入の価値をスケールさせることに苦戦している

出典: BCG

だから世界の最前線は、顧客の現場に入り込んで実装する Forward Deployed へ動いています。OpenAIもAnthropicも、この体制に舵を切りました。

Cognisantは、創業時からこの動き方をしてきました。お客様の実データと業務に入り込み、PoCで終わらせず、"使われる"ところまで伴走する。次にご紹介するプロセスが、その実践です。

具体的な進め方を見る

RESULTS

大手総合商社で実証した、劇的な精度改善。

全世界拠点の週次レポートをAIで横断検索・分析。Agentic RAG(LangGraph)+ ハイブリッド検索 + 評価パイプラインの導入で、業務シナリオ49問の評価結果が劇的に変化しました。

Before — 一般的なRAG

正答率

0.0%

ベクトル検索単体 + 自動チャンク分割では、業務文書の正答率は40-60%台に留まることが多い。

+54.8 pt
2.4倍

After — Cognisant設計

正答率

0.0%

Agentic RAG(LangGraph)+ ハイブリッド検索 + 文書構造別チャンク + 自動評価パイプライン。

回答率

42.9%

0%

総合品質スコア *

2.37 / 5

0.00/5

ツール選定精度

0%

* 正答性、ハルシネーション有無、言い換え対応、複数回実行の一貫性など複数指標を統合した5段階評価(49問の業務シナリオで計測)。

OUR APPROACH

93.6%を出した「4層」の設計原則。

RAGの精度は、AIモデルの性能ではなく 4つのレイヤーの積み上げ で決まります。下層が崩れれば、上層は意味を失います。

01

データ層

文書構造別チャンク / メタデータ / 重複排除

02

検索層

ベクトル × キーワード × リランキング

03

評価層

業務シナリオ評価セット / 自動評価パイプライン

04

運用層

監視 / 更新フロー / 品質定点観測

Foundation — 精度の土台

01データ層 — 前処理なくして精度なし

RAGの精度は、AIモデルの性能ではなくデータの品質で決まります。文書の種類・更新頻度・参照関係に応じたチャンク分割戦略、メタデータ付与、重複排除、古い文書の整理 —— 地味だが精度に直結する前処理を丁寧に行います。

02検索層 — ベクトル検索だけでは届かない答えに届く

意味的に近い文書はベクトル検索が強いが、固有名詞・型番・条文番号は取りこぼしが起きる。ベクトル + キーワード + リランキングの3段構成で、商社案件では正答率を38.8%→93.6%に引き上げました。

03評価層 — 「なんとなく良くなった」で終わらせない

検索精度・回答品質・ツール選定の各レイヤーで数値計測。ボトルネックを特定してから改善を打つサイクルを回します。感覚ではなくデータに基づく改善だからこそ、着実に精度が上がります。

04運用層 — 納品して終わりにしない

社内文書は更新され、業務ルールは変わり、質問パターンも変化する。インデックス更新フロー、データ品質監視、精度の定点観測まで運用設計を納品物に含めます。

PROCESS

3ステップで、3つの壁を超える。

各フェーズの間には乗り越えるべき壁があります。 Cognisantは、その壁の超え方をすべての案件で蓄積してきました。

01

Step 01

要件定義 & 評価設計

  • ROI評価軸の言語化
  • 49問の業務評価セット
  • 現状ボトルネック特定
1
  • ×ROI評価軸が無い
  • ×評価セットが無い
  • ×"なんとなく"で進む
02

Step 02

データ & 検索設計

  • 構造別チャンク + メタ
  • 重複排除・更新ルール
  • ハイブリッド + Rerank
2
  • ×自動分割で40-60%
  • ×ベクトル単体で外れる
  • ×文書構造を無視
03

Step 03

評価駆動 & 運用設計

  • レイヤー別評価サイクル
  • インデックス更新フロー
  • 品質定点監視ダッシュ
3
  • ×感覚で改善し続ける
  • ×半年後にデータ劣化
  • ×廃止規程混入で誤回答

GOAL — ALL WALLS CLEARED

0.0%

すべての壁を超えた、本番で使える精度。

大手商社・通信キャリア・エネルギー・フィンテックなど 10件+ で実証された設計プロセスです。

DELIVERABLES × TOOL CHAIN

納品物とテックスタック、まとめて1枚で。

セキュリティポリシーに応じて国内クラウド / 閉域環境にも対応します。

TOOL CHAIN — 6 LAYERS

Monitoring

監視 / 観測

LangfuseOpenTelemetry

Deploy

デプロイ環境

Cloud RunVercelFirebase国内 / 閉域

Evaluation

精度評価

Ragas自社評価フレームワーク

RAG Framework

検索オーケストレーション

LangChainLlamaIndexLangGraph

Vector / Search

ベクトル × キーワード

PineconeWeaviatepgvector+ BM25 / Rerank

LLM

基盤モデル

OpenAIVertex AIBedrockAzure OpenAI

DELIVERABLES — 6 ITEMS

  • 評価セット

    業務シナリオ49問〜

  • データ前処理 / チャンク設計書

    文書構造別の分割戦略

  • 検索設計書

    ハイブリッド構成 + リランキング設定

  • 評価パイプライン

    自動評価ツール一式

  • 運用マニュアル

    インデックス更新フロー

  • 改善レポート / 監視ダッシュボード

    テンプレート + 定点観測

セキュリティポリシーに応じて国内クラウド / 閉域環境へのデプロイにも対応します。

FAQ

よくある質問

RAGの精度設計・Forward Deployedでの進め方について、よくいただくご質問にお答えします。

Q

RAGの精度は、なぜ本番で落ちるのですか?

デモはAIコード生成やノーコードで簡単に動きますが、業務データに当てた瞬間に精度が40〜60%台で頭打ちになることが多くあります。原因はモデルの性能ではなく、ベクトル検索単体では固有名詞・型番・条文番号を取りこぼすこと、自動チャンク分割が文書構造を無視すること、そして評価軸が無いまま「なんとなく」進めてしまうことにあります。Cognisantはデータ設計・検索設計・評価・運用の4層を積み上げ、大手総合商社の案件では正答率を38.8%から93.6%まで引き上げました。

Q

Forward Deployed Engineer(FDE)とは何ですか?

お客様の現場・実データ・業務に入り込み、PoCで終わらせず「使われる」ところまで伴走する開発の動き方です。問題はもうモデルの性能ではなく、デモから本番へと現場の業務に接続しきれないことにあります。だからこそ世界の最前線はForward Deployedへ動いており、OpenAIもAnthropicもこの体制に舵を切りました。Cognisantは創業時からこの動き方を実践しています。

Q

「動くRAG」と「使えるRAG」は何が違うのですか?

「動くRAG」はデモでは動くものの、運用設計・評価セット・検索設計・データ設計が欠けており、本番精度は40〜60%台に留まります。「使えるRAG」は、データ設計・ハイブリッド検索(ベクトル+キーワード+リランキング)・評価駆動の改善・運用設計の4レイヤーを丁寧に積み上げ、業務文書で93.6%の正答率と、半年後も使い続けられる運用性を両立します。

Q

PoCで終わらせないために、具体的に何をするのですか?

要件定義の段階でROI評価軸を言語化し、業務シナリオに沿った49問の評価セットを用意します。検索精度・回答品質・ツール選定の各レイヤーを数値で計測し、ボトルネックを特定してから改善を打つサイクルを回します。さらに、インデックス更新フロー・データ品質監視・精度の定点観測といった運用設計までを納品物に含め、社内文書や業務ルールの変化にも耐えられる状態にします。

Q

どのように精度を93.6%まで高めたのですか?

大手総合商社の週次レポートAI検索では、Agentic RAG(LangGraph)とハイブリッド検索、文書構造別チャンク、自動評価パイプラインを組み合わせました。意味的な近さはベクトル検索で、固有名詞・型番・条文番号はキーワード検索で押さえ、リランキングで最終的な順位を整える3段構成です。49問の業務シナリオ評価で、正答率38.8%→93.6%、総合品質スコア2.37→4.55/5.00へと改善しました。

Q

閉域環境やセキュリティ要件にも対応できますか?

はい。セキュリティポリシーに応じて国内クラウドや閉域環境へのデプロイに対応します。LLMの基盤モデルからベクトル検索、評価、監視まで、要件に合わせて構成を選定します。まずは発注前提ではない30分のオンライン相談で、現在の構成と課題をお聞きした上で、精度改善の方向性と概算感をお伝えします。

NEXT STEP

RAGの精度でお困りなら、
まず現状を整理しませんか。

発注前提ではありません。現在の構成と課題をお聞きした上で、精度改善の方向性と概算感をお伝えする 30分のオンライン相談です。

TRUSTED BY

Microsoft AI Cloud PartnerAWS PartnerGoogle Cloud PartnerGIFTech 2025 優勝

RAG/LLM関連プロジェクト10件以上。大手商社・通信キャリア・エネルギー・フィンテック・医療情報・マーケティング企業に導入実績。