RAGを使いFAQを回答する
生成AIの仕組みをクイックに作る方法

生成AIで成果を出しているエキスパート向けに、RAGを活用することで簡易的なFAQを答えるAIの作り方を解説します。RAGとは何か？どのようなステップを踏むべきで何に気を付けるべきなのか？
このRAGを活用することで、情報システム部門の社内問い合わせの削減や、法務系のコンプライアンスチェックの確認コストの削減、顧客からの問い合わせコストの低減など、様々な恩恵を受けることが可能になります。
既に生成AIをビジネスで活用されている皆さまには、「プロンプト」だけでなく、昨今注目を集めている RAG（Retrieval Augmented Generation）についても理解を深めていただきたいと思います。FAQを題材として学ぶことで、実際のビジネスシーンにどのように応用できるのかをより具体的にイメージし、活用の幅を広げていきましょう。

1: RAGの基本概念

2

一般的なRAGベースFAQシステム構築のステップ

2.1 FAQデータの収集
2.2 前処理
2.3 問い合わせ回答テスト

最新の生成AI技術でFAQ運用を効率化する

現代のビジネス現場では、膨大なFAQや社内ドキュメントを迅速かつ正確に活用することが求められています。そこで注目されるのが、RAG（Retrieval-Augmented Generation）です。RAGは、大規模言語モデル（LLM）の生成能力を外部データベースからの情報検索（Retrieval）で補完することで、最新情報や詳細な知識に基づいた高精度な回答を実現します。
ここでは実際の生成AIの研修クライアントからあった要望で作成したRAGを活用したFAQを回答する生成AIの簡易的な仕組みの例を踏まえつつ、解説します。

1RAGの基本概念

RAG（Retrieval-Augmented Generation）とは、LLM単体では内部に学習していない最新情報や大量データの取り扱いに限界がある問題を、外部のデータベースから必要情報を検索して補完する仕組みです。たとえば、ChatGPTやClaudeなどの生成系AIは、内部学習データに依存するため、最新の情報更新が難しいですが、生成AIにRAGを組み合わせることで、FAQなど常に更新が必要なドキュメントから必要な部分だけを取り出し、正確な回答を生成できます。

RAGは生成AIの精度と更新性を向上させます

ただし、AIの種類によっては、RAGに答えがないにも関わらず、回答を捏造するハルシネーションのリスクがあるので、注意深くAIを選びましょう。今回のケースでは、ハルシネーションリスクの低いNotebook LMを使用しましたが、各社、日々仕様変更による強化が行われているので適宜チェックして、最適なAIを使用するようにしましょう。

2一般的なRAGベースFAQシステム構築のステップ

2.1 FAQデータの収集

ソースの多様性: 社内ドキュメント、既存のFAQリスト、Excel、PDF、社内Wikiなど、複数のソースから情報を収集します。
この雑多なデータを無加工でRAGにしてしまうと、正確な回答が得られないので注意が必要です。
私も実際、試しに、研修クライアントからの要望でFAQを回答する簡易AIを作成しましたが、ただ、全てを入れただけでは最初、うまくいきませんでした。
このケースでは、クライアントの機微な情報を含まないFAQデータ、16万字でRAGを構築し、答えがRAGに存在するテストを実施してみましたが、「答えがRAGにない」という回答が返ってきたのです。
そこで必要になるのが、次に説明するデータの前処理です。

2.2 前処理

1. テキストクレンジング: 一度、大量データを生成AIに入れて、不要な文字（「です」「ます」や記入日・記入担当者など、適宜不要な情報を削除）や改行の整理を行い、データのノイズを削減します。これにより、検索するデータ量が減り、AIの回答速度と正確性が上がります。

2. 一貫性の確保: FAQの中にも製品の仕様変更によって、同じ質問が複数あり、回答に矛盾を含むものがあることもあります。
こういったことを行う際、AIによって、インプットできるデータの許容量の上限文字数にかなり違いがあるので、文字数が多い場合には、適宜、対応したAIを使用しましょう。
また、質問と回答が曖昧な記載になっているケースもあるため、質問と回答のセットを作るよう、AIに指示を出すのも有効です。
今回のケースではインプット文字数が大きいGeminiを使用しましたが、各社、日々仕様変更による強化が行われているので適宜チェックして、最適なAIを使用するようにしましょう。
3. メタ情報の付与: 各FAQをカテゴリー、タグ、キーワードなどの特徴量に基づいて分類し、後の検索精度を向上さます。例：FAQごとに「製品仕様」「トラブルシューティング」などのカテゴリーを設定すると回答精度や速度が上がることがあります。