コース一覧へ戻る
AI025 Professional

実践的RAGシステム:知識ベースから検索拡張生成へ

これらの学生用講義ノートは、実用的な検索拡張生成(RAG)システムを構築するためのシステムレベルの視点を提供します。コースでは、データインジェスト、チャンク化戦略、埋め込みマッピング、ベクトルストレージ、ハイブリッド検索、再ランク付け、信頼できるAIアプリケーション向けの評価まで、全パイプラインをカバーしています。

5.0
15.0h
619 受講者
0 いいね
人工知能
学習を開始

コース概要

📚 コンテンツ概要

これらの学生用講義ノートは、実用的な検索拡張生成(RAG)システムを構築する際のシステムレベルの視点を提供します。本コースでは、データインジェスチョン、チャンク戦略、埋め込みマッピング、ベクトルストレージ、ハイブリッド検索、再ランキング、信頼性のあるAIアプリケーション向け評価まで、パイプライン全体をカバーしています。

包括的なRAGパイプラインアプローチを通じて、証拠に基づくAIシステムの構築の芸術を習得しましょう。

著者: EvoClass

謝辞: EvoClass チーム

🎯 学習目標

  1. プロンプティング、ファインチューニング、およびRAGの違いを理解し、特定のビジネスニーズに応じた適切なツールを選択できる。
  2. ユーザークエリから証拠に基づく生成まで、情報の流れをRAGパイプラインでマッピングできる。
  3. メタデータ、正規化、バージョニングを組み込んだプロフェッショナルなデータインジェスチョンパイプラインを設計し、「弱いデータ」による失敗を防げる。
  4. 評価・実装:特定のドメイン要件に基づいて、さまざまなチャンク戦略(固定長、構造意識型、階層型)を適用できる。
  5. メカニズムの説明:埋め込みの仕組みと、意味的類似性と回答の有用性との違いを説明できる。
  6. 技術理論の記述:ベクトルストアとインデックスの技術理論について述べられ、検索速度(レイテンシ)と精度のトレードオフに注目できる。
  7. 大規模コーパス(10万以上チャンク)に対してマルチステージの検索計画を設計でき、メタデータおよびフィルタリング戦略を含める。
  8. 検索の目的(リコール)と再ランキングの目的(正確性/関連性)の違いを明確にできる。
  9. 再ランキングが効果的なLLM生成にとって不可欠である理由を分析し、チャンク設計との相互作用を理解できる。
  10. 自動引用およびバージョン対応検索をサポートする上流のメタデータ構造を設計できる。

🔹 授業1:RAGと知識ベース構築の基礎

概要: この授業では、大規模言語モデル(LLM)が孤立した生成エンジンとしての役割から、外部知識を利用する根拠付きのシステムへの移行を学びます。受講者は検索拡張生成(RAG)のアーキテクチャパイプラインを理解し、データガバナンスがモデル品質の基盤である理由を学び、メタデータとバージョニングを通じて事実性を確保するインジェスチョンプロセスの設計方法を習得します。

学習成果:

  • プロンプティング、ファインチューニング、RAGの違いを理解し、特定のビジネスニーズに応じた適切なツールを選択できる。
  • ユーザークエリから証拠に基づく生成まで、情報の流れをRAGパイプラインでマッピングできる。
  • メタデータ、正規化、バージョニングを組み込んだプロフェッショナルなデータインジェスチョンパイプラインを設計し、「弱いデータ」による失敗を防げる。

🔹 授業2:データ変換:チャンク化、埋め込み、インデキシング

概要: この授業では、原始的なテキストから検索可能なデータ構造へと変換する重要な段階について探求します。さまざまなチャンク化手法を通じて「検索単位」を戦略的に選定し、埋め込みによる意味の数学的表現、そして大次元検索をスケールで効率的に実現するための技術インフラを扱います。

学習成果:

  • 評価・実装:特定のドメイン要件に基づいて、さまざまなチャンク戦略(固定長、構造意識型、階層型)を適用できる。
  • メカニズムの説明:埋め込みの仕組みと、意味的類似性と回答の有用性との違いを説明できる。
  • 技術理論の記述:ベクトルストアとインデキシングの技術理論について述べられ、検索速度(レイテンシ)と精度のトレードオフに注目できる。

🔹 授業3:高度な検索最適化:ハイブリッド検索と再ランキング

概要: この授業では、基本的なベクトル検索からプロダクショングレードの検索アーキテクチャへの移行について学びます。ハイブリッド検索(語彙的検索と意味的検索の組み合わせ)と、二段階検索パイプライン(再ランカーを用いて最も「回答を含む」証拠をLLMに届ける)に焦点を当てます。大規模コーパス向けの検索計画の設計方法を学び、ランク付けの質と生成精度との重要な相互作用を理解します。

学習成果:

  • 大規模コーパス(10万以上チャンク)に対してマルチステージの検索計画を設計でき、メタデータおよびフィルタリング戦略を含める。
  • 検索の目的(リコール)と再ランキングの目的(正確性/関連性)の違いを明確にできる。
  • 再ランキングが効果的なLLM生成にとって不可欠である理由を分析し、チャンク設計との相互作用を理解できる。

🔹 授業4:信頼性と品質:出典、最新性、評価

概要: この授業では、「説得力のある」プロトタイプから信頼性がありプロダクション準備完了のRAGアプリケーションへの移行に焦点を当てます。メタデータ設計が信頼できる出典付けと時間的正確性(最新性)を可能にすること、および検索と生成の両ステージを評価する多層フレームワークを提供することで、欺瞞的なデモを越えることを学びます。

学習成果:

  • 自動出典付けおよびバージョン対応検索をサポートする上流のメタデータ構造を設計できる。
  • 文書の新鮮さと権威性のバランスを取る最新性戦略を実装できる。
  • 統合的なベンチマークセットを作成し、診断的エラー解析を実施して、パイプライン内の具体的な障害を特定できる。

🔹 授業5:プロトタイプからプロダクションへ:統合とパイプライン統合

概要: この授業では、理論的なRAG要素からプロダクション対応アプリケーションの実務的現実への移行を学びます。個々の段階を一貫したエンドツーエンドアーキテクチャに統合し、可観測性、効果的な障害処理、および固有のシステムトレードオフの慎重な管理によって成功が定義される様子を学びます。受講者は、使いやすさのシステムとは、複雑さよりも証拠の追跡可能性と滑らかな動作を優先すべきであると学びます。

学習成果:

  • 実践的な9段階のエンドツーエンドアーキテクチャをマッピングできる。
  • パフォーマンス、精度、コストの間の重要なトレードオフを識別・評価できる。
  • エラーを特定のアーキテクチャ段階に遡って診断し、パイプラインの障害を特定できる。