본문 바로가기
카테고리 없음

사내 문서 RAG 지식검색 구축하기: Google Drive·Confluence 연동 가이드 (2025)

by Flowmind 2025. 8. 27.

RAG는 “사서+전문 요약가” 조합입니다. 먼저 권한 안에서 정확한 자료를 찾고, 그다음 근거가 보이는 답을 만들어 줍니다. 이 글은 엔지니어가 아니어도 이해되도록, 그러나 실무에서 바로 쓸 수 있도록 구성했습니다.

RAG 파이프라인 개요
수집 → 전처리/청킹 → 임베딩/색인 → 하이브리드 검색 → 인용 포함 응답
이 글로 해결하는 것
  • 사내 문서 검색 실패·중복 질문을 줄이고 업무 자동화 촉진
  • Google Drive·Confluence를 안전하게 연결하는 법
  • 보안 검색·거버넌스 지키면서 정확한 AI 답변 제공

왜 지금 RAG인가?

정확성—답마다 출처가 붙어 환각을 최소화합니다. 최신성—문서 변경 시 변경분만 재색인해 빠르게 반영합니다. 보안—사용자 권한(ACL) 밖 문서는 결과에 포함되지 않습니다. 기존 키워드 검색이 “어디에 있나”였다면, RAG는 “무엇이 답인가”입니다.

현업 예시 · “연차 이월 기준?” 질문에 HR 정책 PDF와 Confluence 페이지를 권한 범위 내에서 찾아 핵심 문단만 요약하고 [출처: 문서제목]을 함께 제시합니다.

아키텍처 한눈에(2025)

사용자 로그인(SSO) → 권한 필터 → 하이브리드 검색(BM25 키워드 + 벡터 의미 + 리랭킹) → 인용 포함 응답 → 감사 로그. 데이터 흐름은 Drive/Confluence → 수집기 → 전처리/청킹 → 임베딩 → 벡터DB(메타 필터 지원)입니다. 메타데이터 핵심은 ACL, 문서타입, 태그, 버전, 언어, PII.

구축 5단계(쉽게 따라하기)

  1. 계정·권한 연동: SSO(OAuth/SAML)로 로그인하고 토큰에 그룹 정보를 담습니다. 모든 검색은 해당 그룹 기준으로 필터링됩니다.
  2. 데이터 수집: Drive는 폴더 기준, Confluence는 스페이스·라벨 기준으로 연결합니다. Webhook을 켜서 새 문서·수정본만 추적합니다.
{ "sources":[ {"type":"google_drive","folders":["/Teams/HR","/Policies"],"include":["pdf","docx"],"watch":true}, {"type":"confluence","spaces":["ENG","OPS"],"labels":["policy","runbook"],"watch":true} ], "normalize":{"ocr":true,"dedup":{"strategy":"hash+simhash","threshold":0.92}} }
  1. 전처리·청킹: 정책·가이드 800~1000토큰(오버랩 120), 회의록 400~600토큰. 머리글/바닥글·서명 페이지 제거, 표는 텍스트로 풀어 노이즈를 줄입니다.
  2. 색인·검색: 벡터DB는 메타 필터(ACL/언어/태그)가 가능해야 합니다. 키워드와 벡터 결과를 합치고 상위 100개만 리랭킹해 비용을 통제합니다.
  3. 응답·인용: 각 단락 끝에 [출처: 문서제목]을 강제합니다. 근거가 약하면 추측하지 말고 “근거 부족”을 먼저 알립니다.

품질을 좌우하는 4가지

  • 의도 매핑: 절차·규정=키워드 가중치↑, 개념·설명=벡터 가중치↑
  • 데이터 위생: 해시 기반 중복 제거, 오래된 버전엔 archive 태그
  • 캐시 전략: 조직 FAQ 100개를 요약 캐시, 동일 사용자·동일 쿼리는 단기 캐시
  • 지표 관리: 정확성≥0.85, 충분성≥0.80, 인용율 100%, 권한오류율 0%, P95 지연≤3s(캐시)
정확성
≥0.85
인용율
100%
권한오류
0%
P95 지연
≤3s

보안·거버넌스 체크리스트

  • 소스 ACL → 인덱스 메타데이터로 1:1 복제, 검색/리랭킹/응답 단계에서 재검증
  • PII=true 청크는 기본 검색 제외 또는 관리자 전용
  • 소스 삭제 시 인덱스 soft-delete 후 야간 일괄 hard-delete
  • 출처 없는 응답은 차단 또는 감점 처리
  • 모든 조회·다운로드 이벤트를 감사 로그로 보존

FAQ

키워드 검색과 무엇이 다른가요?

키워드는 결과 목록을, RAG는 근거가 포함된 답을 제공합니다. 두 방식을 합친 하이브리드가 가장 안정적입니다.

권한이 복잡해도 안전할까요?

소스 ACL을 메타데이터로 보존하고 검색→리랭킹→응답 렌더링 단계에서 모두 필터링하면 무단 노출을 사실상 0%로 줄일 수 있습니다.

다국어 문서도 잘 되나요?

언어 감지 후 멀티언어 임베딩을 사용하고 lang 메타로 필터링하면 혼합 저장소에서도 품질이 유지됩니다.

비용은 어떻게 줄이나요?

변경분만 색인, FAQ/요약 캐시, 상위 100개 내 리랭킹 제한으로 토큰과 연산 비용을 크게 절감합니다.

어떤 기업에 특히 효과적일까요?

규정·정책 문서가 많고, 검색 실패로 재질문이 잦은 조직(인사/재무/운영/고객지원)에서 효과가 큽니다.

구축 난이도는 어느 정도인가요?

오픈소스로 PoC는 단기간에 가능하지만, 권한 연동·보안 검증·데이터 위생까지 포함하면 단계적 도입을 권장합니다.

바로 시작하려면
첫 주는 HR·정책 폴더 1곳만 연결해 작은 검색 시나리오를 돌려 보세요. 변경분 색인, 인용 강제, 권한 재검증—이 세 가지만 지켜도 체감 효과가 큽니다.

© 2025 Flowmind · 본 문서는 교육·레퍼런스 용도로 제공됩니다. 실제 도입 시 조직 보안·컴플라이언스 정책을 우선 검토하세요.