RAG는 “사서+전문 요약가” 조합입니다. 먼저 권한 안에서 정확한 자료를 찾고, 그다음 근거가 보이는 답을 만들어 줍니다. 이 글은 엔지니어가 아니어도 이해되도록, 그러나 실무에서 바로 쓸 수 있도록 구성했습니다.

- 사내 문서 검색 실패·중복 질문을 줄이고 업무 자동화 촉진
- Google Drive·Confluence를 안전하게 연결하는 법
- 보안 검색·거버넌스 지키면서 정확한 AI 답변 제공
왜 지금 RAG인가?
정확성—답마다 출처가 붙어 환각을 최소화합니다. 최신성—문서 변경 시 변경분만 재색인해 빠르게 반영합니다. 보안—사용자 권한(ACL) 밖 문서는 결과에 포함되지 않습니다. 기존 키워드 검색이 “어디에 있나”였다면, RAG는 “무엇이 답인가”입니다.
아키텍처 한눈에(2025)
사용자 로그인(SSO) → 권한 필터 → 하이브리드 검색(BM25 키워드 + 벡터 의미 + 리랭킹) → 인용 포함 응답 → 감사 로그. 데이터 흐름은 Drive/Confluence → 수집기 → 전처리/청킹 → 임베딩 → 벡터DB(메타 필터 지원)입니다. 메타데이터 핵심은 ACL, 문서타입, 태그, 버전, 언어, PII.
구축 5단계(쉽게 따라하기)
- 계정·권한 연동: SSO(OAuth/SAML)로 로그인하고 토큰에 그룹 정보를 담습니다. 모든 검색은 해당 그룹 기준으로 필터링됩니다.
- 데이터 수집: Drive는 폴더 기준, Confluence는 스페이스·라벨 기준으로 연결합니다. Webhook을 켜서 새 문서·수정본만 추적합니다.
{ "sources":[ {"type":"google_drive","folders":["/Teams/HR","/Policies"],"include":["pdf","docx"],"watch":true}, {"type":"confluence","spaces":["ENG","OPS"],"labels":["policy","runbook"],"watch":true} ], "normalize":{"ocr":true,"dedup":{"strategy":"hash+simhash","threshold":0.92}} }
- 전처리·청킹: 정책·가이드 800~1000토큰(오버랩 120), 회의록 400~600토큰. 머리글/바닥글·서명 페이지 제거, 표는 텍스트로 풀어 노이즈를 줄입니다.
- 색인·검색: 벡터DB는 메타 필터(ACL/언어/태그)가 가능해야 합니다. 키워드와 벡터 결과를 합치고 상위 100개만 리랭킹해 비용을 통제합니다.
- 응답·인용: 각 단락 끝에 [출처: 문서제목]을 강제합니다. 근거가 약하면 추측하지 말고 “근거 부족”을 먼저 알립니다.
품질을 좌우하는 4가지
- 의도 매핑: 절차·규정=키워드 가중치↑, 개념·설명=벡터 가중치↑
- 데이터 위생: 해시 기반 중복 제거, 오래된 버전엔 archive 태그
- 캐시 전략: 조직 FAQ 100개를 요약 캐시, 동일 사용자·동일 쿼리는 단기 캐시
- 지표 관리: 정확성≥0.85, 충분성≥0.80, 인용율 100%, 권한오류율 0%, P95 지연≤3s(캐시)
≥0.85
100%
0%
≤3s
보안·거버넌스 체크리스트
- 소스 ACL → 인덱스 메타데이터로 1:1 복제, 검색/리랭킹/응답 단계에서 재검증
- PII=true 청크는 기본 검색 제외 또는 관리자 전용
- 소스 삭제 시 인덱스 soft-delete 후 야간 일괄 hard-delete
- 출처 없는 응답은 차단 또는 감점 처리
- 모든 조회·다운로드 이벤트를 감사 로그로 보존
FAQ
키워드 검색과 무엇이 다른가요?
키워드는 결과 목록을, RAG는 근거가 포함된 답을 제공합니다. 두 방식을 합친 하이브리드가 가장 안정적입니다.
권한이 복잡해도 안전할까요?
소스 ACL을 메타데이터로 보존하고 검색→리랭킹→응답 렌더링 단계에서 모두 필터링하면 무단 노출을 사실상 0%로 줄일 수 있습니다.
다국어 문서도 잘 되나요?
언어 감지 후 멀티언어 임베딩을 사용하고 lang
메타로 필터링하면 혼합 저장소에서도 품질이 유지됩니다.
비용은 어떻게 줄이나요?
변경분만 색인, FAQ/요약 캐시, 상위 100개 내 리랭킹 제한으로 토큰과 연산 비용을 크게 절감합니다.
어떤 기업에 특히 효과적일까요?
규정·정책 문서가 많고, 검색 실패로 재질문이 잦은 조직(인사/재무/운영/고객지원)에서 효과가 큽니다.
구축 난이도는 어느 정도인가요?
오픈소스로 PoC는 단기간에 가능하지만, 권한 연동·보안 검증·데이터 위생까지 포함하면 단계적 도입을 권장합니다.
첫 주는 HR·정책 폴더 1곳만 연결해 작은 검색 시나리오를 돌려 보세요. 변경분 색인, 인용 강제, 권한 재검증—이 세 가지만 지켜도 체감 효과가 큽니다.