팀장이 “좀 이상하다”고 느꼈을 때는 이미 늦다. 핵심 인재의 퇴사 의사는 보통 3~6개월 전에 결정되고, 그 신호는 출퇴근 패턴·업무량 변화·사내 네트워크 축소 같은 데이터에 먼저 나타난다. 문제는 HR팀 대부분이 이 데이터를 갖고 있으면서도 ‘분석’이 아닌 ‘감’에 의존한다는 점이다.
한 줄 요약: AI 퇴사 예측은 이미 F1 0.92 수준의 실전 정확도에 도달했다. 핵심은 모델 선택이 아니라 ‘왜 위험한가’를 설명할 수 있는가(SHAP)와 예측을 리텐션 액션으로 연결하는 파이프라인이다.
최근 발표된 AI 퇴사 예측 연구 세 편이 공통으로 말하는 메시지가 있다. “이미 실전 배치 가능한 정확도에 도달했다.” 다만, 모델을 고르는 것만큼 ‘왜 이 직원이 위험한가’를 설명하는 능력이 중요하고, 예측 결과를 실제 리텐션(유지) 액션으로 연결하지 않으면 기술은 무용지물이 된다.
F1 0.92 — LLM이 전통 모델을 뛰어넘은 지점
GPT-3.5를 HR 데이터로 파인튜닝한 연구에서 놀라운 결과가 나왔다. F1 스코어(정밀도와 재현율의 조화 평균) 0.92. 같은 데이터에 SVM을 적용하면 0.82, 랜덤포레스트와 XGBoost는 0.80에 머물렀다.
0.92F1
GPT-3.5 파인튜닝 — 비정형 텍스트까지 포착
arXiv 2411.01353 (2024)
0.80F1
XGBoost — 설명력·도입비용에서 우세
arXiv 2604.10337 (2025)
이 차이가 중요한 이유는 단순히 숫자가 높아서가 아니다. LLM(대규모 언어 모델)은 직원 설문, 면담 기록, 사내 커뮤니케이션 텍스트에서 전통 모델이 놓치는 미묘한 퇴사 징후를 포착할 수 있다. “업무 만족도 3점”이라는 숫자 뒤에 숨은 맥락 — “팀 분위기가 바뀌었다”, “성장을 못 느끼겠다” 같은 비정형 데이터까지 읽어내는 것이다.
HR 실무에서 이것이 의미하는 바는 명확하다. 연 1회 이직률 보고서를 만드는 대신, 실시간으로 이탈 위험군을 감지하는 시스템이 기술적으로 가능해졌다.
왜 최첨단이 항상 최선은 아닌가 — 모델 선택의 함정
“가장 복잡한 모델이 가장 좋다”는 직관은 HR 데이터에서 종종 틀린다. 트랜스포머 기반 SAINT 모델을 트리(tree) 모델과 결합한 하이브리드 실험이 이를 증명했다.
연구팀은 SAINT가 생성한 고차원 임베딩(데이터를 벡터로 변환한 표현)을 XGBoost·LightGBM에 넣으면 성능이 올라갈 것으로 기대했다. 결과는 정반대였다. 단독 XGBoost가 하이브리드 모델보다 정확도와 일반화 능력 모두에서 우세했고, 결정적으로 하이브리드 접근은 해석 가능성을 크게 떨어뜨렸다.
주의 — 해석 가능성은 선택이 아니다 “퇴사 확률이 높다”는 경고만으로는 팀장이 행동할 수 없다. “왜 높은지”를 설명할 수 없으면 모델은 의사결정에 쓰이지 못하고, 채용·평가에 적용할 경우 차별 시비의 근거가 된다.
HR 의사결정에서 해석 가능성은 선택이 아닌 필수다. “이 직원의 퇴사 확률이 높다”는 경고만으로는 부족하다. “왜 높은지” — 초과근무 시간이 급증했는지, 승진 정체 기간이 길어졌는지, 동료 관계 네트워크가 줄었는지를 설명할 수 있어야 팀장이 행동할 수 있다.
교훈은 분명하다. HR 팀이 첫 번째로 고려할 모델은 XGBoost·LightGBM 같은 트리 계열이다. 설명력이 높고, 정형 데이터(급여·근속연수·평가점수)에 강하며, 도입 비용이 낮다.
SHAP — “왜 이 직원이 위험한가”를 설명하는 기술
SHAP(SHapley Additive exPlanations)는 머신러닝 모델의 ‘블랙박스’를 여는 열쇠다. 각 예측에 대해 어떤 요인이 얼마나 기여했는지를 수치로 분해한다.
SHAP를 HR 퇴사 예측에 적용하면 이런 인사이트가 나온다:
- 초과근무 시간이 월 20시간을 넘기면 퇴사 위험이 급등 (+0.15 기여)
- 마지막 승진으로부터 3년 이상 경과 시 위험 신호 (+0.12 기여)
- 직무 만족도가 하위 20%일 때 단독으로 가장 강력한 예측 인자
- 반대로, 최근 교육 참여가 있으면 위험을 낮추는 보호 요인 (-0.08 기여)
실행 팁 — 위험 요인별 맞춤 개입 일률적 리텐션 보너스 ❌. 초과근무 → 업무 재분배, 성장 정체 → 사내 이동·프로젝트, 만족도 → 1:1 면담 트리거. SHAP 기여도가 액션을 분기시키는 분류기 역할을 한다.
이런 분해 결과가 있으면 HR팀은 일률적인 리텐션 보너스 대신, 위험 요인별 맞춤 개입을 설계할 수 있다. 초과근무가 문제인 직원에게는 업무 재분배를, 성장 정체가 문제인 직원에게는 사내 이동·프로젝트 기회를 제안하는 식이다.
최근 연구에서도 SHAP 기반 해석을 전면에 내세운 프레임워크가 제안되었는데, 핵심 메시지는 “예측보다 해석이 먼저”라는 것이었다. HR 데이터의 불균형(퇴사자가 소수), 범주형 변수의 다양성 같은 현실적 난제를 전처리 단계에서 해결한 뒤, 모델 해석을 통해 조직별 퇴사 드라이버를 맞춤 식별하는 접근이다.
지금 시작하는 3단계 실행 로드맵
AI 퇴사 예측은 데이터사이언스 팀이 없어도 시작할 수 있다. 핵심은 ‘완벽한 모델’이 아니라 ‘돌아가는 파이프라인’을 먼저 만드는 것이다.
1단계: 데이터 정비 (1~2개월)
HRIS(인사정보시스템)에 이미 있는 데이터를 정리한다. 근속연수, 부서 이동 이력, 평가 점수, 초과근무 시간, 교육 참여 횟수 — 대부분의 기업이 이 데이터를 보유하고 있지만 분석 가능한 형태로 통합하지 않았을 뿐이다. 불균형 데이터 처리(퇴사자 비율이 낮으므로 오버샘플링 또는 SMOTE 적용)도 이 단계에서 설계한다.
2단계: 파일럿 모델 구축 (1~2개월)
XGBoost 또는 LightGBM으로 시작한다. 오픈소스 라이브러리로 구현 비용이 거의 없고, SHAP 연동이 네이티브로 지원된다. 목표 정확도에 집착하지 말고, SHAP 결과가 현장 감각과 일치하는지를 검증 기준으로 삼는다. “이 모델이 초과근무를 1순위 위험 요인으로 뽑았는데, 우리 조직에서도 그게 맞나?”라고 팀장에게 물어볼 수 있으면 성공이다.
3단계: 액션 연결 (지속)
모델 자체보다 중요한 단계다. 위험군으로 분류된 직원에 대해 어떤 개입을 할 것인지 프로토콜을 정한다. 면담 트리거, 업무 재배치 검토, 경력개발 면담 등을 체계화한다. 비정형 데이터(설문 주관식, 1:1 면담 메모)까지 활용하고 싶다면 이 단계에서 LLM 파인튜닝을 검토한다 — 다만 이는 선택지이지 필수가 아니다.
감에서 데이터로, 예측에서 실행으로
AI 퇴사 예측의 진짜 가치는 “누가 떠날 것인가”를 맞히는 데 있지 않다. “왜 떠나려 하고, 무엇을 바꾸면 남을 수 있는가”에 답하는 데 있다. 트리 모델의 견고함, SHAP의 설명력, 그리고 LLM의 비정형 데이터 해석 능력 — 이 세 가지 도구가 각각의 역할에서 이미 실전 수준에 도달했다.
💡 실무 시사점 — HR이 이번 분기에 시작할 3가지:
① HRIS 데이터 정비. 근속·평가·초과근무·교육 이력을 한 테이블로 통합 + 불균형 처리(SMOTE) 설계.
② XGBoost + SHAP 파일럿. 정확도 욕심 ❌. SHAP 1순위 요인이 현장 감각과 일치하는지가 검증 기준.
③ 액션 프로토콜 사전 정의. 위험 요인별 개입(면담/재배치/이동)을 미리 매칭해 예측이 곧 실행으로 연결되게.
#퇴사예측#XGBoost#SHAP설명력#리텐션액션
남은 것은 기술이 아니라 실행이다. HR 데이터를 정비하고, 작은 파일럿을 돌리고, 결과를 현장 액션으로 연결하는 것. 올해 안에 시작하는 팀과 내년으로 미루는 팀의 리텐션 격차는 갈수록 벌어질 것이다.
참고 링크
- arXiv, “Can Large Language Model Predict Employee Attrition?” (2024)
- arXiv, “Integrating SAINT with Tree-Based Models: A Case Study in Employee Attrition Prediction” (2025)
- arXiv, “Mitigating Attrition: Data-Driven Approach Using Machine Learning and Data Engineering” (2025)
작성: 서재홍 | NODE