AI 성과평가가 관리자를 대체할 수 있을까 — 자동 리뷰 시대, 한국 사업장이 놓치는 3가지

분기마다 돌아오는 성과평가 시즌이면 관리자와 실무자 모두 긴장한다. 평가서 초안 작성에만 수십 시간, 360도 피드백 취합에 또 수십 시간. 그런데 막상 결과가 나오면 “내 평가가 왜 이런지 모르겠다”는 불만이 사내 게시판을 채운다. 이 반복되는 고통에 AI가 끼어들기 시작했다. 2026년 현재, Gartner 조사에 따르면 HR 리더의 61%가 생성형 AI를 인사관리에 본격 도입했고, 82%는 12개월 내 에이전틱 AI(자율 판단형 AI) 배포를 계획하고 있다. AI가 평가서 초안을 쓰고, 편향을 감지하고, 피드백을 요약하는 시대. 그런데 솔직히, 숫자만 보면 장밋빛이지만 현장은 그렇게 단순하지 않다.

한 줄 요약: AI 성과평가 도구가 빠르게 확산되고 있지만, ‘공정성 검증 → 직원 신뢰 → 규제 대응’이라는 세 가지 허들을 넘지 못하면 도구가 아니라 리스크가 된다.

관리자의 45%만 만족 — AI 성과평가의 현주소

2026년 3월 Gartner가 발표한 HR 서베이 결과는 흥미롭다. AI를 팀 업무에 활용한 관리자 중 45%만이 “기대만큼 효과가 있었다”고 답했다. 뒤집어 말하면, 절반 이상은 기대에 못 미쳤다는 뜻이다. AI가 못하는 게 아니라, 사람이 AI를 제대로 활용하지 못하고 있다는 게 더 정확한 진단일 수 있다.

실제로 AI 성과평가 도구가 하는 일은 명확하다. 주간 업무 로그, OKR 달성률, 동료 피드백 텍스트를 종합해서 평가서 초안을 자동 생성한다. 관리자가 30명의 팀원 평가서를 일일이 쓰던 시대에서, AI가 초안을 만들고 관리자가 검토·수정하는 방식으로 바뀌고 있다. Gartner 조사에서 AI 도구를 쓰는 직원의 62%가 시간 절약 효과를 체감했고, AI 관련 업무를 맡은 직원은 평균 하루 1.5시간을 아꼈다.

개인적으로는 이 “시간 절약”이라는 프레임 자체가 함정이라고 본다. 성과평가에서 실무자가 진짜 고통받는 건 시간이 아니라 ‘왜 이런 점수인지 모르겠다’는 불투명함이다. AI가 초안을 빨리 만들어준다고 해서 그 불투명함이 해소되는 건 아니다. 오히려 “AI가 뽑아낸 점수”라는 새로운 블랙박스가 추가될 뿐이다.

61%

HR 리더 중 생성형 AI 도입 완료 비율

Gartner, 2025

45%

AI 도입 후 ‘기대만큼 효과’ 응답 관리자

Gartner HR Survey, 2026.3

1.5시간/일

AI 활용 직원의 일일 평균 시간 절약

Gartner, 2026

공정성이라는 이름의 지뢰밭 — NYC 사례가 보여주는 것

AI 성과평가의 가장 큰 매력은 “사람보다 공정할 수 있다”는 전제다. 관리자의 개인적 호불호, 최근 사건에 편향되는 ‘최신성 편향(recency bias)’, 특정 인상이 전체 평가를 지배하는 ‘후광 효과(halo effect)’ 같은 인지적 함정을 AI가 걸러줄 수 있다. Deloitte는 AI 기반 성과관리에서 성과 개선이 최대 30%까지 나타날 수 있다고 봤다. 단, “편향 함정을 피하고 직원이 데이터 활용 방식을 이해할 때”라는 단서가 붙었다.

이건 좀 무서운 이야기다. 뉴욕시는 2023년부터 자동화 고용결정도구법(Local Law 144)을 시행하고 있다. AI를 채용이나 승진 결정에 활용하는 기업은 1년 이내 독립적 편향 감사(bias audit)를 받아야 하고, 결과를 공개해야 한다. 그런데 2025년 12월 뉴욕주 감사원(Comptroller) 보고서가 드러낸 실상은 충격적이었다. 소비자·근로자보호국(DCWP)이 수행한 집행 활동에서 최소 17건의 잠재적 위반이 확인됐지만, 실제 적발은 단 1건에 불과했다. 법은 있는데 집행이 안 되고 있었던 것이다.

이 사례가 한국 사업장에 시사하는 점은 분명하다. 한국에는 아직 AI 인사도구에 대한 별도 규제가 없다. 근로기준법 제93조(취업규칙), 제94조(취업규칙의 작성·변경 절차)가 평가 기준의 명시와 의견 청취를 요구하지만, AI 도구 자체의 편향 검증 의무는 없다. 규제가 없다고 해서 리스크가 없는 건 아니다. 평가 결과에 불만을 품은 직원이 “AI가 특정 집단을 불리하게 평가했다”며 노동위원회에 시정신청을 내는 날이 올 수 있고, 그때 기업이 “편향 없음”을 증명할 도구가 없다면 곤란해진다.

사례 — 뉴욕시 AI 채용도구 규제2023년 시행된 Local Law 144는 AI 기반 고용 결정 도구(AEDT)에 대해 연 1회 독립 편향 감사를 의무화했다. 그러나 2025년 감사원 점검에서 17건 위반 중 1건만 적발, 집행 체계의 한계가 드러났다. 2026년부터 강화된 조사와 일일 벌금(500~1,500달러) 부과가 예고되며, 글로벌 HR Tech 기업들은 편향 감사 인프라를 서둘러 갖추고 있다.

한국 사업장에서 ‘감시’와 ‘평가’의 경계

한국 HR 현장의 현실은 좀 다른 결을 가지고 있다. 한국경영자총협회와 휴넷의 2025년 조사에 따르면 국내 기업의 71.4%가 AI 관련 교육을 진행했고, 53.9%는 2026년에 AI 교육을 더 확대하겠다고 답했다. AI 도입 자체는 빠르게 확산되고 있는 셈이다.

그런데 핵심이다 — AI 성과평가 도구를 도입한다는 건, 직원의 업무 데이터를 상시 수집한다는 뜻이기도 하다. 이메일 응답 속도, 협업 도구 활동량, 코드 커밋 횟수, 회의 참여 빈도. 이 데이터가 “성과 측정”이라는 이름으로 수집되는 순간, 직원 입장에서는 “감시”와 구분이 안 된다. 아무리 좋은 기술이라도 직원들이 ‘감시당한다’고 느끼면 역효과가 나고, 이건 AI 도구 도입의 가장 흔한 실패 원인이다.

개인정보보호법 제15조(개인정보의 수집·이용)와 제22조(동의를 받는 방법)를 보면, 직원의 업무 활동 데이터를 AI 평가에 활용하려면 수집 목적, 항목, 보유 기간을 구체적으로 고지하고 동의를 받아야 한다. “성과관리 목적”이라는 포괄적 동의로는 부족할 가능성이 높다. 솔직히 이 부분에서 한국 기업 대부분이 준비가 안 되어 있다. AI 도구를 사오는 건 쉬운데, 데이터 수집 범위를 직원에게 투명하게 공개하는 건 전혀 다른 차원의 과제다.

flowchart TD
    A[AI 성과평가 도입 검토] -->|1단계| B[수집 데이터 항목 정의]
    B -->|개인정보보호법 제15조| C[직원 고지 및 동의 확보]
    C -->|2단계| D[편향 감사 프로세스 수립]
    D --> E{편향 검출?}
    E -->|Yes| F[모델 재학습 / 가중치 조정]
    F --> D
    E -->|No| G[평가 결과 관리자 리뷰]
    G -->|3단계| H[직원 피드백 채널 운영]
    H --> I[분기별 공정성 리포트 공개]

💡 AI·도구로 측정/자동화 가능한 부분

360도 피드백 자동 취합·요약 — 동료 피드백 텍스트를 LLM이 분석해 핵심 키워드·감정 톤을 추출하고, 관리자에게 요약 리포트 제공. Lattice, Culture Amp 등이 이미 상용화.
편향 탐지 대시보드 — 평가 점수 분포를 성별·연차·부서별로 실시간 모니터링. 특정 집단의 점수가 통계적으로 유의미하게 낮으면 알림 발송. Workday의 VIBE Index가 대표적.
평가서 초안 자동 생성 — OKR 달성률, 프로젝트 기여도, 피어 리뷰 데이터를 종합해 평가서 초안을 생성. 관리자는 수정·확인만 하면 됨. 30명 팀 기준 작성 시간 70% 이상 단축 가능.
최신성 편향(recency bias) 보정 — 분기 전체의 업무 데이터를 균등하게 반영하도록 가중치를 자동 조정. 평가 직전 성과만 과대 반영되는 문제를 시스템 차원에서 방지.
퇴사 예측과 연계한 평가 이상 징후 탐지 — 평가 점수 급락 + 근태 패턴 변화 + 협업 도구 활동량 감소가 동시에 나타나면 HR에 조기 경보. 리텐션 개입 시점을 앞당김.

결국 도구가 아니라 ‘신뢰 설계’의 문제

Gartner는 2027년까지 사람 중심 AI 전략이 없는 기업의 50%가 핵심 AI 인재를 경쟁사에 뺏길 것이라고 예측했다. 이 예측이 아프게 다가오는 이유가 있다. AI 성과평가 도구를 도입하는 기업일수록, 정작 그 도구에 가장 민감하게 반응하는 건 AI를 잘 이해하는 고급 인재들이기 때문이다. “이 알고리즘이 어떤 데이터로 학습됐는지, 내 평가에 어떤 변수가 반영됐는지”를 물을 수 있는 사람들이 먼저 떠난다.

한국 사업장에서 AI 성과평가를 도입하려면, 기술 선택보다 먼저 해야 할 일이 있다. 아쉽다 — 대부분의 도입 논의가 “어떤 도구를 쓸까”에서 시작하고 끝나버린다. 정작 필요한 건 ‘이 도구가 우리 직원의 어떤 데이터를 보는지, 그 결과를 직원이 이의 제기할 수 있는 채널이 있는지, 편향 검증은 누가 언제 하는지’를 먼저 설계하는 것이다. 도구는 그 다음이다.

이 판의 승자는 가장 정교한 AI를 쓰는 기업이 아니라, AI의 판단 과정을 직원에게 가장 잘 설명할 수 있는 기업이 될 것이다. 당신의 사업장은 “AI가 왜 이렇게 평가했는지” 직원이 물었을 때, 답할 준비가 되어 있는가?

💡 실무 시사점: AI 성과평가 도구 도입 전, 수집 데이터 항목 공개 → 직원 동의 → 편향 감사 프로세스 → 이의 제기 채널 순으로 ‘신뢰 인프라’부터 구축해야 한다. 기술이 아니라 거버넌스가 먼저다.

#AI성과평가 #편향감사 #HRTech #성과관리자동화 #인사데이터 #공정성검증

참고 링크

Gartner, “Gartner HR Survey Reveals 45% of Managers Report AI Has Lived Up to Their Expectations” (2026)
Gartner, “Gartner Predicts by 2027, 50% of Enterprises Without a People-Centric AI Strategy Will Lose Their Top AI Talent” (2026)
DLA Piper, “Critical audit of NYC’s AI hiring law signals increased risk for employers” (2026)
헬로티, “기업 10곳 중 7곳 AI 교육 진행…내년엔 더 늘린다” (2025)

작성: 서재홍 | NODE

실무 문서 가이드

AI 성과평가가 관리자를 대체할 수 있을까 — 자동 리뷰 시대, 한국 사업장이 놓치는 3가지