AI 성과 평가가 밀려온다 — 당신의 인사고과, 알고리즘이 먼저 읽고 있다

올해 초, 글로벌 HR 플랫폼 Lattice가 AI 기반 성과 리뷰 요약 기능을 출시하면서 한 문장이 업계를 관통했다. “매니저가 쓰는 평가 코멘트의 60%는 AI가 초안을 잡고 있다.” 이 숫자가 과장이든 아니든, 방향은 분명하다. 성과 평가의 첫 번째 독자는 더 이상 인사팀이 아니라 알고리즘이다.

한국도 예외가 아니다. 국내 기업의 생성형 AI 도입률이 55.7%를 넘어선 지금, HR 부서만 ‘수기 평가’에 머물러 있을 이유가 없다. 그런데 솔직히, 이 흐름이 마냥 반갑지만은 않다. 속도만큼 중요한 건 편향 검증이고, 그걸 빼먹으면 AI 성과 평가는 조직에 들어온 시한폭탄이 된다.

한 줄 요약: AI 성과 평가 도구가 빠르게 확산되고 있지만, 편향 감사(bias audit) 없이 도입하면 법적 리스크와 조직 신뢰 붕괴를 동시에 맞는다.

매니저 46%가 이미 AI로 평가하고 있다 — 그런데 교육은 받았나?

Gartner가 2025년 7월 실시한 서베이에 따르면, 매니저의 46%가 이미 AI를 활용해 팀 업무를 개선하고 있다. 여기에는 성과 피드백 초안 작성, 목표 달성률 자동 트래킹, 동료 평가 요약이 포함된다. 문제는 이 매니저들 대부분이 공식적인 AI 사용 교육을 받지 않았다는 점이다.

SHRM의 2026 State of AI in HR 리포트는 이 간극을 정면으로 짚는다. HR 부서에서 AI를 도입한 조직 중 67%의 HR 리더가 AI가 실제로 무엇을 할 수 있는지 정확히 모른다고 답했다. 도구는 들여왔는데 작동 원리를 모르는 상태. 개인적으로는 이게 가장 위험한 조합이라고 본다.

46%

AI를 업무 개선에 활용 중인 매니저 비율

Gartner HR Survey, 2025.7

67%

AI 기능을 정확히 파악하지 못한 HR 리더

SHRM State of AI in HR, 2026

3.2배

AI 숙련 직원의 프로세스 개선 효과

Gartner, 2026.3

여기서 한 가지 구조적 문제가 드러난다. AI에 능숙한 직원은 생산성이 2배, 업무 품질이 2.3배, 프로세스 개선 기여도가 3.2배 높다는 Gartner 데이터가 있다. 그렇다면 AI를 잘 쓰는 직원이 높은 평가를 받는 건 실력인가, 도구 접근성인가? 이 질문에 답하지 않은 채 AI 성과 평가를 도입하면, 디지털 디바이드가 그대로 평가 격차로 전이된다.

뉴욕시가 먼저 부딪힌 벽 — 편향 감사법의 현실

AI 성과 평가의 리스크를 가장 먼저 제도화한 곳은 뉴욕시다. 2023년 시행된 Local Law 144는 채용·승진에 사용되는 자동화 고용결정 도구(AEDT)에 대해 연 1회 독립적 편향 감사(bias audit)를 의무화했다. 감사 결과 요약을 웹사이트에 6개월간 공개해야 하고, 지원자에게 AI 평가 사실을 고지하며 대안적 선발 절차를 요청할 권리도 보장한다.

사례 — 뉴욕시 LL144 집행 감사2025년 12월, 뉴욕주 감사관실(Comptroller)이 LL144 집행 실태를 감사한 결과는 충격적이었다. 소비자·노동자보호국(DCWP)은 32개 기업의 웹사이트와 편향 감사를 검토해 단 1건의 미준수만 적발했지만, 감사관실 자체 조사에서는 같은 기업군에서 17건의 잠재적 위반이 확인됐다. 민원 처리 절차 오류, 형식적 준수 검토가 주원인이었다. 이건 좀 씁쓸한 대목이다 — 법을 만들어도 집행이 따라가지 못하면 기업은 ‘형식적 준수’로 빠진다.

한국에는 아직 LL144에 해당하는 전용 법률이 없다. 하지만 개인정보보호법의 자동화된 의사결정 규정(2025년 3월 시행)이 사실상 유사한 기능을 한다. 자동화된 평가에 대해 설명을 요구하고 거부할 수 있는 권리가 생겼다는 뜻이다. AI 성과 평가 도구를 도입한 기업이라면, 직원이 “내 평가에 AI가 어떻게 관여했는지 설명해달라”고 요청할 때 답변할 수 있어야 한다.

자동 평가 vs 인간 평가 — 핵심은 ‘무엇을 측정하느냐’

AI 성과 평가 도구가 잘하는 것과 못하는 것을 구분하면 논쟁의 윤곽이 선명해진다.

AI가 잘하는 영역: 목표 달성률 자동 집계, 동료 피드백 패턴 분석, 평가 코멘트 일관성 검토, 과거 데이터 기반 성과 추세 시각화. 이건 속도와 일관성의 문제이고, 인간보다 확실히 낫다.

AI가 못하는 영역: 맥락 판단. “지난 분기 실적이 떨어진 건 팀원 2명이 퇴사해서 업무가 몰렸기 때문”이라는 배경을 AI는 스스로 읽지 못한다. 조직 내 비공식 기여(후배 멘토링, 팀 분위기 조성)도 데이터에 잡히지 않는다.

Gartner는 이 지점을 이렇게 정리했다: “성과 관리 프로세스의 미래는 자동화지만, 성과를 관리하는 행위의 미래는 자동화될 수 없다.” 이건 핵심이다 — 평가 ‘절차’는 AI에 맡기되, 평가 ‘판단’은 사람이 쥐고 있어야 한다.

flowchart TD
    A[성과 데이터 수집] -->|자동화| B[AI 분석 엔진]
    B -->|패턴 추출| C[목표 달성률·피드백 요약]
    B -->|편향 감사| D[Bias Audit 모듈]
    C -->|초안 제공| E[매니저 리뷰]
    D -->|리포트| E
    E -->|맥락 보정| F[최종 평가 확정]
    F -->|피드백| G[직원 열람·이의제기]

위 흐름에서 핵심은 D(편향 감사)와 E(매니저 리뷰) 사이의 연결이다. 편향 감사 리포트가 매니저에게 전달되지 않으면, AI가 만든 초안이 그대로 최종 평가가 되는 구조가 고착된다. SHRM 리포트가 지적한 “설계 문제(design problem)”가 바로 이것이다.

한국 기업은 어디쯤 와 있나

한국경영자총협회 조사에 따르면 국내 기업의 생성형 AI 회사 차원 도입률은 38%다. 하지만 이 중 HR 성과 평가에 AI를 직접 적용한 사례는 아직 극소수다. 대부분은 채용 스크리닝, 교육 콘텐츠 추천, 출퇴근 데이터 분석 수준에 머물러 있다.

그런데 흥미로운 변화가 있다. 2026년 AI 투자를 확대하겠다고 답한 기업이 79%에 달하고, AI의 조직 내 영향이 일자리를 없애기보다 직무 책임을 재편할 가능성이 5.7배 높다는 SHRM 데이터가 나왔다. 이건 성과 평가 기준 자체가 바뀌어야 한다는 뜻이기도 하다. AI가 업무를 재편하는데, 평가 지표는 3년 전 그대로라면 — 그 평가 시스템은 이미 현실과 괴리된 것이다.

개인적으로는 한국 기업이 AI 성과 평가를 도입할 때 가장 먼저 해야 할 일이 평가 항목의 재설계라고 본다. KPI 대시보드에 AI 활용도를 넣을 건지, 아니면 AI가 자동 측정할 수 있는 지표와 매니저만 판단할 수 있는 지표를 분리할 건지. 이 구분 없이 도구만 들이면 현장의 반발은 불가피하다.

💡 AI·도구로 측정/자동화 가능한 부분

목표 달성률 자동 트래킹: OKR/KPI 도구(Lattice, Workday, 15Five)와 연동해 분기별 달성률을 실시간 대시보드로 시각화. 매니저의 수동 집계 시간을 제거한다.
동료 피드백 감성 분석: 360도 피드백 텍스트를 NLP로 분석해 긍정/부정/중립 비율, 반복 키워드를 자동 추출. 평가자 편향 패턴(특정 평가자가 항상 높은/낮은 점수를 주는 경향)도 감지 가능.
편향 감사 자동화: 성별·연령·직급별 평가 점수 분포를 자동 비교하고, 통계적 유의미한 차이가 발견되면 경고 알림 발송. NYC LL144 스타일의 연례 감사를 분기 단위로 축소할 수 있다.
평가 코멘트 일관성 검증: AI가 매니저별 코멘트 길이·구체성·톤을 분석해 “A팀장은 평균 3줄, B팀장은 평균 12줄” 같은 편차를 리포트. 평가 품질의 균일화를 유도한다.
이력 기반 성과 추세 예측: 과거 3~5년 평가 이력과 업무 로그를 결합해 성과 추세선을 그리되, 최종 판단은 반드시 매니저가 확정하는 하이브리드 모델 구현.

💡 실무 시사점: AI 성과 평가 도구 도입을 검토하는 실무자라면, (1) 평가 항목을 ‘자동 측정 가능’과 ‘인간 판단 필요’로 먼저 분류하고, (2) 도입 전 최소 1회 편향 감사를 실시하며, (3) 직원에게 AI 관여 사실을 고지하는 내부 가이드라인을 만들어야 한다. 속도보다 신뢰가 먼저다.

#AI성과평가 #편향감사 #HR테크 #성과관리자동화 #인사데이터

참고 링크

Gartner, “Gartner HR Survey Reveals 45% of Managers Report AI Has Lived Up to Their Expectations” (2026)
SHRM, “The State of AI in HR 2026 Report” (2026)
DLA Piper, “Critical Audit of NYC’s AI Hiring Law Signals Increased Risk for Employers” (2026)
Engagedly, “AI in Performance Reviews: Use Cases, Tools & Risks” (2026)
한국경영자총협회, “AI 도입이 기업 성과 및 생산성에 미치는 영향 및 시사점” (2025)

작성: 서재홍 | NODE

실무 문서 가이드

AI 성과 평가가 밀려온다 — 당신의 인사고과, 알고리즘이 먼저 읽고 있다