AI 도구, 인사평가에 넣었더니 벌어진 일 — 도입률 강제가 실패하는 이유

액센추어 70만 명, 아마존 700개 팀, 메타 전 직원. 2026년 들어 글로벌 빅테크와 대형 컨설팅펌이 AI 도구를 전사적으로 배포하고, 그 사용 여부를 인사평가에 반영하기 시작했다. “AI를 쓰지 않으면 승진도 없다”는 메시지가 조직 전반에 퍼지고 있다.

한 줄 요약: “얼마나 자주 쓰는가”와 “그래서 성과가 나았는가”는 다른 평가다. 액센추어 70만 명·아마존 700개 팀 도입에도 미국 직장인 49%는 AI를 한 번도 쓰지 않았고, 도입률 강제는 듀오링고처럼 1년 만에 철회되거나 아마존처럼 명령→협업으로 전환된다. HR은 로그인 빈도가 아니라 산출물 변화를 재야 한다.

그런데 정작 데이터를 들여다보면, 이 접근이 의도대로 작동하고 있는지 의심스럽다. 미국 직장인의 49%는 여전히 업무에서 AI를 한 번도 사용하지 않고, 주 1회 이상 사용자는 26%에 불과하다. 80%가 넘는 기업이 AI에 수십억 달러를 투자하고도 측정 가능한 생산성 향상을 보고하지 못한다.

핵심 문제는 단순하다. “얼마나 자주 쓰는가”를 재는 것과 “그래서 성과가 나았는가”를 재는 것은 완전히 다른 평가다.

70만 명

액센추어 코파일럿 365 전사 배포 (MS 역대 최대 규모)

People Matters (2026)

49%

미국 직장인 중 업무에서 AI 미사용 비율

본문 인용 데이터

MS 4.5억 기업 사용자 중 유료 코파일럿 사용

본문 인용 데이터

70만 명에게 코파일럿을 깔아주면 생산성이 오를까

마이크로소프트는 액센추어와 역대 최대 규모의 기업 AI 도입 계약을 체결했다. 코파일럿 365를 약 70만 명 전 직원에게 배포하는 프로젝트다. 액센추어 내부 설문(20만 명 대상)에 따르면, 97%가 반복 업무 처리 속도가 빨라졌다고 답했고, 특정 작업은 최대 15배 빠르게 처리된다고 보고했다.

인상적인 수치지만, 여기에 함정이 있다. 이 데이터는 자기보고(self-reported) 기반이다. 실제 산출물의 품질이나 비즈니스 성과와 연결된 검증은 아직 공개되지 않았다. 액센추어 CEO 줄리 스위트(Julie Sweet)는 “직원들이 이미 더 높은 가치의 업무를 수행하고 있다”고 말했지만, 마이크로소프트의 4억 5,000만 이상 기업 사용자 중 유료 코파일럿 사용 비율은 3%에 머물고 있다.

즉, 도구를 깔아주는 것과 도구가 성과를 만드는 것 사이에는 넓은 간극이 존재한다. HR 관점에서 이 간극을 메우려면, “로그인 횟수”가 아닌 “업무 산출물 변화”를 측정하는 프레임이 필요하다.

아마존이 ‘도입률 80%’ 목표를 수정한 이유

아마존은 내부 AI 도구(AI Teammate, Pippin, Kiro 등)를 700개 이상의 팀에 배포하고, 소매 엔지니어링 부문에서 80% 채택률 목표를 세웠다. 대부분의 팀에 소프트웨어 릴리스 속도 3배 향상을 기대했고, 일부 팀에는 10배 산출량 증가를 요구했다.

그런데 현장에서 마찰이 발생했다. 직원들은 세 가지를 문제 삼았다.

불명확한 측정 기준: 도구 사용 빈도를 재는 건지, 코드 품질 향상을 재는 건지 혼란
보고 부담: AI 활용 내역을 별도로 기록·보고해야 하는 행정 업무 추가
AI 스프롤(sprawl): 도구가 난립하면서 온보딩 복잡도가 급증

아마존은 이 피드백을 받아 접근 방식을 전환했다. 명령(mandate) 대신 협업 중심 관행(collaborative practices)으로 바꾸고, 추적은 자동화하며, 중앙화된 학습 플랫폼을 구축했다. 팀별 유연성도 보장했다. “채택률”이라는 숫자 자체보다, 도구와 팀이 실제로 맞물리는 방식을 설계하는 쪽으로 무게가 옮겨간 것이다.

HR 실무자에게 시사점이 크다. AI 도입 KPI를 설정할 때, 단일 채택률 목표보다 팀 단위 맞춤 지표(릴리스 속도, 반복 업무 감소율, 직원 NPS 등)를 병행해야 현장 저항을 줄일 수 있다.

주의 — 사용 빈도만 평가하면 “열어두는 행위”에 최적화된다 듀오링고는 2025년 4월 “AI 퍼스트” 선언과 함께 AI 활용도를 인사평가에 반영하겠다고 발표했지만, 1년도 채 되지 않아 철회했습니다. AI 생성 코드의 디버깅 어려움, 스토리 콘텐츠 품질 일관성 문제, 내·외부 반발이 이유였습니다. CEO 루이스 폰 안은 “가장 중요한 건 자기 직무를 잘 수행하는 것”이라고 밝혔습니다.

‘안 쓰면 해고’ — 그리고 듀오링고가 철회한 것

2026년 현재, AI 활용도를 인사평가에 공식 반영하는 기업은 빠르게 늘고 있다.

메타: 전 직원 대상 “AI 기반 임팩트”를 핵심 평가 항목으로 지정. 탁월한 AI 활용 성과에는 보상, 무시하면 저평가.
JP모건: 약 6만 5,000명 엔지니어의 깃허브 코파일럿 사용량을 등급화(usage tier)하고, 관리자에게 팀별 채택률 데이터를 주기적으로 제공.
블록(Block): AI를 사용하지 않는 직원은 해고 위험이 있다고 경고.

그런데 이 흐름에 역행하는 사례가 등장했다. 듀오링고(Duolingo)다.

2025년 4월 “AI 퍼스트” 선언과 함께 직원 AI 활용도를 인사평가에 반영하겠다고 발표했던 듀오링고는, 1년도 채 되지 않아 이 기준을 철회했다. CEO 루이스 폰 안(Luis von Ahn)은 “가장 중요한 건 자기 직무를 잘 수행하는 것”이라고 말했다.

철회 이유는 구체적이었다. 첫째, 직원들이 “AI를 위한 AI” 사용에 회의를 느꼈다. 둘째, AI가 생성한 코드가 디버깅하기 어렵고, 스토리 콘텐츠에서는 품질이 일관되지 않았다. 셋째, 사용자 이탈 위협까지 받으면서 내·외부 반발이 커졌다.

듀오링고 사례가 보여주는 교훈은 명확하다. “도구 사용 빈도”를 평가하면 직원은 도구를 ‘열어두는 행위’에 최적화한다. 실제 성과와 무관한 허수가 쌓인다.

실무 포인트 — 산출 지표를 함께 본다 단일 채택률 목표 대신 팀 단위 맞춤 지표(릴리스 속도, 반복 업무 감소율, 직원 NPS, 코드 리뷰 통과율 등)를 병행하면 현장 저항을 줄일 수 있습니다. 아마존이 VDE(Value Deriving Events)로 핵심 산출물을 측정한 것이 참고 사례입니다.

HR이 설계해야 할 AI 활용 평가 프레임

위 사례들을 종합하면, AI 도구 도입 자체는 막을 수 없는 흐름이다. 문제는 “사용 여부”를 인사평가에 넣는 방식이다. 도입률(adoption rate)과 성과 기여도(impact)를 분리하지 않으면, 아마존처럼 현장 저항을 만나거나 듀오링고처럼 철회해야 하는 상황이 반복된다.

실무에서 적용할 수 있는 3단계 프레임을 제안한다.

1단계 — 팀 단위 베이스라인 측정
AI 도입 전 현재 업무 산출량(릴리스 수, 보고서 건수, 처리 시간 등)을 기록한다. 아마존이 VDE(Value Deriving Events)라는 지표를 설계한 것처럼, 팀의 핵심 산출물에 맞는 맞춤 지표가 필요하다.

2단계 — 과정이 아닌 결과 평가
“코파일럿에 몇 번 로그인했는가”가 아니라 “AI 도입 후 반복 업무 처리 시간이 얼마나 줄었는가”, “코드 리뷰 통과율이 어떻게 변했는가”를 측정한다. 메타식 접근(AI 임팩트 보상)도 자기보고가 아닌 산출물 데이터로 뒷받침해야 실효성이 있다.

3단계 — 피드백 루프와 유연성 보장
아마존이 명령에서 협업으로 전환한 것처럼, 팀별 NPS(직원 만족도)를 주기적으로 수집하고, 도구가 맞지 않는 직무에는 예외를 허용한다. 도구 사용을 일률적으로 강제하면, 직원은 저항하거나(아마존 사례) 형식적으로만 사용하게 된다(듀오링고 사례).

정리하면

AI 도구를 인사평가에 연결하는 것 자체가 틀린 건 아니다. 문제는 “무엇을 재는가”다. 로그인 빈도, 사용 횟수 같은 투입 지표(input metrics)를 재면, 직원은 도구를 열어두는 데 최적화한다. 업무 산출물 변화, 처리 시간 단축, 품질 향상 같은 산출 지표(output metrics)를 재면, AI가 실제로 기여한 부분을 파악할 수 있다.

70만 명에게 코파일럿을 깔아주는 건 시작에 불과하다. HR이 해야 할 일은 “왜 쓰지 않느냐”고 추궁하는 것이 아니라, “쓸 때 무엇이 달라지는가”를 측정하는 체계를 만드는 것이다.

💡 시사점:

① 투입 지표가 아니라 산출 지표. 로그인 횟수·사용 빈도 같은 input metrics는 도구를 열어두는 행위만 키운다. 처리 시간 단축·품질 향상 같은 output metrics를 재야 실제 기여를 본다.

② 도입률 단일 목표는 위험하다. 아마존은 80% 채택률 목표를 명령에서 협업 중심 관행으로 전환했고, 자동 추적·중앙 학습 플랫폼·팀별 유연성으로 무게를 옮겼다. 단일 KPI는 마찰을 키운다.

③ 자기보고는 검증 데이터로 뒷받침해야 한다. 액센추어 97% “빨라졌다”는 자기보고이며, 실제 산출물 품질·비즈니스 성과 검증은 별도다. 메타식 임팩트 보상도 산출물 데이터 없이는 허수가 쌓인다.

#AI인사평가 #AI도입률 #코파일럿 #아마존AI #듀오링고

참고 링크

People Matters, “Microsoft to Deploy Copilot Across Accenture’s Around 7 Lakh Employees in Largest Enterprise Deal” (2026)
People Matters, “Amazon Expands Internal AI Tools to 700+ Teams as Adoption Accelerates” (2026)
Fortune, “Duolingo CEO backs off from evaluating employees on their AI usage” (2026)

작성: 서재홍 | NODE

실무 문서 가이드