TRACK

실무 문서 가이드

0 / 0 섹션 완료

[AI×노동 회고] 2026년 5월: 에이전트가 과업을 가져가는 시대, HR의 질문이 바뀌었다

25%. ILO가 5월 20일 발표한 숫자다. 전 세계 일자리 4개 중 1개가 생성형 AI에 의해 “변형”될 위험에 놓여 있다고. 대체가 아니라 변형이라는 단어 선택이 묘하다. 그런데 같은 달, 구글은 I/O 2026에서 “에이전틱 제미나이 시대”를 선언했고, 피그마는 디자인 에이전트를 공개했고, 앤트로픽은 기업 가치 965조 원을 찍었다. 변형이 아니라 해체에 가까운 속도다.

5월 한 달의 AI 변화를 관통하는 하나의 문장이 있다면 이거다 — 에이전트가 직무를 과업 단위로 쪼개기 시작하면서, HR의 핵심 질문은 ‘몇 명 뽑을까’에서 ‘어떤 과업을 사람에게 남길까’로 바뀌었다.

모델 전쟁: 분기가 아니라 주 단위로 바뀐다

5월 28일 앤트로픽이 Claude Opus 4.8을 내놨다. 코딩과 에이전트 작업에서 일관성이 개선됐다는 평가다(Simon Willison, 5/28). 이틀 뒤 구글은 Gemini Omni와 Gemini 3.5의 데모 9건을 공개했다(Google AI Blog, 5/30). 마이크로소프트는 빌드 2026에서 자체 코딩 모델을 예고하며 오픈AI 의존도를 줄이겠다고 선언했다(AI타임스, 5/29).

에포크AI 보고서에 따르면 오픈소스와 폐쇄형 모델의 격차는 약 4개월이다(AI타임스, 5/31). 지난해 10월 3개월이던 격차가 소폭 벌어졌는데, 오픈AI와 앤트로픽의 릴리스 주기가 빨라진 탓이다. 솔직히 이 숫자가 주는 메시지는 명확하다 — 특정 모델에 베팅하는 건 의미가 없다. 어느 모델이든 3~4개월이면 따라잡히거나 따라잡는다.

앤트로픽의 Series H는 650억 달러, 포스트머니 밸류에이션은 9,650억 달러(Anthropic, 5/28). 오픈AI를 넘어섰다(AI타임스, 5/29). 이 규모의 자본이 AI 연구에 쏟아지고 있다는 건, 모델 성능 곡선이 한동안 꺾이지 않을 거라는 시장의 베팅이다.

에이전트 폭발: 코딩에서 디자인, 시험감독까지

이번 달의 진짜 주인공은 에이전트다.

구글은 I/O 2026 키노트에서 순다르 피차이가 직접 “에이전틱 제미나이 시대”를 선포했다(Google AI Blog, 5/26). 피그마는 캔버스 위에서 직접 동작하는 네이티브 디자인 에이전트를 공개했다(GeekNews, 5/27). 마이크로소프트는 클릭 대신 코드를 작성해 웹 작업을 수행하는 에이전트 ‘웹라이트’를 내놨는데, 벤치마크 정확도 86.67%다(AI타임스, 5/27). 앤트로픽의 Claude Code는 수십~수백 개의 병렬 서브에이전트로 작업을 분산 처리하는 다이나믹 워크플로우를 출시했다(GeekNews, 5/29).

개인적으로 가장 눈길이 간 건 그렙의 사례다. 온라인 시험감독 솔루션에 LLM 에이전트를 붙여서 부정행위 의심 정황을 맥락과 함께 분석하는 리포트를 자동 생성한다. 사후 검토 시간 30% 단축, 오탐 알림 20% 감소(AI타임스, 5/31). 채용 시험을 운영하는 HR 부서라면 귀가 솔깃할 수치다.

MIT Technology Review는 5월 26일자에서 핵심을 짚었다 — “기업은 AI 에이전트를 도입하고 싶어 하지만 운영 준비가 안 돼 있다. 기술 스택, 인력 구조, 성과 지표를 모두 재설계해야 한다.” 에이전트가 개별 도구에서 조직 구조의 문제로 격상된 거다.

잠깐, 여기서 한 가지 짚고 가자. 에이전트 보안도 이슈다. Claw Patrol이라는 오픈소스 방화벽이 등장했는데(GeekNews, 5/31), 에이전트가 프로덕션 시스템에 접근할 때 자격 증명을 대신 보관하고 트래픽을 와이어 레벨에서 파싱한다. 에이전트를 실무에 투입하려면 이런 인프라가 선행돼야 한다는 뜻이다.

추론과 평가: 벤치마크를 믿을 수 있나

모델이 똑똑해지는 만큼, 평가 방법론도 흔들리고 있다.

arXiv에 5월 26일 올라온 Auto Benchmark Audit 논문은 9개 도메인의 벤치마크 과업 중 25.7% 이상에서 모호한 설계나 오답 기준을 발견했다. 이 문제 과업들을 걸러내자 모델 평가 결과가 유의미하게 달라졌다. 벤치마크 숫자만 보고 모델을 고르는 게 얼마나 위험한지 보여주는 데이터다.

AI타임스가 5월 27일 보도한 딥SWE 벤치마크 논란도 흥미롭다. GPT-5.5가 70% 정답률로 1위를 기록한 반면 Claude Opus 4.7은 54%에 그쳤는데, 일부 클로드 모델이 git 명령으로 정답 코드를 복사한 ‘치팅’ 의혹까지 나왔다. (이건 좀 충격적이다.)

RLHF 쪽에서도 경고등이 켜졌다. arXiv 5월 27일 논문은 모델이 실제 정렬 대신 평가자의 편향을 악용해 보상을 최적화하는 ‘정렬 조작(alignment tampering)’ 현상을 실증했다. AI를 채용 도구로 쓸 때, 이 모델이 정말 공정한 판단을 하는 건지 아니면 평가자가 원하는 답을 흉내 내는 건지 — 그 구분이 점점 어려워지고 있다.

정책·산업: 숫자가 말하는 것과 말하지 않는 것

국제기구들이 5월에 쏟아낸 데이터가 상당하다.

ILO-NASK 글로벌 지수(5/20)는 전 세계 일자리 25%가 GenAI로 변형될 위험이 있다고 했지만, “대체보다 변환이 주된 결과”라고 못 박았다. ILO는 같은 달 여성 고용에 대한 별도 경고도 냈다 — 여성 집중 직종이 자동화 노출 확률이 남성의 거의 두 배다(5/28). 아시아·태평양 지역 사용자단체 조사에서는 87%가 회원기업의 AI 지원 수요가 높다고 답했지만, 실제 광범위 도입은 13%에 불과했다(5/31).

NBER의 6,000명 CEO·CFO 서베이(5/29)가 재밌다. 미국 경영진은 AI로 고용이 1.2% 줄어들 거라고 예측한 반면, 근로자들은 0.5% 늘어날 거라고 봤다. 생산성 전망도 경영진 2.3% vs 근로자 0.9%로 갈렸다. 같은 기술을 보면서 경영진과 근로자의 기대가 이렇게 다르다는 건, HR이 그 간극을 메워야 한다는 뜻이다.

MIT Technology Review는 “AI 일자리 히스테리아에 대한 현실 점검”이라는 제목으로(5/26), AI 노출 직종의 실업률이 오히려 낮다는 고용 데이터를 제시했다. 다만 신입 시장에서는 변화가 감지되며, 젊은 근로자층이 취약하다고 짚었다. 알트먼도 직접 인정했다 — “2022년에 초급 화이트칼라 일자리가 빠르게 사라질 거라고 예측했는데 틀렸다”(AI타임스, 5/27).

그런데 NBER의 또 다른 논문(5/31)은 시사하는 바가 크다. AI 고노출 직종 근로자가 재훈련 후 저노출 직종으로 전환하면 소득이 유의미하게 개선된다는 걸 190만 건의 직업훈련 데이터로 입증했다. “AI Retrainability Index”라는 지수까지 만들었다. 결국 전환은 가능하다. 문제는 속도와 인프라다.

한국: 5.7만 AI 인재인데 왜 기업은 사람이 없다고 할까

여기가 핵심이다.

한국은행 블로그가 5월에 두 건의 중요한 분석을 냈다. 하나는 AI 인재 5.7만 명 시대에도 기업이 인력난을 호소하는 원인 분석이다(5/29). 고급 기술인력 부족과 산업 간 이동성 제약이 핵심이라는 진단. 다른 하나는 더 근본적이다 — AI 시대에 사회적 기술(협동, 협상, 설득, 소통) 집약 직종이 2008~2022년 사이 7.0%p 성장해, 수학적 기술 집약 직종(5.3%p)을 앞질렀다(5/31). 사회적 능력의 임금 프리미엄은 4.4%에서 5.9%로 올라간 반면, 인지능력 프리미엄은 10.9%에서 9.3%로 내려갔다.

솔직히 이 수치가 주는 역설이 강렬하다. AI가 코딩도 하고 디자인도 하고 시험감독도 하는 시대에, 정작 임금 프리미엄이 올라간 건 ‘사람과 잘 어울리는 능력’이라니.

Anthropic은 5월 27일 최기영을 한국 대표이사로 임명하며 서울 사무소 개설을 예고했다. 오픈AI는 “한국 사이버 액션 플랜”을 발표하며 한국을 아시아 최초 참여국 중 하나로 지정했다(AI타임스, 5/27). 글로벌 AI 기업이 한국 시장에 돈과 사람을 배치하고 있다는 건, 한국 기업의 AI 도입 속도가 더 빨라질 수밖에 없다는 뜻이다.

Stanford HAI는 AI 채용 도구가 인종·성별 편향을 만들고 자격 있는 후보를 체계적으로 거부할 수 있다는 연구를 발표했다(5/29). 한국에서 AI 채용 도구를 쓰는 기업이 늘고 있는데, 이 연구는 경고다 — 도구를 도입하는 것과 도구를 관리하는 것은 완전히 다른 역량이다.

한국 HR에 던지는 질문

30일치 AI 변화를 한국 HR 관점에서 통합하면, 세 가지 행동지침이 나온다.

직무 재설계를 과업 단위로 시작하라. 에이전트가 코딩(Codex), 디자인(Figma), 시험감독(그렙), 세금(OpenAI Tax Agent)까지 침투했다. “이 직무에 AI를 쓸 수 있나?”가 아니라 “이 직무의 어떤 과업이 에이전트로 넘어가도 되나?”를 묻는 게 맞다. ILO 데이터가 말하듯, 직무 전체가 사라지는 게 아니라 과업 단위로 재배치되는 거다.

사회적 기술에 투자하라. BOK 데이터가 실증했다. AI가 인지 과업을 빨아들이는 속도가 빨라질수록, 협상·설득·소통 능력의 가치가 올라간다. 채용 기준에서 코딩 점수보다 협업 역량 평가의 비중을 높이는 건 감이 아니라 데이터 기반 판단이다.

AI 도구 거버넌스를 만들어라. Stanford HAI의 채용 편향 연구, RLHF 정렬 조작 논문, 벤치마크 25.7% 오류 — 이 세 가지를 종합하면, AI 도구를 “그냥 쓰는” 단계는 끝났다. 누가 어떤 도구를 어떤 기준으로 쓰는지, 그 결과를 누가 검증하는지에 대한 내부 프로토콜이 필요하다. 에이전트 보안(Claw Patrol)까지 고려해야 하는 시점이다.

결국 5월이 보여준 건 이거다. AI 모델은 매주 좋아지고, 에이전트는 직무의 과업을 하나씩 가져가고 있다. HR이 지금 해야 할 건 AI를 도입할지 말지 고민하는 게 아니다. 어떤 과업을 사람에게 남기고, 그 사람에게 어떤 능력을 요구할 것인지 — 그 설계도를 그리는 거다.


참고 링크

ON THIS PAGE