TRACK

실무 문서 가이드

0 / 0 섹션 완료

‘정확한 조언’이 독이 될 때 — 640명 실험이 뒤집은 AI 민주화의 환상

15%. 상위 50% 사업자의 매출 증가폭이다. 같은 AI 도구를 받은 하위 50%는? -10%. 같은 도구, 같은 질문, 같은 답변. 결과만 정반대. 최근 발표된 640명 규모의 무작위 대조실험(RCT)이 보여준 건 단순한 실력 차이가 아니다. AI가 쏟아내는 ‘틀림없이 맞는 조언’이 하위 50%를 적극적으로 망친다는 것 — 진짜 위험은 환각(hallucination)이 아니라 범용 정답의 함정이다.

한 줄 요약: 같은 AI를 받았는데도 상위 50%는 +15%, 하위 50%는 -10%. 평균 0%가 감춘 진실은 AI가 ‘분기(divergence)’를 가속한다는 것. 진짜 리스크는 환각이 아니라 맥락 없는 정확한 정답이다.

“평균 효과 0” — 이 숫자가 감추는 것

640명의 소상공인을 무작위로 나눈 뒤, 절반에게 GPT-4를 쥐여줬다. 나머지 절반은 온라인 경영 교육을 받았다. 6개월 뒤 결과. AI 그룹의 평균 성과 변화는 “통계적으로 유의미하지 않음”이었다.

보통은 여기서 끝난다. “AI가 별 효과 없었다”는 1줄 요약. 그런데 이 평균이 감추고 있는 게 있다.

+15%

상위 50% — 매출·이익 동반 상승

MIT SMR / RCT 640명 (2026)

-10%

하위 50% — 맞는 조언에 당함

MIT SMR 동일 연구

≈0%

평균 효과 — 분기를 감추는 숫자

MIT SMR 동일 연구

상위 50% 사업자들은 매출과 이익이 15% 뛰었다. 하위 50%는 10% 가까이 빠졌다. +15와 -10을 합산하면? 대략 0이다. 평균은 정직하되, 진실은 아닌 셈이다.

(솔직히 이 연구가 “효과 없음”으로 묻힐 뻔한 건 아찔하다. 평균만 봤으면 가장 중요한 발견을 놓칠 뻔했다.)

그래서 AI의 진짜 효과는 ‘향상’이 아니라 ‘분기(divergence)’다.

같은 질문, 같은 답 — 그런데 왜 결과가 갈리나

여기서 흥미로운 지점이 나온다. 연구진이 로그를 분석했더니, 상위 그룹과 하위 그룹이 AI에게 한 질문의 수도, 유형도, 받은 답변의 내용도 거의 동일했다.

잠깐. 그러면 AI 품질 문제가 아니라는 뜻이다.

더 좋은 모델을 쓰면 해결될 거라는 가정. 더 정확한 답변을 주면 격차가 줄어들 거라는 기대. 이 데이터가 통째로 뒤집어버린다. 양쪽 다 동일하게 좋은 답변을 받았다. 차이는 답변의 질이 아니라, 답변 이후에 일어난 일이다.

그래서 AI 도구의 업그레이드는 이 문제의 해법이 될 수 없다.

하위 50%는 ‘맞는 말’에 당했다

하위 그룹의 행동 패턴을 뜯어보면 명확하다. 이들은 AI의 조언을 충실하게 따랐다. 가격을 낮추고, 광고비를 늘렸다. 경영학 교과서가 가르치는 바로 그 전략이다.

문제는 이게 ‘맞는 말’이라는 점이다. 일반론으로는 틀리지 않았다. 가격 경쟁력을 확보하고, 노출을 늘리라는 건 경영의 기본이니까. 그런데 이 ‘맞는 말’이 마진을 깎고, 비용을 올리고, 매출은 그만큼 못 따라왔다.

반면 상위 그룹은 달랐다. 사이버카페 사장은 게임 액세서리 대여 서비스를 만들었고, 세차장 사장은 새로운 세제와 음료를 도입했다. 이것도 AI가 제안한 건데, 차이는 자기 상황에 맞는 조언만 골라서 실행했다는 거다.

개인적으로 이 대목이 가장 섬뜩하다. AI가 틀린 말을 해서 피해가 생긴 게 아니다. 맞는 말을 했는데 피해가 생겼다. 환각(hallucination)보다 범용 정답이 더 위험할 수 있다는 뜻이다.

그래서 AI 리스크의 본질은 ‘오류’가 아니라 ‘정확하지만 맥락 없는 정답’이다.

환각보다 무서운 것 — 그럴듯한 범용 정답

AI 업계가 미친 듯이 투자하는 건 환각 줄이기다. 틀린 답을 안 하게 만드는 것. 그건 중요하다. 부정할 생각 없다.

그런데 이 실험이 던지는 질문은 다르다. 환각 제로인 AI가 완성되면 문제가 풀리는가? 이 640명 데이터를 보면 — 아니다. 오히려 더 악화될 수 있다.

주의 — 정확도가 키우는 함정 환각이 있으면 사람이 의심한다. AI가 완벽하게 정확해질수록 의심할 이유가 사라지고 “AI가 그렇다는데”가 최종 판단이 되어버린다. 정확도 향상은 범용 정답 함정을 더 깊게 만든다.

왜? 환각이 있으면 사람이 의심한다. “이거 맞아?” 한 번 더 확인한다. 그런데 AI가 완벽하게 정확한 조언을 주면? 의심할 이유가 사라진다. “AI가 그렇다는데”가 최종 판단이 되어버린다.

(이건 나만 느끼는 건가? AI가 정확해질수록 오히려 판단을 덜 하게 되는 역설.)

하위 그룹이 범용 조언을 무비판적으로 받아들인 것도 같은 맥락이다. “가격을 낮추세요”라는 조언은 객관적으로 틀리지 않다. 그래서 거부할 근거가 없다. 그래서 그대로 실행한다. 그래서 망한다.

그래서 AI의 정확도가 올라갈수록 ‘범용 정답 함정’은 깊어진다.

한국 중소기업 AI 보급 — 이 실험을 읽었을까

2026년 한국 정부의 중소기업 AI 관련 예산은 약 8,000억 원이다. AI 바우처로 기업당 최대 2억 원. 디지털 전환 컨설팅, 전문 인력 지원까지 포함하면 사상 최대 규모다.

그런데 전제가 뭔가. “AI를 도입하면 생산성이 올라간다.” 대한상의 보고서에 따르면 AI 도입 기업의 전요소 생산성 증가율이 7.6%다. 맞는 말이다.

문제는 이것도 평균이라는 점이다. 640명 실험의 “평균 효과 0″과 똑같은 함정에 빠질 수 있다. AI를 잘 쓰는 기업은 날아오르고, 못 쓰는 기업은 오히려 뒷걸음질 치는데, 합산하면 “7.6% 향상”이 되는 거다.

현재 한국 중소기업 AI 도입률은 약 5%. 대기업(49.2%)과 격차가 10배다. 80.7%의 중소기업이 “AI가 우리 사업에 필요하지 않다”고 답한다. 이 상태에서 바우처를 줘서 도입시키면 어떻게 될까. 640명 실험의 하위 그룹과 같은 일이 벌어질 가능성이 — 이건 추측이 아니라 데이터가 시사하는 방향이다.

그래서 AI 보급 정책은 ‘도입률’이 아니라 ‘판단력 보강’을 KPI로 삼아야 한다.

“판단력은 교육으로 되는가”라는 불편한 질문

여기서 한 가지 짚고 가자. 이 실험의 대조군은 AI 대신 온라인 경영 교육을 받았다. 연구진이 흥미롭게도 대조군의 상하위 분기에 대해서는 상세히 다루지 않았다.

만약 교육 그룹에서도 동일한 분기가 일어났다면? 문제는 AI가 아니라 ‘외부 조언’ 자체의 구조적 한계가 된다. AI든 교수든 컨설턴트든, 범용 조언은 판단력이 있는 사람에게만 작동하는 것일 수 있다.

그렇다면 “AI 도입 전에 판단력 교육을 시키자”는 해법도 위태롭다. 판단력이라는 건 교과서로 가르쳐지는 게 아니니까. 실패 경험, 시행착오, 업종 특유의 감(感)에서 오는 거다.

(이 부분이 솔직히 가장 답이 안 보인다. 판단력은 필요한데, 판단력은 가르칠 수 없고, AI는 판단력을 대체하지 못한다.)

그래서 정책 설계의 난이도가 생각보다 훨씬 높다.

실무에서 당장 할 수 있는 건 — 필터의 구조화

답이 없다는 건 아니다. 방향은 보인다.

640명 실험에서 상위 그룹의 공통점은 AI 조언을 그대로 실행한 게 아니라 자기 맥락에 맞는 것만 골라낸 거다. 이 ‘골라내기(filtering)’를 개인의 판단력에만 의존하지 말고, 구조로 만들 수 있다.

실행 팁 — 맥락 필터를 프롬프트로 AI에게 조언을 받기 전 마진율·고객 특성·경쟁 환경을 먼저 입력하고, 답변에 “이 조언이 적합한 조건”과 “부적합한 조건”을 함께 요구한다. 몇 줄의 프롬프트가 범용 정답 함정을 막는다.

구체적으로. AI가 조언을 줄 때 “이 조언이 적합한 조건”과 “부적합한 조건”을 함께 제시하게 만드는 것. 현재 비즈니스의 마진율, 고객 특성, 경쟁 환경을 먼저 입력하게 하고, 조언을 필터링하는 중간 단계를 끼워 넣는 것. 인사 실무도 마찬가지다. AI가 “이 후보를 추천합니다”라고 할 때, “다만 이런 조건에서는 이 추천이 부적합할 수 있습니다”를 반드시 병기하게 하는 것.

기술의 문제가 아니다. 설계의 문제다. 범용 조언에 맥락 필터를 씌우는 건 프롬프트 몇 줄이면 되는 일이기도 하다.

그래서 AI 도구를 쓰는 조직은 ‘조언 수용률’이 아니라 ‘조언 기각률’을 관리 지표로 삼을 필요가 있다.


결국 이 640명 실험이 증명한 건 AI의 능력이 아니라 AI의 한계도 아니다. ‘정확한 범용 조언’이라는 구조 자체의 위험성이다. AI가 틀려서 위험한 게 아니라, 맞는데 맥락이 없어서 위험하다.

한국의 AI 보급 정책, HR 부서의 AI 도입 계획, 개인 사업자의 AI 활용 — 모두 같은 함정 위에 서 있다. 도구를 나눠주는 건 쉽다. 도구를 쓰는 판단력을 키우는 건 어렵다. 그리고 이 실험이 보여주듯, 판단력 없이 도구를 쓰면 안 쓰는 것보다 못하다.

💡 실무 시사점 — AI 도구를 쓰는 조직이 점검할 3가지:

① 평균 KPI 폐기. “AI 도입률”·”평균 생산성”이 분기를 감춘다. 상위·하위 분포를 따로 추적.

② 맥락 필터 의무화. 프롬프트에 마진·고객·경쟁 환경 입력 + “부적합 조건”을 답변에 강제.

③ 조언 기각률을 관리 지표로. 수용률이 아니라 기각률·재질문률이 판단력 작동의 신호.

#범용정답함정 #AI분기효과 #맥락필터 #조언기각률

AI를 도입할지 말지는 더 이상 질문이 아니다. 진짜 질문은 이거다. 당신의 조직은 AI의 ‘맞는 말’을 거부할 준비가 되어 있는가.

참고 링크

작성: 서재홍 | NODE

ON THIS PAGE