AI, 화이트칼라 지식 노동 대체 ‘멈칫’: 멀티 도메인 추론이 넘어야 할 산

마이크로소프트 CEO 사티아 나델라는 2년 전, AI가 변호사, 투자 은행가, 회계사 등 이른바 ‘화이트칼라’ 지식 노동을 대체할 것이라는 대담한 예측을 내놓았습니다. 이후 LLM(대규모 언어 모델)을 중심으로 AI 기술은 눈부신 발전을 거듭하며 복잡한 연구와 에이전트적 계획 수립 능력을 보여주기도 했습니다. 그러나 정작 현실에서는 지식 노동 영역에서의 AI 도입이 예상보다 훨씬 더디게 진행되고 있다는 역설적인 상황에 직면해 있습니다. AI의 발전 속도와 실제 업무 적용 간의 이 간극은 업계의 큰 미스터리 중 하나였습니다.

APEX-Agents 벤치마크: AI 한계의 냉철한 진단

이 미스터리를 풀 실마리가 최근 훈련 데이터 전문 기업 Mercor의 새로운 연구에서 드러났습니다. Mercor는 컨설팅, 투자 은행, 법률 등 실제 전문 직무에서 발생하는 화이트칼라 업무를 AI 모델이 얼마나 효과적으로 수행하는지 평가하는 새로운 벤치마크 ‘APEX-Agents’를 공개했습니다. 이 벤치마크는 기존 평가 방식과는 달리, 마치 실제 직무 환경처럼 여러 도메인에 흩어진 정보를 통합하고 추론해야 하는 복합적인 시나리오를 제시했습니다.

그 결과는 충격적이었습니다. 최신 AI 모델조차 이 벤치마크에서 ‘낙제점’을 면치 못했습니다. 실제 전문가들이 제시한 질문의 25% 이상을 제대로 맞추지 못했으며, 대부분의 경우 오답을 제시하거나 아예 답변을 하지 못하는 모습을 보였습니다. Mercor의 CEO 브렌든 푸디(Brendan Foody)는 AI 모델의 가장 큰 약점으로 ‘여러 도메인에 걸쳐 정보를 추적하고 통합하는 능력’을 꼽았습니다. 그는 “우리가 일을 하는 방식은 단 한 사람이 모든 맥락을 한곳에 제공하는 것이 아닙니다. 실제 생활에서는 Slack, Google Drive 등 다양한 도구를 넘나들며 작업합니다.”라고 설명하며, AI 에이전트의 멀티 도메인 추론 능력이 여전히 ‘복불복’ 수준임을 강조했습니다.

에디터의 시선: AI가 넘어야 할 ‘현실의 벽’

APEX-Agents 벤치마크는 현재 AI, 특히 LLM 기반 에이전트가 가진 근본적인 한계를 명확히 보여줍니다. 단일 문서나 잘 정돈된 데이터셋 내에서의 정보 처리 능력은 탁월할지 모르지만, 인간의 지식 노동은 본질적으로 파편화된 정보를 끊임없이 수집하고, 서로 다른 맥락과 연결 지어 통합적인 결론을 도출하는 과정입니다. 이는 단순히 검색 엔진을 통해 정보를 찾아내는 것을 넘어, 각 정보의 신뢰도, 중요성, 그리고 상호 관계를 복합적으로 판단하는 고도의 인지 능력을 요구합니다.

예를 들어, 유럽 연합 생산 중단 기간 중 개인 데이터 유출 문제에 대해 기업 내부 정책과 EU 개인정보보호법(GDPR)을 동시에 고려하여 합법성 여부를 판단하는 법률 문제는 단순한 정보 검색을 넘어선 깊이 있는 분석과 판단을 필요로 합니다. 현재의 AI 모델은 이러한 다층적이고 복합적인 ‘현실 세계’의 문제 해결 방식에 아직 미치지 못하고 있습니다. 이는 마치 뛰어난 조각가가 개별 조각품은 완벽하게 만들지만, 수많은 조각품을 모아 하나의 거대한 의미 있는 건축물을 만들어내는 데는 어려움을 겪는 것과 유사합니다.

이번 연구 결과는 AI의 미래 발전 방향에 중요한 시사점을 던집니다. 단순히 모델의 크기를 키우거나 학습 데이터를 늘리는 것을 넘어, AI 에이전트가 실제 지식 노동 환경에서 인간처럼 유연하게 정보를 탐색하고, 맥락을 이해하며, 복잡한 의사결정을 내릴 수 있도록 ‘멀티 도메인 추론’ 능력을 획기적으로 개선해야 할 것입니다. 이는 외부 도구 연동(Tool Use), 장기 기억(Long-term Memory), 그리고 자율 학습(Self-learning) 능력이 더욱 정교하게 결합된 차세대 AI 에이전트 아키텍처의 필요성을 강조합니다.

사티아 나델라의 예측이 완전히 틀렸다고 말하기는 아직 이릅니다. 하지만 AI가 화이트칼라 직무를 전면적으로 대체하기보다는, 우선적으로 특정 업무를 보조하고 효율성을 높이는 ‘인간-AI 협업’ 모델로 진화할 가능성이 더 커 보입니다. 이번 Mercor의 연구는 AI가 인간 지식 노동의 복잡성을 이해하고 그 격차를 줄여나가기 위한 첫걸음이자, 업계에 던지는 냉철한 경고등 역할을 할 것입니다. AI 개발자들은 물론, AI 도입을 고려하는 모든 기업에게 현실적인 기대치와 명확한 발전 방향을 제시하는 중요한 전환점이 될 것입니다.