‘닥터 구글’의 시대는 저무는가? LLM이 그리는 의료 정보의 새로운 지평

오랜 기간 환자들은 자신의 증상에 대한 답을 찾기 위해 ‘닥터 구글’을 찾았습니다. 방대한 온라인 정보의 바다에서 길을 헤매고, 때로는 그럴듯하지만 사실과 동떨어진 정보에 현혹되어 불필요한 불안감과 잘못된 지식을 얻는 경우가 다반사였습니다. 하버드 의과대학의 마크 수치 교수는 이 과정을 ‘환자의 불안을 공격하고 잘못된 정보를 줄이는’ 싸움에 비유하기도 했습니다.

하지만 이제 거대한 언어 모델(LLM)이 의료 정보의 지형을 근본적으로 변화시킬 잠재력을 드러내고 있습니다. ChatGPT Health의 출시와 Anthropic의 클로드 헬스 통합 발표는 AI 거대 기업들이 이 분야에 얼마나 진지하게 임하고 있는지를 보여주는 대목입니다. 과연 LLM은 ‘닥터 구글’이 남긴 숙제를 풀어내고, 환자들의 의료 문해력을 한 단계 끌어올릴 수 있을까요?

LLM, ‘닥터 구글’의 대안이 될 수 있을까?

현재 온라인 의료 정보의 문제점은 명확합니다. 수치 교수의 언급처럼, 과거에는 환자들이 단순히 증상을 검색하다 잘못된 정보에 빠져들기 쉬웠습니다. 그러나 LLM을 통해 정보를 얻은 환자들은 마치 초기 의대생이 질문하는 수준의 심도 있는 질문을 던지기도 합니다. 이는 LLM이 단순 정보를 제공하는 것을 넘어, 환자의 이해 수준 자체를 높이는 가능성을 시사합니다.

물론 LLM의 위험성, 특히 사용자에게 동의하거나 사실을 지어내는 ‘환각(hallucination)’ 경향은 분명히 존재합니다. 하지만 이 위험성은 잠재적 이점과 함께 평가되어야 합니다. 자율주행차를 평가할 때, 사고 발생 여부보다는 인간 운전자에 비해 피해를 줄이는지 여부가 핵심이듯, ‘닥터 ChatGPT’가 ‘닥터 구글’보다 개선된 대안이 될 수 있다면 우리는 그 잠재력을 진지하게 들여다봐야 합니다. 초기 연구 결과들은 LLM이 의료 오정보와 불필요한 건강 불안이라는 인터넷 시대의 거대한 짐을 덜어줄 수 있음을 시사하고 있습니다.

정확도 논란과 실제 효용성

그렇다면 LLM의 실제 성능은 어떨까요? 매스 제너럴 브리검의 다니엘 비터만 임상 책임자는 개방형 챗봇의 효과를 평가하는 것이 ‘극히 어렵다’고 말했습니다. 실제로 LLM은 의료 면허 시험에서 높은 점수를 받지만, 객관식 문항은 실제 환자들이 챗봇을 사용하는 방식과는 거리가 있습니다. 워털루 대학의 시리샤 람바틀라 교수의 연구에서는 GPT-4가 정답 보기 없이 면허 시험 질문에 답했을 때, 의학 전문가들이 절반 정도만 ‘완전히 정확하다’고 평가하기도 했습니다.

하지만 보다 현실적인 질문에 대한 평가는 달랐습니다. 펜실베이니아 주립대학의 아무야 야다브 교수가 이끈 연구에서는 GPT-4o가 자원봉사자들이 제출한 실제와 유사한 의료 질문에 약 85%의 정확도로 답변했습니다. 야다브 교수는 개인적으로 환자 대면 의료 LLM에 회의적이었지만, ‘기술적으로는 그 역할을 수행할 수 있는 것 같다’고 인정했습니다. 그는 인간 의사도 10~15%의 오진율을 보인다는 점을 상기하며, ‘내가 좋든 싫든 세상은 변할 것’이라고 냉정하게 평가했습니다. 야다브 교수와 수치 교수는 모두 LLM이 구글 검색보다 더 나은 대안이 될 수 있다고 결론 내렸습니다. OpenAI가 GPT-5.2와 같은 새로운 버전을 계속해서 출시하고 있다는 점을 고려하면, 미래의 정확도는 더욱 높아질 것으로 예상됩니다.

에디터의 시선

LLM이 의료 정보 시장에 던지는 메시지는 명확합니다. 완벽한 대체재가 아닌, 기존 시스템의 ‘더 나은 개선책’으로서의 가능성입니다. 우리가 ‘닥터 구글’의 단점에 익숙해져 간과했던 수많은 오정보와 불안을, LLM은 한층 정교하고 신뢰성 있는 정보로 대체할 수 있는 잠재력을 가졌습니다. 마치 자율주행차가 인간 운전자의 사고율보다 낮은지 여부로 평가되듯, LLM 또한 인간 전문가의 오진율이나 기존 인터넷 정보의 혼란도와 비교되어야 할 것입니다.

물론 ‘환각’과 같은 AI의 고질적인 문제는 여전히 주의해야 할 부분입니다. 하지만 이 기술의 진화 속도는 놀랍습니다. 불과 몇 년 사이에 초기 LLM의 한계를 뛰어넘어, 이제는 실제 의료 질문에 85% 이상의 정확도를 보이는 수준에 도달했습니다. 앞으로 GPT-5.2를 넘어설 AI들은 더욱 정교한 추론과 정확한 정보를 제공할 것입니다.

중요한 것은 LLM이 의사를 대체하는 것이 아니라, 환자들이 보다 질 높은 질문을 던지고, 의료진은 그 질문에 기반하여 더 깊이 있는 진단과 치료에 집중할 수 있는 환경을 조성한다는 점입니다. 이는 단순히 정보의 변화를 넘어, 환자-의사 관계의 질적 향상과 의료 시스템의 효율화를 가져올 수 있습니다. 이제 우리는 LLM의 발전을 막을 수 없다는 현실을 직시하고, 어떻게 이 강력한 도구를 책임감 있게 활용하여 의료의 미래를 더욱 밝게 만들 것인지 고민해야 할 때입니다.