언캐니 밸리 넘어서나? 로봇, 인간처럼 ‘자연스러운’ 입술 움직임 학습 성공

오랜 시간 동안 로봇 공학자들을 괴롭혔던 문제 중 하나는 바로 로봇의 부자연스러운 얼굴 표정, 특히 입술 움직임이었습니다. 사람들은 대면 대화 시 상대방 입술 움직임에 거의 절반 가까운 주의를 기울일 만큼 미묘한 표현에 민감하게 반응합니다. 이러한 민감성은 로봇이 인간과 닮았지만 어딘가 불쾌하게 느껴지는 ‘언캐니 밸리(Uncanny Valley)’ 현상의 주요 원인이었죠. 어색한 걸음걸이나 서투른 손짓은 용서할 수 있어도, 얼굴 표정, 특히 입술 움직임의 미세한 오류는 즉시 두드러져 로봇을 섬뜩하거나 감정적으로 평평하게 보이게 만들었습니다.

하지만 이 같은 난관이 곧 해소될지도 모른다는 소식이 전해졌습니다. 지난 1월 15일, 컬럼비아 공학 연구팀은 휴머노이드 로봇 분야에서 중대한 진전을 발표했습니다. 연구팀은 세계 최초로 말하기와 노래를 위한 얼굴 입술 움직임을 ‘학습’할 수 있는 로봇을 개발했으며, 그 결과는 저명한 학술지 ‘Science Robotics’에 게재되었습니다.

사전 설정 대신 ‘관찰 학습’으로 자연스러움 추구

기존 로봇들의 입술 움직임은 대부분 사전에 설정된 규칙에 의해 제어되어 왔습니다. 이 방식은 기계적이고 부자연스러운 표현을 초래해 이질감을 주곤 했습니다. 하지만 컬럼비아 연구팀의 로봇은 달랐습니다. 이 로봇은 고정된 규칙에 의존하는 대신, ‘관찰 학습’을 통해 스스로 입술 움직임을 익혔습니다.

연구팀은 우선 로봇에게 26개의 독립적인 얼굴 모터를 사용하여 자신의 얼굴을 제어하는 방법을 가르쳤습니다. 로봇은 거울에 비친 자신의 모습을 보며 수천 가지의 무작위 표정을 실험했습니다. 마치 거울을 보며 표정을 짓는 아이처럼, 어떤 모터 움직임이 특정 얼굴 모양을 만들어내는지 점진적으로 학습한 것입니다. 이 과정에는 연구자들이 ‘비전-투-액션 언어 모델(Vision-to-Action Language Model, VLA)’이라고 부르는 기술이 활용되었습니다.

이후 로봇은 유튜브에 공개된 수많은 인간의 말하기 및 노래 동영상을 시청하며 학습을 이어갔습니다. AI 시스템은 다양한 소리에 따라 입 모양이 어떻게 변하는지 관찰하며, 오디오 입력과 모터 움직임을 직접적으로 연결하는 방식을 터득했습니다. 이러한 자기 학습과 인간 관찰의 결합을 통해 로봇은 소리를 동기화된 입술 움직임으로 변환하는 능력을 갖추게 되었습니다. 그 결과, 이 로봇은 여러 언어로 단어를 형성하고, 심지어 AI가 생성한 데뷔 앨범 ‘hello world_’의 노래를 공연하는 수준에 이르렀습니다. 연구를 이끈 호드 립슨 교수는 “인간과 더 많이 상호작용할수록 로봇은 더욱 능숙해질 것”이라고 언급했습니다.

물론 아직 완벽하지는 않습니다. ‘B’와 같은 강한 소리나 입술을 오므리는 ‘W’와 같은 소리에서는 여전히 어려움이 있지만, 립슨 교수는 이러한 능력 역시 시간과 연습을 통해 개선될 것이라고 말했습니다. 중요한 점은 로봇이 단순히 정해진 동작을 수행하는 것이 아니라, 스스로 학습하고 진화하는 능력을 갖췄다는 데 있습니다.

에디터의 시선

이번 컬럼비아 연구팀의 성과는 단순히 로봇이 ‘립싱크’를 잘하게 되었다는 것을 넘어, 휴머노이드 로봇 개발의 패러다임을 바꿀 만한 중요한 의미를 가집니다. 기존 로봇들이 물리적 움직임을 프로그래밍된 규칙에 따라 실행했다면, 이 로봇은 대규모 데이터(인간 영상)를 통해 스스로 학습하며 ‘자연스러움’의 본질에 접근했다는 점에서 LLM(거대 언어 모델)의 작동 방식과 유사성을 보입니다.

이는 두 가지 핵심적인 인사이트를 제공합니다.

  1. ‘언캐니 밸리’ 해소의 실마리: 부자연스러운 표정은 오랫동안 인간과 로봇의 친밀한 상호작용을 방해하는 가장 큰 요인이었습니다. 학습 기반의 유연한 입술 움직임은 로봇이 더 이상 ‘기계’가 아닌, 인간과 교감할 수 있는 ‘존재’로 인식되는 데 크게 기여할 것입니다. 이는 서비스 로봇, 의료/케어 로봇, 교육 로봇 등 다양한 분야에서 로봇의 수용성을 높이는 중요한 계기가 될 것입니다.
  2. AI 기반 신체 학습의 확장: 이번 연구는 얼굴 움직임에 초점을 맞췄지만, 이 ‘관찰 학습’ 및 ‘자기 학습’ 모델은 다른 신체 부위, 즉 팔, 다리, 몸통 등 로봇의 모든 물리적 움직임에 적용될 수 있습니다. LLM이 언어의 복잡성을 학습하듯이, 로봇은 이제 인간의 복잡한 신체 언어를 데이터 기반으로 학습하고 모방할 수 있는 길을 열었습니다. 이는 미래의 휴머노이드 로봇이 단순 반복 작업뿐만 아니라, 미묘한 사회적 상호작용과 복잡한 환경에 대한 적응력을 갖추게 될 것임을 시사합니다.

물론, 로봇이 단순히 표정을 ‘모방’하는 것을 넘어 인간의 감정을 ‘이해’하고 ‘표현’하는 수준에 도달하기까지는 아직 많은 연구가 필요할 것입니다. 또한, 너무나 인간과 닮아가는 로봇이 불러올 윤리적, 사회적 질문에 대해서도 지속적인 논의가 필요합니다. 하지만 컬럼비아의 이번 연구는 로봇이 인간 사회에 더 깊숙이 통합될 수 있는 중요한 기술적 진보를 보여주었으며, AI와 로봇공학의 융합이 만들어낼 미래 상호작용의 청사진을 제시했다고 평가할 수 있습니다. 로봇이 노래하고 대화하는 모습이 더 이상 영화 속 이야기가 아닌 현실이 되는 날이 머지않았습니다.