콜롬비아 대학교의 크리에이티브 머신 랩(Creative Machines Lab)이 로봇 공학의 새로운 지평을 열었다. 연구진은 휴머노이드 로봇이 유튜브 영상을 시청하며 입술 움직임을 스스로 학습한 연구 결과를 발표했다. 이는 로봇의 얼굴 표현을 인간처럼 자연스럽게 만드는 중대한 전환점으로 평가받는다. 이 혁신적인 성과는 14일 ‘사이언스 로보틱스(Science Robotics)’에 게재됐다.
‘불쾌한 골짜기(Uncanny Valley)’는 로봇이 인간과 지나치게 유사할 때 오히려 기이함이나 불쾌감을 느끼는 심리적 현상을 말한다. 기존의 휴머노이드 로봇들은 보행이나 손동작 기술에서 상당한 진전을 이루었으나, 부자연스러운 입술 움직임 탓에 여전히 이 골짜기를 넘지 못했다. 인간의 시각적 인식이 얼굴 표정과 입술의 미세한 변화에 유독 민감하기 때문이다. 지금까지의 로봇들은 입력된 규칙에 따라 음소별로 입술을 움직였기에, 인간 특유의 자연스러운 흐름을 구현하는 데에는 한계가 있었다.
연구진은 ‘시각-행동 모델’을 도입해 로봇이 스스로 학습하는 방식을 택했다. 먼저 ‘자기 탐색’ 단계에서 로봇은 거울 앞에서 26개의 소형 모터로 구성된 얼굴을 움직이며 수천 가지 표정을 무작위로 지어 보였다. 이를 통해 어떤 모터 조합이 어떤 표정을 만드는지 스스로 데이터를 축적했다. 이어진 ‘관찰 학습’ 단계에서는 유튜브에 업로드된 수시간 분량의 인물 영상을 분석했다. 로봇은 사람들이 말하고 노래하는 모습을 보며 음성과 입 모양 사이의 통계적 상관관계를 파악했다.
학습 결과, 로봇은 다양한 언어의 말하기는 물론 AI가 생성한 앨범 ‘헬로 월드(Hello World_)’의 노래에 맞춰 정교하게 입술을 동기화(립싱크)할 수 있게 되었다. 물론 한계는 존재한다. ‘B’와 같은 강한 파열음이나 입술을 둥글게 오므려야 하는 ‘W’ 발음 등은 아직 완벽하게 구현되지 않았다. 이는 하드웨어적인 기술적 한계로 남아 있으나, 연구진은 더 방대한 데이터 학습과 상호작용을 통해 점차 개선될 가능성을 제시했다.
자연스러운 얼굴 표현은 교육, 의료, 노인 돌봄 등 사람과의 상호작용이 핵심인 분야에서 로봇의 정서적 연결감을 대폭 강화한다. 연구진은 “사람과 더 많이 교류할수록 로봇의 표현력도 진화할 것”이라고 강조했다. 향후 챗GPT(ChatGPT)나 제미나이(Gemini) 같은 대화형 AI와 결합한다면, 훨씬 정교한 감정 표현이 가능해질 것으로 기대된다. 다만 감정적 친밀감이 깊어짐에 따라 인간과 기계 사이의 정서적 경계가 흐려질 수 있다는 우려도 제기되어, 연구진은 이에 대한 신중한 접근을 당부했다.
현재의 미흡한 표현력은 데이터 축적과 상호작용 확대를 통해 해결될 가능성이 높다. 로봇이 감정 표현을 통해 인간과 깊은 정서적 유대를 형성하게 되면, 교육 및 의료, 돌봄 현장에서의 활용도는 비약적으로 상승할 것이다. 대화형 AI와의 결합은 자연스러운 대화와 감정 표현이 동시에 가능한 ‘완전한 로봇 인터페이스’의 등장을 예고한다. 그러나 기술의 발전 속도에 발맞춘 윤리적 기준과 규제 마련 또한 그 어느 때보다 중요하다.
이번 연구는 로봇 공학의 새로운 가능성을 제시하며 인간-로봇 상호작용(HRI)의 미래를 밝히고 있다. 로봇이 단순한 기계를 넘어 인간과의 정서적 유대를 강화하는 도구로 자리 잡을 수 있을지, 그 가능성과 한계를 지속적으로 탐구해야 할 시점이다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


