AIPilotSmarteasy 나 교수와 글 읽기 – AI, 채팅창을 벗어나 로봇의 두뇌가 되다
“AI, 채팅창을 벗어나 로봇의 두뇌가 되다” 라는 글을 나 교수와 같이 읽었습니다.
저스틴: “읽을 글 제목은 “AI, 채팅창을 벗어나 로봇의 두뇌가 되다” 입니다.”로 시작했습니다.
AI, 채팅창을 벗어나 로봇의 두뇌가 되다
제공해주신 검색 결과를 바탕으로 “AI, 채팅창을 벗어나 로봇의 두뇌가 되다”라는 제목의 글을 작성해 보겠습니다. 검색 결과는 AI 기반 로봇 제어 시스템의 발전에 초점을 맞추고 있으므로, 본 글 또한 그 맥락을 따르겠습니다.
최근 몇 년 동안, 인공지능(AI)은 채팅봇, 이미지 생성 등 다양한 분야에서 눈부신 발전을 이루었습니다. 하지만 AI의 진정한 잠재력은 단순한 대화나 이미지 생성을 넘어, 물리적인 세계와 상호작용하는 로봇 제어에 있습니다. 과거 로봇 제어는 복잡한 프로그래밍과 정교한 알고리즘에 의존했지만, 이제 AI는 로봇의 “두뇌” 역할을 수행하며 더욱 자율적이고 지능적인 로봇 시스템을 가능하게 하고 있습니다.
검색 결과에서 확인할 수 있듯이, 구글의 RT-2와 같이 자연어를 통해 로봇을 제어하는 AI 모델이 등장하고 있습니다. 이러한 모델은 사전 학습의 필요성을 줄이고, 시각 및 언어 정보를 통해 스스로 작동하며 다양한 작업을 수행할 수 있습니다. 이는 로봇 제어의 패러다임을 전환하는 혁신적인 사례입니다. 더 나아가, 생추어리 AI의 ‘카본(Carbon)’과 같이 대형행동모델(LBM)을 활용하여 텍스트 대신 행동과 작업 데이터로 AI를 학습시키는 방식 또한 주목할 만합니다. 이는 로봇의 학습 과정을 더욱 효율적이고 직관적으로 만들어줍니다.
이러한 AI 기반 로봇 제어 시스템의 발전은 다양한 분야에 혁신을 가져올 것으로 예상됩니다. 스마트 팩토리에서의 자동화, 위험한 환경에서의 작업 수행, 의료 분야에서의 정밀 수술 지원 등 그 활용 가능성은 무궁무진합니다. 딥러닝, 머신러닝, 컴퓨터 비전 등의 기술 발전은 로봇의 지능과 자율성을 더욱 향상시켜 더욱 복잡하고 정교한 작업을 가능하게 할 것입니다.
하지만 AI 기반 로봇 제어 시스템의 발전은 기술적인 문제뿐만 아니라 윤리적인 고려 또한 필요합니다. AI의 의사결정 과정의 투명성, 안전성 확보, 그리고 AI 로봇의 책임 소재 등 해결해야 할 과제들이 남아 있습니다.
결론적으로, AI는 단순한 채팅 도구를 넘어 로봇 제어의 핵심 기술로 자리매김하고 있습니다. 지속적인 기술 발전과 윤리적인 고려를 통해 AI 기반 로봇 시스템은 미래 사회의 혁신을 이끌어갈 중요한 동력이 될 것입니다.
참고: 이 글은 제공된 검색 결과를 기반으로 작성되었으며, 더욱 풍부한 내용을 위해 추가적인 정보가 필요할 수 있습니다.
저스틴 메모: AI의 진정한 잠재력은 단순한 대화나 이미지 생성을 넘어, 물리적인 세계와 상호작용하는 로봇 제어에 있습니다. 과거 로봇 제어는 복잡한 프로그래밍과 정교한 알고리즘에 의존했지만, 이제 AI는 로봇의 “두뇌” 역할을 수행하며 더욱 자율적이고 지능적인 로봇 시스템을 가능하게 하고 있습니다. AI 기반 로봇 제어 시스템
서론 부분을 복사해서 전달했습니다.
들어가며: AI, 로봇의 두뇌를 깨우다 – 중국 주도의 Embodied AI 경쟁 시대
세계는 AI 주도권 경쟁의 한가운데 있습니다. 특히 중국의 영향력은 무시할 수 없습니다. AI 관련 논문 발표 건수는 미국을 압도적으로 앞서고 있으며, 특허 건수 또한 압도적인 수치를 보입니다. [1, 2] 이러한 중국의 AI 패권 경쟁은 로봇 분야에서 더욱 뚜렷하게 드러납니다. 2024 세계인공지능컨퍼런스(WAIC)에서 공개된 18대의 휴머노이드 로봇과 세계 로봇 특허의 2/3를 차지하는 압도적인 특허 건수는 중국이 로봇 분야에 얼마나 집중하고 있는지를 보여줍니다. [3] 중국이 로봇에 사활을 거는 이유는 무엇일까요?
그 해답의 실마리는 NVIDIA CEO 젠슨 황의 발언에서 찾을 수 있습니다. 그는 AI의 미래를 “물리 세계를 이해하고, 현실 세계에서 작동하는 AI”로 정의하며, 자율 주행 자동차와 AI 휴머노이드 로봇을 미래 시장을 지배할 핵심 기술로 지목했습니다. [4] 젠슨 황의 예측은 단순한 예측이 아닌, 이미 빅테크 기업들이 공통적으로 인지하고 있는 AI의 다음 단계를 보여줍니다. AI의 가장 효과적인 응용 분야로 로봇을 주목하고 있는 것입니다.
다양한 공학 기술의 집약체인 로봇은 기계 및 전자공학의 발전에 힘입어 꾸준히 발전해왔습니다. 하지만 AI의 등장은 로봇에 진정한 “두뇌”를 심어주었습니다. AI와 로봇의 융합은 “Embodied AI,” 즉 물리적으로 실체화된 AI라는 새로운 개념을 탄생시켰습니다. 특히 대규모 언어 모델(LLM)과 멀티모달 모델의 발전은 로봇이 다양한 환경과 상호작용하고, 자율적인 판단과 실행을 가능하게 하는 기반을 마련했습니다.
본 글에서는 로봇의 발전 역사를 간략히 살펴보고, 세계적으로 주목받는 로봇 기업들을 소개하며, AI 기술이 기존의 로봇 제어 방식을 어떻게 혁신적으로 변화시키는지 심층적으로 논의하겠습니다. 중국을 중심으로 펼쳐지는 Embodied AI 경쟁 시대의 현황과 미래를 조망해 보도록 하겠습니다.
본문 내용을 섹션 별로 전달했습니다.
인간이 되고 싶은 로봇의 꿈: AI가 쓴 새로운 장
산업용 로봇, 협동 로봇, 이동형 로봇 등 다양한 로봇이 존재하지만, 이 글에서는 AI의 적용으로 가장 큰 혁신을 맞이하고 있는 휴머노이드 로봇에 초점을 맞춰 로봇 개발의 역사를 간략히 살펴보겠습니다.
1961년, 최초의 산업용 로봇 유니메이트(Unimate)가 GM 자동차 생산라인에 투입된 이후, 로봇 팔뿐 아니라 인간과 유사한 형태의 로봇, 즉 휴머노이드 개발을 위한 연구가 시작되었습니다. 1960년대부터는 안정적인 보행을 위한 이론적 연구가 활발히 진행되었는데, ZMP(Zero-Moment Point) 이론이 대표적입니다. ZMP는 로봇이 넘어지지 않고 균형을 유지하는 지점을 계산하는 수학적 모델로, 이를 통해 로봇의 안정적인 보행이 가능해졌습니다. 이러한 연구를 바탕으로 1970년대에는 일본 와세다대학에서 최초의 휴머노이드 로봇 WABOT-1이 탄생했습니다. (그림 1 참조)
1980년대 MIT Leg Lab.의 다양한 보행 로봇 실험과 1990년대 혼다의 P 시리즈(P1, P2, P3) 그리고 2005년 아시모(ASIMO) 발표는 휴머노이드 로봇 개발의 중요한 이정표였습니다. 특히 보스턴 다이내믹스(Boston Dynamics)는 안정적인 보행과 다양한 환경 적응력을 갖춘 4족 보행 로봇 빅독(Big Dog)과 뛰어난 동작 능력을 선보인 2족 보행 로봇 아틀라스(Atlas)를 통해 로봇 기술의 새로운 지평을 열었습니다.
그러나 과거의 로봇은, 뛰어난 기계적 성능에도 불구하고, 사람과의 상호작용이 부족하고 자율적인 업무 처리 능력이 제한적이었습니다. 2020년대에 들어 AI 기술의 급격한 발전은 이러한 한계를 극복하는 혁신을 가져왔습니다. AI는 로봇에게 눈과 두뇌를 제공하여, 자율적인 판단과 실행이 가능한 진정한 의미의 지능형 로봇을 만들었습니다. 테슬라의 옵티머스, Figure AI의 Figure 02, 그리고 보스턴 다이내믹스의 아틀라스 등이 대표적인 사례이며, 특히 중국의 눈부신 성장세는 로봇 산업의 경쟁을 더욱 치열하게 만들고 있습니다. (그림 2 참조)
결론적으로, 휴머노이드 로봇은 지난 수십 년간 꾸준한 발전을 거듭해 왔으며, AI의 융합은 로봇 기술에 새로운 시대를 열었습니다. 이제 로봇은 단순한 기계를 넘어 인간과 상호작용하고, 스스로 판단하며 행동하는 지능형 존재로 진화하고 있습니다. 앞으로 AI와 로봇 기술의 발전은 인간의 삶에 어떤 변화를 가져올지 기대와 함께 깊은 고찰이 필요한 시점입니다.
AI라는 날개를 달고 진화하는 로봇: 새로운 시대의 개막
고난도 동작으로 유명했던 보스턴 다이내믹스의 아틀라스(Atlas) 로봇은, 기계적 정교함에 집중한 나머지 실용성이 부족하다는 비판을 받아왔습니다. 하지만 2024년 4월, 보스턴 다이내믹스는 ‘The New Atlas’를 발표하며 이러한 한계를 극복하려는 의지를 보여주었습니다. (그림 3 참조) 특히, 기존 유압식 관절을 전기모터 구동 방식으로 전환하고, 저속-고토크 모터와 저감속비 기어박스를 결합한 준직접 구동(QDD) 방식을 채택하여 더욱 부드럽고 정교한 움직임을 구현했습니다. LiDAR와 스테레오 비전 센서를 통한 장애물 회피 및 실시간 지형 인식 기능도 추가되었습니다. 소프트웨어 측면에서는 토요타 연구소와의 협력을 통해 LBM(Large Behavior Model)을 개발하고 있으며, Vision AI 기반 환경 인식 데모 영상을 공개하며 (그림 4 참조) 기존 모델과의 완벽한 결별을 선언했습니다.
2024년 8월, Figure AI는 Figure 01보다 더욱 발전된 Figure 02 로봇을 공개했습니다. (그림 5 참조) 뛰어난 인재 영입과 대규모 투자 유치로 주목받는 Figure AI는 로봇 손에만 16개의 자유도를 구현했고, 배터리 성능과 연산 처리 능력을 크게 향상시켰습니다. OpenAI의 VLM(Vision Language Model)을 활용한 실시간 시각적 추론 시스템을 통해 자가 오류 수정 학습과 환경 적응형 작업 수행이 가능하며, 음성 대화 기능도 갖추고 있습니다. BMW 캘리포니아 공장에서 시험 배치되어 실제 산업 현장 적용 가능성을 검증 중이며, 1cm 이내의 정밀도로 판금 부품 조립 작업을 수행하는 모습을 보여주었습니다. NVIDIA Omniverse 플랫폼과 Isaac Sim을 활용하여 AI 모델 학습 시간을 단축한 점도 주목할 만합니다.
2024년 10월, 테슬라는 로보택시 공개 행사에서 개선된 옵티머스 로봇을 선보였습니다. (그림 6 참조) 바텐더 역할을 시연하며 음료를 따르고 참석자들과 대화하는 모습을 보여주었지만, 원격 조종 논란에도 불구하고 인간과 유사한 수준의 정교한 움직임을 선보인 것은 엄청난 발전입니다. 테슬라 FSD 칩을 기반으로 28개의 전기모터를 사용하며, 완전 학습된 신경망 기반의 시각 내비게이션 시스템을 통해 새로운 환경 탐색과 장애물 회피가 가능합니다. 여러 옵티머스 로봇이 공간 인식 정보를 상호 공유할 수 있는 기능도 갖추고 있다고 합니다.
아직까지 각 기업의 발표 내용에 과장된 측면이 있고, 실제 산업 현장에서의 완벽한 검증은 더 필요하지만, AI 기술과의 융합으로 로봇 산업은 눈부신 속도로 발전하고 있습니다. 이러한 추세를 볼 때, AI 기반 로봇의 실생활 등장은 시간문제일 뿐입니다.
3분 안에 맛보는 AI Robotics 기반 기술: 인지, 판단, 행동의 조화
AI는 로봇과 불가분의 관계입니다. “인지와 행동의 지능적 연결”이라는 Robotics의 새로운 정의가 등장할 정도로, AI는 로봇의 핵심 기술이 되었습니다. [9] 하지만 과거에는 주로 rule-based 시스템 기반의, 정형화된 환경에서 반복 작업을 수행하는 로봇이 주류였습니다. 최근 대규모 Foundation Model의 등장으로 비로소 진정한 의미의 AI 로봇이 가능해졌습니다.
로봇 제어는 크게 세 가지 단계로 나눌 수 있습니다:
- 인지(Perception): 환경을 인식하고 이해하는 단계. Vision AI 기술과 밀접하게 관련되어 있으며, 카메라, LiDAR 등을 통해 얻은 시각 정보를 처리하여 주변 환경을 이해합니다.
- 판단(Planning): 수집된 정보를 바탕으로 행동을 계획하는 단계. 최근에는 LLM 기반의 접근 방식이 많이 사용되며, 복잡한 상황을 이해하고 최적의 행동을 결정합니다.
- 행동(Action): 계획된 동작을 실제로 실행하는 단계. 강화 학습(Reinforcement Learning)을 통해 로봇의 움직임을 제어하고, 더욱 자연스럽고 효율적인 동작을 수행하도록 학습시킵니다.
최근에는 인지, 판단, 행동 단계를 통합적으로 처리하는 Robot Foundation Model이 Google DeepMind, Covariant 등에서 연구되고 있습니다. (그림 7 참조) 이는 Vision과 Language를 하나의 모델로 통합하여, 더욱 지능적인 로봇 제어를 가능하게 합니다.
(그림 7)은 AI Robotics의 최신 기술 트렌드를 요약한 것입니다. 본 글에서는 모든 기술을 다루지는 않지만, 각 단계별 주요 기술들을 간략하게 소개하여 AI Robotics의 최신 동향을 3분 만에 파악할 수 있도록 합니다. (그림 7에 대한 자세한 설명은 생략하고, 그림의 내용을 이해하기 쉽게 요약 설명하는 것이 좋습니다. 예를 들어, 각 기술 영역에 해당하는 대표적인 알고리즘이나 기술을 간략히 언급하는 방식입니다.) 이러한 기술 발전을 통해 AI 로봇은 더욱 지능적이고 자율적으로 작동하며, 산업 현장뿐 아니라 우리 생활 곳곳에서 활용될 것으로 예상됩니다.
Perception: 로봇의 눈과 두뇌를 연결하다
로봇에게 가장 중요한 AI 기술은 단연 인지(Perception)입니다. 주변 환경을 정확하게 파악해야만 로봇은 판단하고 행동할 수 있습니다. 물체의 위치, 종류, 자세 등을 인식하는 것은 로봇의 자율성을 위한 필수적인 요소입니다. 특히 Bin Picking과 같이 비정형 환경에서 임의의 물체를 다루는 작업은 고도의 인지 능력을 요구합니다. 이를 위해 Vision AI 기술이 필수적이며, 최근에는 Vision Language Foundation Model을 활용하여 학습되지 않은 새로운 물체도 인식하는 Open Vocabulary 기반 인지 기술이 발전하고 있습니다.
Meta에서 발표한 SAM(Segment Anything Model)은 다양한 객체를 자동으로 식별하고 분할하는 범용 모델입니다. (그림 7 좌측 참조) 방대한 이미지 데이터로 학습된 SAM은 Vision Transformer(ViT) 기반의 이미지 인코더를 사용하여 클릭이나 영역 지정만으로도 물체를 정확하게 구분합니다. 이러한 편리성과 범용성으로 인해 사진 편집, 의료 이미지 분석, 자율 주행, 로봇 비전 등 다양한 분야에 활용되고 있습니다.
MIT의 F3RM(Feature Fields for Robotic Manipulation)은 Neural Radiance Fields(NeRF) 기반으로 2D 이미지에서 3D 특징을 추출하여 실제 공간에 매핑하는 기술입니다. (그림 7 우측 참조) 이를 통해 로봇은 새로운 물체나 3D 환경을 이해하고 동적인 상황에도 효과적으로 대응할 수 있습니다.
SAM과 F3RM은 로봇의 인지 능력을 한층 향상시키는 대표적인 기술입니다. 앞으로 더욱 발전된 인지 기술은 로봇의 자율성과 실용성을 크게 높일 것으로 기대됩니다. 정확하고 빠른 환경 인식은 로봇이 복잡한 작업을 수행하는 데 필수적이며, 다양한 산업 분야에서 로봇 활용의 폭을 넓힐 것입니다.
Planning: 자연어로 명령하고, 지능적으로 계획하다
Perception을 통해 환경을 인식했다면, 다음 단계는 적절한 계획(Planning)입니다. 최근 ChatGPT의 성공으로 LLM을 로봇 계획에 적용하려는 시도가 활발합니다. 복잡한 로봇 작업을 자연어로 정의하고, LLM이 이를 이해하여 실행 가능한 하위 작업으로 분해하는 연구가 주목받고 있습니다.
Google의 SayCan은 사용자의 자연어 명령을 이해하고, 실행 가능한 하위 작업으로 분해하여 우선순위를 정하는 모델입니다. (그림 8 참조) 언어 모델과 강화 학습을 결합하여 현실 세계에서 최적의 행동을 선택합니다.
ProgPrompt는 SayCan을 개선하여 더욱 정교한 작업 계획과 Task Sequencing, Vision-Language Alignment 기술을 적용했습니다. 복합적인 명령도 세부 작업으로 분할하여 처리하고, 예기치 못한 상황에도 동적으로 계획을 수정합니다. 예를 들어, 물건을 놓쳤을 때 다시 집어오는 등의 상황 대처 능력을 갖추었습니다.
Google의 Code as Policies는 고수준 작업 지시를 실행 가능한 프로그램 코드로 변환하여 직접 실행하는 모델입니다. Few-shot learning 기법을 활용하여 LLM이 작업 맥락을 이해하고 적절한 코드를 생성합니다.
이동 로봇 분야에서는 VLM(Vision Language Model)을 활용한 멀티모달 기술이 새로운 가능성을 열었습니다. 특히 CLIP-Fields는 CLIP 모델을 기반으로 ‘주방’, ‘거실’과 같은 공간의 의미를 이해하고, 의미 기반의 이동 명령을 수행합니다. (그림 9 참조) ‘커피머신과 싱크대 사이로 가 줘’와 같은 자연스러운 명령을 이해하고 실행할 수 있습니다.
이러한 LLM 기반의 Planning 기술들은 로봇 제어의 복잡성을 줄이고, 사용자와의 상호작용을 개선하며, 더욱 지능적이고 자율적인 로봇 시스템을 구축하는 데 기여할 것입니다.
저스틴 메모) 하드웨어가 없는 로봇? RPA에서 좀 더 쉽게 적용될 수 있습니다. AIPilotSmarteasy에서는 이 내용과 매우 비슷하게 ReAct로 ‘단계별 목표 달성을 해 나가는’ Plan Navigator와 Stepwise Navigator 기능을 제공합니다. 이 기능 초기 개발에는 마이크로 소프트 주도하에 개발되고 있는 오픈소스인 시맨틱 커널을 많이 참조했습니다.
마치며 부분을 전달했습니다.
마치며: AI 로봇, 새로운 시대를 열다
이 글을 작성하는 동안에도 AI 로봇 관련 뉴스는 끊임없이 쏟아져 나오고 있습니다. 구글 출신 로봇 전문가가 설립한 Physical Intelligence는 자체 개발한 Robot Foundation Model인 파이제로(π0)를 발표하고 대규모 투자를 유치했습니다. [11] NVIDIA는 휴머노이드 로봇 개발자를 위한 AI 도구 패키지를 공개했고, [12] Anthropic의 Claude는 AI가 컴퓨터 화면을 직접 조작하는 기능을 선보였습니다. [13] AI는 채팅창을 넘어 컴퓨터와 로봇을 제어하는 시대를 향해 빠르게 나아가고 있습니다. 이러한 기술 경쟁은 앞으로 더욱 치열해질 것입니다.
본 글에서는 AI 로봇의 등장 배경과 최신 기술 동향을 인지(Perception), 판단(Planning), 행동(Action) 세 가지 관점에서 살펴보았습니다. 각 단계별 대표적인 기술들을 통해 AI 로봇의 발전 수준과 미래 가능성을 확인했습니다.
다음 글에서는 ChatGPT 시대에 더욱 친숙한 LLM 기반 Planning 기법인 Code as Policies를 실제 구현 예시와 함께 자세히 다루겠습니다. LLM이 자연어 명령을 로봇의 실행 코드로 변환하는 과정을 심층적으로 탐구해 보도록 하겠습니다.