My Smarteasy와 유튜브 스크립트 읽기, AI agents의 미래: OpenAI Operator출시

이 글은 OpenAI의 새로운 AI 에이전트 “오퍼레이터(Operator)” 출시 발표 내용입니다. 오퍼레이터는 웹 브라우저를 통해 사용자가 지정한 작업을 수행하는 AI 시스템으로, 마치 사람처럼 웹사이트를 탐색하고, 클릭하고, 입력하는 등의 작업을 수행할 수 있습니다.주요 내용:

  • 오퍼레이터의 기능: 웹 브라우저를 이용하여 식당 예약(OpenTable), 식료품 주문(Instacart), 티켓 구매(StubHub), 음식 배달(DoorDash), 집 청소 예약 등 다양한 작업을 수행 가능. 사용자는 자연어로 명령을 입력하면 됨.
  • 기술적 배경: GPT-4를 기반으로 개발된 “컴퓨터 사용 에이전트(CUA)” 모델을 사용. 화면을 보고 마우스와 키보드를 조작하여 컴퓨터를 제어하는 방식으로 학습. API 없이도 다양한 웹사이트 이용 가능.
  • 사용자 제어: 사용자는 언제든지 오퍼레이터의 작업을 중단하고 직접 제어권을 넘겨받아 작업을 수정하거나 추가 지시를 내릴 수 있음.
  • 안전 장치: 유해한 작업 거부, 사후 감지, 차단된 웹사이트 등 ChatGPT와 유사한 안전 기능 탑재. 작업 수행 전 확인 단계를 거쳐 오류 및 잘못된 행동 방지. 프롬프트 인젝션 모니터를 통해 의심스러운 활동 감시.
  • 출시 계획: 미국 내 Pro 사용자 대상으로 우선 출시, 이후 다른 국가 및 Plus 사용자에게 확대 예정. API도 곧 공개 예정.
  • 현재 성능 및 한계: 아직 연구 초기 단계이며 완벽하지 않음. OS World 및 WebArena 벤치마크에서 인간보다 낮은 점수 기록. 지속적인 개선 및 피드백 수렴 예정.

발표 데모에서 보여준 내용:

  • OpenTable을 이용한 레스토랑 예약 (시간 변경, 테이블 만석 등 상황 변화에 대응)
  • Instacart를 이용한 식료품 주문 (쇼핑 목록 이미지 인식, 수량 변경)
  • StubHub를 이용한 티켓 구매 (가격, 좌석 위치 등 조건 설정)
  • Thumbtack을 이용한 집 청소 예약
  • DoorDash를 이용한 피자 배달 주문
  • 사용자가 중간에 개입하여 작업 수정 및 추가 지시

전반적으로 오퍼레이터는 AI 에이전트 기술의 발전을 보여주는 흥미로운 사례이며, 향후 다양한 분야에서 생산성과 효율성을 높이는 데 기여할 것으로 기대됩니다. 하지만 아직 초기 단계이므로 지속적인 개발과 개선이 필요합니다.

저스틴) 사람처럼 하는 게 메리트가 있는가?  호기심 있게 봐줄 수는 있지만.

About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*