[한영자막]AI agents의 미래: OpenAI Operator출시(AI 콘텐츠 스터디)
이 글은 OpenAI의 새로운 AI 에이전트 “오퍼레이터(Operator)” 출시 발표 내용입니다. 오퍼레이터는 웹 브라우저를 통해 사용자가 지정한 작업을 수행하는 AI 시스템으로, 마치 사람처럼 웹사이트를 탐색하고, 클릭하고, 입력하는 등의 작업을 수행할 수 있습니다.주요 내용:
- 오퍼레이터의 기능: 웹 브라우저를 이용하여 식당 예약(OpenTable), 식료품 주문(Instacart), 티켓 구매(StubHub), 음식 배달(DoorDash), 집 청소 예약 등 다양한 작업을 수행 가능. 사용자는 자연어로 명령을 입력하면 됨.
- 기술적 배경: GPT-4를 기반으로 개발된 “컴퓨터 사용 에이전트(CUA)” 모델을 사용. 화면을 보고 마우스와 키보드를 조작하여 컴퓨터를 제어하는 방식으로 학습. API 없이도 다양한 웹사이트 이용 가능.
- 사용자 제어: 사용자는 언제든지 오퍼레이터의 작업을 중단하고 직접 제어권을 넘겨받아 작업을 수정하거나 추가 지시를 내릴 수 있음.
- 안전 장치: 유해한 작업 거부, 사후 감지, 차단된 웹사이트 등 ChatGPT와 유사한 안전 기능 탑재. 작업 수행 전 확인 단계를 거쳐 오류 및 잘못된 행동 방지. 프롬프트 인젝션 모니터를 통해 의심스러운 활동 감시.
- 출시 계획: 미국 내 Pro 사용자 대상으로 우선 출시, 이후 다른 국가 및 Plus 사용자에게 확대 예정. API도 곧 공개 예정.
- 현재 성능 및 한계: 아직 연구 초기 단계이며 완벽하지 않음. OS World 및 WebArena 벤치마크에서 인간보다 낮은 점수 기록. 지속적인 개선 및 피드백 수렴 예정.
발표 데모에서 보여준 내용:
- OpenTable을 이용한 레스토랑 예약 (시간 변경, 테이블 만석 등 상황 변화에 대응)
- Instacart를 이용한 식료품 주문 (쇼핑 목록 이미지 인식, 수량 변경)
- StubHub를 이용한 티켓 구매 (가격, 좌석 위치 등 조건 설정)
- Thumbtack을 이용한 집 청소 예약
- DoorDash를 이용한 피자 배달 주문
- 사용자가 중간에 개입하여 작업 수정 및 추가 지시
전반적으로 오퍼레이터는 AI 에이전트 기술의 발전을 보여주는 흥미로운 사례이며, 향후 다양한 분야에서 생산성과 효율성을 높이는 데 기여할 것으로 기대됩니다. 하지만 아직 초기 단계이므로 지속적인 개발과 개선이 필요합니다. |
저스틴) 사람처럼 하는 게 메리트가 있는가? 호기심 있게 봐줄 수는 있지만.