Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku
https://anthropic.com/news/3-5-models-and-computer-use
오늘 저희는 업그레이드된 Claude 3.5 Sonnet과 새로운 모델 Claude 3.5 Haiku를 발표합니다. 개선된 Claude 3.5 Sonnet은 전반적인 성능이 향상되었으며, 특히 이미 분야에서 앞서 나가고 있던 코딩 분야에서 더욱 큰 개선을 이뤘습니다. Claude 3.5 Haiku는 동일한 비용과 유사한 속도로 이전 모델인 Claude 3 Opus와 많은 평가에서 비슷한 성능을 제공합니다.
또한, 공공 베타에서 혁신적인 새로운 기능인 컴퓨터 사용도 도입합니다. 오늘 API에서 이용 가능하며, 개발자들은 Claude에게 화면을 보고, 커서를 움직이고, 버튼을 클릭하고, 텍스트를 입력하는 방식으로 컴퓨터를 사용하도록 지시할 수 있습니다. Claude 3.5 Sonnet은 공공 베타에서 컴퓨터 사용을 제공하는 최초의 선구적 AI 모델입니다. 이 단계에서는 여전히 실험적이며 때로 번거롭고 오류가 있을 수 있습니다. 우리는 개발자들의 피드백을 받기 위해 컴퓨터 사용을 일찍 출시했으며, 이 기능이 시간이 지남에 따라 급속히 개선될 것으로 기대하고 있습니다.
Asana, Canva, Cognition, DoorDash, Replit, 그리고 The Browser Company는 이미 수십, 때로는 수백 단계를 거쳐야 완료되는 작업을 수행하면서 이러한 가능성을 탐구하기 시작했습니다. 예를 들어, Replit은 Claude 3.5 Sonnet의 컴퓨터 사용 및 UI 탐색 기능을 사용하여 Replit Agent 제품을 위해 앱 개발 중 평가하는 핵심 기능을 개발하고 있습니다.
업데이트된 Claude 3.5 Sonnet은 업계 벤치마크에서 전반적인 성능 향상을 보여주며, 특히 에이전트 기반 코딩 및 도구 사용 작업에서 두드러진 성과를 보였습니다. 코딩 분야에서는 SWE-bench Verified에서 성능을 33.4%에서 49.0%로 향상시키며, OpenAI o1-preview와 같은 추론 모델 및 에이전트 코딩을 위해 설계된 전문 시스템을 포함한 모든 공개 모델을 능가하는 점수를 기록했습니다. 또한, 소매 도메인에서 전자적 도구 사용 작업인 TAU-bench에서 62.6%에서 69.2%로, 더 도전적인 항공 도메인에서는 36.0%에서 46.0%로 성능이 향상되었습니다. 새로운 Claude 3.5 Sonnet은 이전 모델과 동일한 가격과 속도로 이러한 발전을 제공합니다.
초기 고객 피드백에 따르면, 업그레이드된 Claude 3.5 Sonnet은 AI 기반 코딩에서 큰 도약을 나타냅니다. GitLab은 DevSecOps 작업에 이 모델을 테스트한 결과, 사용 사례 전반에서 최대 10% 향상된 추론 성능을 나타냈고, 추가 지연 없이 작동하여 다단계 소프트웨어 개발 프로세스에 이상적인 선택이라고 평가했습니다. Cognition은 자율 AI 평가를 위해 새로운 Claude 3.5 Sonnet을 사용했고, 이전 버전과 비교하여 코딩, 기획, 문제 해결에서 상당한 개선을 경험했습니다. 또한, Browser Company는 웹 기반 워크플로우 자동화를 위해 이 모델을 사용하는 과정에서 이전에 테스트한 모든 모델을 능가하는 성과를 보였다고 보고했습니다.
우리는 외부 전문가와의 지속적인 협력의 일환으로, 새로운 Claude 3.5 Sonnet 모델의 사전 배포 테스트를 미국 AI 안전 연구소(US AISI)와 영국 안전 연구소(UK AISI)에서 공동으로 실시했습니다.
또한, 업그레이드된 Claude 3.5 Sonnet은 ASL-2 표준을 활용하여 파국적 위험을 평가했으며, 우리의 책임 있는 확장 정책에 따라 이 모델에 적절한 것으로 판단되었습니다.
Claude 3.5 Haiku는 속도와 비용 면에서 최첨단을 자랑하며, 모든 기술 세트에서 개선되었고, 많은 지능 벤치마크에서 이전 세대의 최대 모델이었던 Claude 3 Opus를 능가합니다. 특히 코딩 작업에서 강력한 성능을 발휘하며, SWE-bench Verified에서 40.6%를 기록해, Claude 3.5 Sonnet 및 GPT-4o를 포함한 많은 공개 최첨단 모델보다 우수한 성과를 보입니다.
낮은 대기 시간, 개선된 지침 따르기, 더 정확한 도구 사용 등을 특징으로 하는 Claude 3.5 Haiku는 사용자 상대 제품, 전문 하위 에이전트 작업 및 구매 이력, 가격, 재고 기록과 같은 방대한 양의 데이터를 활용한 개인화된 경험 생성에 적합합니다.
Claude 3.5 Haiku는 이달 말에 최초 API, 아마존 Bedrock, 구글 클라우드의 Vertex AI에서 텍스트 전용 모델로 출시될 예정이며, 이후 이미지 입력 기능도 추가될 예정입니다.
컴퓨터 사용에 대한 책임 있는 탐색을 지향하며, 우리는 컴퓨터가 아닌 일반적인 도구로 Claude에게 일반적인 컴퓨터 사용 기술을 가르치고자 합니다. 개발자들은 이 초기 기능을 활용해 반복적인 프로세스를 자동화하고, 소프트웨어를 빌드 및 테스트하며, 리서치와 같은 개방형 작업을 수행할 수 있습니다.
이러한 일반적인 기술을 가능하게 하기 위해, 우리는 Claude가 컴퓨터 인터페이스를 인식하고 상호작용할 수 있는 API를 개발했습니다. 개발자들은 이 API를 통합하여 Claude가 지시사항(예: “내 컴퓨터와 온라인의 데이터를 사용해 이 양식을 작성해라”)을 컴퓨터 명령으로 변환할 수 있게 만들 수 있습니다.
이 기술이 급속히 발전할 것으로 예상되지만, 현재 Claude의 컴퓨터 사용 능력은 완벽하지 않습니다. 사람들이 쉽게 수행하는 스크롤, 드래그, 줌 같은 동작이 현재 Claude에게는 도전 과제가 될 수 있으며, 개발자들에게는 저위험 작업에서 탐색을 시작할 것을 권장합니다. 컴퓨터 사용은 스팸, 허위 정보, 사기와 같은 더 익숙한 위협에 대한 새로운 벡터를 제공할 수 있기 때문에, 우리는 안전한 배포를 촉진하기 위해 새로운 분류기를 개발했습니다. 이 새로운 기술의 연구 과정과 안전 조치에 대한 더 많은 논의는 컴퓨터 사용 개발에 관한 게시물에서 확인할 수 있습니다.
앞으로의 전망으로서, 이 기술의 초기 배포에서 얻은 배움을 통해 더욱 높은 능력을 갖춘 AI 시스템의 잠재력과 영향을 이해하는 데 도움이 될 것입니다.
새로운 모델과 컴퓨터 사용의 공공 베타를 탐색하게 되어 기쁘며, 여러분의 피드백을 환영합니다. 이러한 발전이 Claude를 사용하는 방식에서 새로운 가능성을 열어주리라 믿으며, 여러분이 무엇을 창조할지 기대하고 있습니다.