“모든 LLM을 컴퓨터 사용 ‘AI 에이전트’로 내가 만든다!”…MS, 혁신적인 도구 ‘옴니파서 2’ 오픈소스로 공개
이 기사는 마이크로소프트가 오픈소스로 공개한 혁신적인 AI 도구 ‘옴니파서 2‘를 중심으로, AI 에이전트 기술의 발전과 미래 전망에 대해 다루고 있습니다. 옴니파서 2는 UI 분석을 통해 사용자의 명령을 이해하고 실행하는 AI 도구이며, AI 에이전트 시대를 열어갈 핵심 기술 중 하나로 평가받고 있습니다.
- 주요 내용 (Main Content):
- AI 에이전트 시대 도래: AI가 스스로 작업을 결정하고 수행하여 생산성을 향상시키는 시대가 열리고 있음을 설명합니다.
- 옴니파서 2 소개: 마이크로소프트가 공개한 UI 분석 AI 도구인 옴니파서 2의 기능과 특징을 상세하게 소개합니다.
- 기술적 특징: GPT-4V와의 결합, UI 요소 인식 및 조작 능력, 벤치마크 결과 등을 통해 옴니파서 2의 기술적 우수성을 강조합니다.
- 활용 분야: 시각 장애인 지원, 소프트웨어 테스트 자동화 등 다양한 분야에서의 활용 가능성을 제시합니다.
- 오픈소스 공개: 옴니파서 2가 오픈소스로 공개되어 개발자들이 자유롭게 활용할 수 있도록 지원한다는 점을 강조합니다.
- 미래 전망: AI 에이전트 기술이 인간과 컴퓨터 간 상호작용 방식을 근본적으로 변화시킬 것이라는 전망을 제시합니다.
- 구조 (Structure):
- 서론: AI 에이전트 시대의 도래를 알리고 기사의 주제를 소개합니다.
- 본론: 옴니파서 2의 기능, 기술적 특징, 활용 분야 등을 상세하게 설명합니다.
- 결론: AI 에이전트 기술의 미래 전망을 제시하고 옴니파서 2의 중요성을 강조합니다.
|
옴니파서
알겠습니다. 앞선 질문을 바탕으로 GitHub 페이지 내용 분석을 이어가겠습니다.이 GitHub 페이지는 Microsoft에서 개발한 OmniParser라는 도구에 대한 정보를 제공합니다. OmniParser는 순수 비전 기반 GUI 에이전트를 위한 스크린 파싱 도구로, 사용자 인터페이스 스크린샷을 구조화된 요소로 분석하여 GPT-4V와 같은 AI 모델이 화면의 특정 영역을 정확하게 이해하고 상호 작용할 수 있도록 돕습니다.
주요 기능 (Key Features):
- GUI 스크린샷 파싱: 사용자 인터페이스 스크린샷을 분석하여 구조화된 요소로 분해합니다.
- GPT-4V 연동: GPT-4V와 같은 AI 모델이 화면 요소를 정확하게 이해하고 상호 작용할 수 있도록 지원합니다.
- OmniTool 제공: OmniParser와 다양한 LLM을 함께 사용할 수 있도록 도커 기반의 Windows 시스템인 OmniTool을 제공합니다.
- 다양한 LLM 지원: OpenAI, DeepSeek, Qwen, Anthropic 등 다양한 LLM을 지원합니다.
- 아이콘 감지 및 기능 설명 예측: 아이콘을 감지하고 각 화면 요소가 상호 작용 가능한지 여부를 예측합니다.
최신 뉴스 (News):
-
- OmniParser V2 출시
- OmniTool 출시 (Windows 11 VM 환경 지원)
- Screen Spot Pro 벤치마크에서 최고 성능 달성
- OmniParser V1.5 업데이트 (아이콘 감지 및 상호 작용 가능 여부 예측 기능 추가)
- Hugging Face Model Hub에서 인기 모델로 등극
|
OmniParser for Pure Vision Based GUI Agent
OmniParser는 사용자 인터페이스 스크린샷을 구조화된 요소로 파싱하여 GPT-4V와 같은 비전-언어 모델이 UI를 더 잘 이해하고 상호 작용할 수 있도록 돕습니다. 핵심은 상호 작용 가능한 아이콘을 정확하게 식별하고, 스크린샷 내 요소들의 의미를 파악하여 사용자의 의도에 맞는 동작을 수행하도록 하는 것입니다.문제 정의 (Problem Statement):
- 기존 비전-언어 모델(예: GPT-4V)은 다양한 운영체제와 애플리케이션에서 UI를 이해하고 상호 작용하는 데 한계가 있습니다.
- 이는 강력한 화면 파싱 기술의 부족 때문이며, 특히 상호 작용 가능한 아이콘을 정확하게 식별하고, 스크린샷 내 요소들의 의미를 파악하는 능력이 부족합니다.
OmniParser의 해결책
- OmniParser는 UI 스크린샷을 구조화된 요소로 파싱하는 종합적인 방법입니다.
- 이를 통해 GPT-4V가 UI를 더 잘 이해하고, 사용자의 의도에 맞는 동작을 정확하게 수행할 수 있습니다.
데이터셋 (Dataset):
- 상호 작용 가능한 아이콘 탐지 데이터셋 (67,000개의 고유한 스크린샷 이미지)
- 아이콘 설명 데이터셋 (7,000개의 아이콘-설명 쌍)
- 이 데이터셋들은 특화된 모델을 미세 조정하는 데 사용됩니다.
모델 (Model):
- 상호 작용 가능한 영역 탐지 모델: 화면에서 상호 작용 가능한 영역을 파싱합니다.
- 캡션 모델: 탐지된 요소의 기능적 의미를 추출합니다.
결과 (Results):
- OmniParser는 ScreenSpot 벤치마크에서 GPT-4V의 성능을 크게 향상시켰습니다.
- Mind2Web 및 AITW 벤치마크에서 스크린샷만 입력으로 사용했을 때, GPT-4V가 추가 정보가 필요한 경우보다 성능이 뛰어났습니다.
다른 모델과의 연동 (Plugin-ready for Other Vision Language Models):
- OmniParser는 GPT-4V 외에도 Phi-3.5-V 및 Llama-3.2-V와 같은 다른 비전-언어 모델과도 연동될 수 있습니다.
- 미세 조정된 상호 작용 가능한 영역 탐지 모델은 모든 하위 범주에서 작업 성능을 크게 향상시켰습니다.
- 아이콘 기능의 로컬 의미론은 모든 비전-언어 모델의 성능에 도움이 됩니다.
이 연구는 OmniParser가 비전-언어 모델이 UI를 이해하고 상호 작용하는 능력을 크게 향상시킬 수 있는 잠재력을 가지고 있음을 보여줍니다. 특히, 상호 작용 가능한 아이콘을 정확하게 식별하고, 스크린샷 내 요소들의 의미를 파악하는 능력이 핵심적인 역할을 합니다. 또한, OmniParser는 다양한 비전-언어 모델과 연동될 수 있으며, 다양한 벤치마크에서 뛰어난 성능을 보여줍니다. |