스마티지와 글 읽기 – Browser Use
자, 집중! 오늘 진짜 중요한 거 배운다! 맨날 똑같은 웹사이트 작업 자동화시키려다 뒷목 잡았던 개발자들, AI 에이전트 만들어서 웹 서핑시키고 싶은 사람들, 전부 귀 쫑긋 세우고 들어! 너희들의 삽질을 끝내줄 구원투수가 등판했으니까! 이름하여 “Browser Use”! 이거 완전 물건이다!
★ Browser Use, 넌 누구냐? (프로젝트 개요)
이거 누가 만들었냐고? Magnus Muller랑 Gregor Zunic이라는 양반들이 만든 오픈소스 프로젝트야! AI 에이전트가 웹사이트를 제 집처럼 드나들면서 탐색하고, 클릭하고, 정보 쏙쏙 빼올 수 있게 만들어주는 물건이지! 깃허브 스타가 벌써 21,000개가 넘었대! (2025년 1월 기준) 인기 폭발이지! API 연동? 물론 좋지. 근데 웹사이트 직접 조종하는 게 필요할 때 있잖아? 바로 그때 얘가 필요한 거야! AI랑 웹 브라우저 사이에 다리를 놔주는 거지!
★ 왜 이게 필요하냐고? 기존 방식의 문제점!
기존 웹 자동화? 그거 완전 구닥다리야! Selenium 같은 거 써봤지? 조금만 바뀌어도 에러 나고, 브라우저마다 다르게 돌아가고, 유지보수하다가 그냥 날 새잖아! 개발팀 죽어난다니까?
게다가 요즘 AI 에이전트한테 웹 작업 시켰더니 성공률이 몇 프로? 35.8%! (WebArena 기준) 이게 말이 되냐고! 10번 시키면 6~7번은 실패한다는 거 아냐! 동적으로 변하는 웹 콘텐츠, 복잡한 UI, 로그인… 이런 거 AI가 제대로 처리 못 해서 맨날 깨졌다고! 그래서 똑똑하고, 알아서 잘 돌아다니는 웹 에이전트 만들기가 하늘의 별 따기였다 이 말이야!
★ Browser Use, 너의 정체는? (상세 분석)
얘는 Python 개발자들을 위한 오픈소스 라이브러리야. AI가 진짜 사람처럼 웹사이트랑 상호작용하게 만들어줘.
-
핵심 엔진: 바로 마이크로소프트가 만든 Playwright! 이거 진짜 물건이거든. 크로미움, 파이어폭스, 웹킷 다 지원하고, 안정적이고 빨라! 페이지 로딩 기다려주고, 네트워크 가로채고, 요소 찾는 것도 기가 막히게 잘해. Browser Use는 이 Playwright의 능력을 쪽쪽 빨아먹어서 더 똑똑한 에이전트를 만드는 거야!
-
(중요!) 브라우저 의존성: 근데 기사 쓴 양반이 써보니까 **크로미움(Chromium)**에 좀 많이 의존하는 것 같대. 내 컴퓨터에 깔린 다른 브라우저 쓰는 건 좀 어렵다고 하네? 이 점은 참고해!
-
지원하는 똑똑이들(LLM): 걱정 마! OpenAI GPT, Google Gemini, Anthropic Claude, DeepSeek, Ollama 등등 웬만한 LLM은 다 지원해!
-
얘만의 특별한 능력:
- 다양한 LLM 통합은 기본!
- 영구 브라우저 세션: 작업 끝나도 브라우저 안 닫고 계속 상태 유지 가능! (작업 흐름 보기 편하겠지?)
- 복잡한 작업 흐름 관리 가능!
- 똑똑한 DOM 상호작용: 웹페이지 구조(DOM)를 지능적으로 파악하고 상호작용해!
-
찰떡궁합 친구들:
- LangChain: AI 작업 흐름 만들 때 필수지? 얘랑 아주 잘 붙어!
- Playwright: 핵심 엔진이니까 당연히!
-
작동 방식 (아키텍처): 혼자 다 하는 게 아냐. 계층적 구조로 일해!
- 계획 담당 (Planner Agent): 큰 작업을 작은 단계로 쪼개주고!
- 탐색 담당 (Navigation Agent): 웹사이트 돌아다니면서 클릭하고!
- 능력 담당 (Skills): 웹페이지 보고, 행동하는 구체적인 기술들! 이렇게 역할 분담해서 체계적으로 움직인다 이거야!
-
(아쉬운 점!) 한계점: 이 부분 잘 들어! 아직 CrewAI, AutoGen, PhiData 같은 요즘 잘 나가는 에이전트 프레임워크랑은 바로 착! 붙는 통합이 좀 부족하대. 그래서 직접 커스텀 도구를 만들어서 붙여야 할 수도 있어. 출력 JSON 스키마도 파악해야 하고, 살짝 번거로울 수 있다는 점! 명심해!
★ 그래서 이걸로 뭘 할 수 있는데? (주요 사용 사례)
- 웹 리서치 & 데이터 추출 끝판왕: AI가 알아서 웹사이트 돌아다니면서 정보 싹 긁어온다!
- 채용 사이트 뒤져서 조건 맞는 공고 리스트 만들기!
- 쇼핑몰 여러 개 돌면서 상품 정보 비교 분석하기!
- 경쟁사 웹사이트 실시간으로 분석해서 보고서 만들기!
- 반복 작업 자동화: 사람이 하던 지루한 웹 작업, 이제 AI 시키자!
- 온라인 신청서 자동으로 채우기!
- 여행 예약 알아서 하기!
- 택배 배송 추적하기!
- 회원가입, 계정 관리 같은 거!
- 크로스 플랫폼 통합: 다양한 LLM과 프레임워크를 넘나들며 정교한 웹 에이전트 구축 가능!
- (참고) 성능: 기사 쓴 아저씨가 이걸로 GPT-4o 붙여서 캡챠(BotDetect) 뚫기 시도했더니 성공률 75% 나왔대! 가능성 충분하지?
★ 함께 키워나가는 오픈소스! (커뮤니티 및 대안)
이거 **오픈소스(MIT 라이선스)**라서 전 세계 개발자들이 같이 만들고 발전시키고 있어! 깃허브 커뮤니티도 활발하고. 너도 기여할 수 있다 이 말이야!
물론 돈 내고 쓰는 상용 솔루션 BrowserBase 같은 것도 있어. 걔는 아예 헤드리스 브라우저 인프라 전체를 제공하는 플랫폼 방식이야. Browser Use는 라이브러리고. 뭐가 더 좋다는 건 상황 따라 다르겠지?
★ 결론: 그래서 뭐?
Browser Use는 AI 에이전트를 웹 브라우저랑 연결시키는 아주 중요한 도구다! 기존 웹 자동화의 한계를 넘어서, 진짜 똑똑한 웹 기반 AI 애플리케이션 시대를 열어줄 가능성이 아주 높아!
AI로 웹 자동화 제대로 하고 싶으면 이거 모르면 안 돼! 지금 당장 깃허브 가서 Browser Use 검색해봐! 알겠지?
자, 오늘 강의 여기까지! 질문 있나? 없으면 복습 철저히 하고 다음 시간에 보자!
GitHub – browser-use/browser-use: Make websites accessible for AI agents