나 교수와 유튜브 영상 스크립트를 같이 읽었습니다.

첫 번째 영상은 OpenHands: AI Software Engineer – Generate Complex Apps End-to-End! (Opensource)입니다. https://github.com/All-Hands-AI/OpenHands

오픈 핸즈는 복잡한 엔지니어링 작업을 수행하고 사용자와 적극적으로 협력하여 소프트웨어 개발 프로젝트를 진행할 수 있는 오픈 소스 자율 AI 소프트웨어 엔지니어입니다.

이 도구는 누구나 사용할 수 있으며, Linux, Mac OS 또는 Windows의 WSL에서 로컬로 설치할 수 있습니다.

사용자는 브라우징, 코드 실행, 코더 에이전트 등 다양한 유형의 에이전트를 선택하고, 로컬 모델 또는 플랫폼에서 레이블링된 모델을 활용할 수 있습니다. 주요 에이전트인 코닥은 LLM 에이전트의 작업을 단순화하고 향상시키며, 다양한 작업 항목을 통합된 코드 작업 공간으로 통합합니다. 코덱 에이전트는 코드를 실행하여 작업을 선택하고 실행하며, 상황에 따라 최상의 접근 방식을 선택합니다. 코덱 에이전트는 또한 플러그인 시스템과 전문화된 프롬프팅 전략을 가지고 있어 문제를 해결하기 위한 장기적인 계획을 수립합니다. 사용자는 Open Hands 프레임워크에서 로컬 대규모 모델을 포함한 모든 LLM을 활용할 수 있습니다.

두 번째 영상은 CrewAI August Update: Planning Steps, Training, and Advanced Features Explained 입니다.

최근 몇 달 동안 크루 AI는 여러 가지 주요 업데이트를 진행했습니다.

이 비디오에서는 이러한 업데이트 중 일부를 살펴보고, 새로운 기능을 사용하여 프로젝트를 만들고 결과를 개선하는 방법을 보여드리겠습니다.

먼저, 새로운 크루를 만드는 방법과 구조 변경 사항을 살펴보겠습니다. 또한, 크루의 테스트 및 평가, 그리고 크루의 결과를 개선하는 방법에 대해서도 알아보겠습니다. 마지막으로, 새로운 계획 단계 및 기타 기능을 살펴보겠습니다.

CrewAI에 대한 관심이 많이 떨어져 있어서 내용을 더 자세히 알고 싶지는 않네요.

세 번째 영상은 The Hidden Cost of Embeddings in RAG and how to Fix it 입니다.

Anthropic을 선택했습니다. 좀 길게 설명해 주네요.

🧑‍🏫: 이 강의는 임베딩(embeddings)과 그것이 프로덕션 랙(rack) 시스템에서 갖는 중요성에 대해 다루고 있습니다. 주요 내용을 요약해 드리겠습니다.

[섹션 1] 분석: 임베딩 소개
임베딩은 프로덕션 랙 시스템의 중요한 구성 요소지만 종종 간과됩니다. 임베딩의 두 가지 주요 측면은 다음과 같습니다:
1. 계산 비용: LLM 호출에 비해 상대적으로 저렴함
2. 저장 비용: 비싸고 규모 확장에 어려움이 있음

임베딩 모델의 기본 기능은 텍스트 입력을 받아 입력 길이와 상관없이 텍스트의 의미를 나타내는 고정 크기의 벡터를 생성하는 것입니다.

[섹션 2] 분석: 임베딩의 비용 구성 요소
임베딩과 관련된 두 가지 비용 구성 요소:
1. 계산 비용: 데이터셋 생성을 위한 일회성 비용, API 제공업체에 따라 다름
2. 저장 비용: 종종 간과되지만 잠재적으로 상당한 비용, 임베딩 벡터 크기에 따라 다름

OpenAI의 1536차원 임베딩을 예로 들어, 대규모 임베딩(100만~10억 벡터)의 저장 요구 사항과 관련 비용을 설명합니다.

[섹션 3] 분석: 저장 요구 사항 감소 접근법
저장 요구 사항을 줄이기 위한 여러 접근법:
1. 차원 축소: PCA와 같은 전통적인 기계 학습 기법 (텍스트 임베딩에는 정보 손실로 인해 이상적이지 않음)
2. Metosa 표현 학습: 전체 임베딩을 계산하지만 차원의 일부만 저장
3. 정밀도 감소: 임베딩 표현의 정밀도를 32비트에서 더 낮은 비트 표현(8비트, 4비트, 또는 1비트)으로 변경

정밀도 감소는 높은 정확도를 유지하면서도 저장 및 계산 비용을 크게 줄일 수 있음을 강조합니다.

[섹션 4] 분석: Hugging Face의 임베딩 양자화 연구
Hugging Face 팀의 NMT 벤치마크에서 다양한 양자화 수준을 비교한 연구 결과:
– 8비트 양자화: 저장 비용 4배 감소, 성능 감소는 3%에 불과
– 이진 양자화: 저장 비용 32배 감소, 성능 감소는 5%에 불과

더 큰 임베딩 모델은 낮은 양자화 수준을 사용할 때 성능 영향이 적은 경향이 있음을 보여줍니다.

[섹션 5] 분석: 양자화 구현
SentenceTransformer 패키지를 사용한 양자화 구현의 실제 예를 제공합니다. 이진 및 8비트 양자화 사용법을 시연하며 저장 요구 사항의 상당한 감소를 강조합니다.

[섹션 6] 분석: 프로덕션에서의 양자화 이점
양자화된 임베딩 모델을 프로덕션에서 사용할 때의 이점:
1. 상당한 비용 절감
2. 지연 시간 개선 및 검색 속도 향상
3. 압축 이점 (이진 양자화의 경우 최대 32배)

[섹션 7] 분석: 벡터 저장소와 양자화 모델 사용
Qdrant라는 스칼라 및 이진 양자화를 지원하는 오픈소스 벡터 저장소를 소개합니다. Qdrant를 양자화된 임베딩과 함께 설정하고 사용하는 방법에 대한 간단한 개요를 제공합니다.

자세히 알아 보고 싶지만, 아직 대규모 임베딩 경험이 없으니, 이런 게 필요하겠다 정도 기억하고 넘어 감.

네 번째는 Overcoming the Challenges of Building Agentic AI 입니다.

이 웨비나는 Tool House와 Grok을 사용하여 에이전트 AI를 구축할 때의 과제를 극복하는 방법에 대해 다루었습니다.

주요 내용을 요약하면 다음과 같습니다:

1. 에이전트 AI 개요:
– 에이전트 AI는 인간의 도움 없이 자율적으로 작업을 수행할 수 있는 AI를 의미합니다.
– 주요 구성 요소는 도구(외부 코드/서비스와 상호 작용)와 메모리입니다.

2. 에이전트 AI 구축의 과제:
– 도구 정의와 함수 호출 코드를 작성하고 유지 관리하는 복잡성
– 다양한 LLM에 대한 프롬프트와 입/출력 최적화의 어려움
– 여러 에이전트가 관여된 다단계 워크플로우에서의 지연 문제

3. Tool House 솔루션:
– AI 함수 호출을 위한 마켓플레이스 – 사전 구축된 도구를 쉽게 설치
– 프롬프팅, 실행, 최적화를 백엔드에서 처리
– 도구를 클라우드 또는 로컬에서 실행 가능
– 사용자 정의 도구 게시 및 수익화 지원

4. Grok과의 통합:
– Tool House를 Grok의 도구 사용에 최적화된 LLaMA 모델과 함께 사용하는 데모
– Grok API에서 Tool House 도구를 사용하는 간단한 3줄 코드 통합

5. 모범 사례:
– 일관된 성능을 위해 클라우드 호스팅 모델 사용
– 가능한 도구를 원자적 하위 작업으로 분해
– 에이전트에게 관련 도구에만 접근 권한을 주는 “번들” 사용 고려
– 에이전트에 대한 자체 검사 메커니즘 및 가드레일 구현

6. 향후 개발:
– Tool House는 다양한 LLM에 대한 프롬프트를 자동으로 최적화하는 작업 진행 중
– 도구 “번들”과 같은 새로운 기능이 곧 출시 예정

전반적으로 이 웨비나는 Tool House와 Grok이 어떻게 협력하여 에이전트 AI 시스템 개발을 단순화하고 도구 사용, 성능, 개발 복잡성과 관련된 일반적인 과제를 극복할 수 있는지를 강조했습니다.

이 영상 관련해서는 자율 에이전트 기능을 AIPilotSmarteasy Giant Step에 포함해 10월 9일 출시할 계획이다 보니, 할 말이 좀 있네요.

에이전트 AI에서 ‘인간과 협업하면서’ 자율적으로 작업을 수행할 수 있는 AI를 의미하는 것으로 정의하고 싶습니다. 아직은 인간의 협업을 강조하는게 좋다고 생각합니다. 협업의 경험이 쌓여 믿고 맏기는 쪽으로 발전해 나가길 바래서.

주요 구성 요소는 도구는 해 보면 많은게 필요한 것은 아니라는 것을 알게 됩니다. 처음에는 많은게 필요하다고 생각되지만 LLM들이 점점 강력해 지고 있고 AI 서비스 벤더들이 LLM을 보강하는 툴들을 연동해서 쓸 수 있게 해 주고 있습니다. 이런 분위기로 가면 생성형 연동 애플리케이션들은 검색과 메모리 정도를 갖추면 될 것 같습니다. 툴 보다 더 중요한 것은 AI 에이전트들을 믿고 협력하는 사용자라고 주장합니다. 저는 이런 사용자를 파일럿 또는 전사라고 부릅니다.