모델에서 복합 AI 시스템(Compound AI Systems)으로 패러다임 전환

2023년, AI는 단연 최고의 화제였습니다. 번역, 코딩 등 여러 분야에서 뛰어난 능력을 발휘하는 거대 언어 모델(LLM)의 등장에 모두가 열광했습니다. 자연스럽게 AI 개발의 핵심은 모델 자체라는 인식이 확산되었고, 차세대 LLM이 어떤 놀라운 기능을 선보일지 기대감이 높아졌습니다.

하지만 LLM 기술이 발전하면서, ‘모델 중심’ 사고방식에 변화가 감지되고 있습니다. 최근 놀라운 AI 성과들은 단일 모델이 아닌, 마치 오케스트라처럼 여러 구성 요소가 조화롭게 협력하는 ‘복합 시스템’에서 비롯된다는 분석이 힘을 얻고 있습니다.

예를 들어, 구글의 AlphaCode 2는 프로그래밍 분야에서 압도적인 성능을 달성했습니다. 이 시스템은 LLM을 활용해 문제에 대한 가능한 해답을 무려 100만 개나 생성한 후, 고도의 필터링 과정을 거쳐 최적의 코드를 찾아냅니다. AlphaGeometry 역시 LLM과 전통적인 기호 연산 엔진을 결합하여 수학 올림피아드 최고 난도 문제들을 해결합니다. 기업 환경에서도 Databricks의 연구 결과는 시사하는 바가 큽니다. LLM 기반 애플리케이션의 60%가 검색 증강 생성(RAG) 기술을 활용하고, 30%는 복잡한 다단계 연쇄 방식을 채택하고 있다는 것입니다.

과거 단일 LLM 호출 결과에만 집중했던 언어 모델 연구자들도, 이제는 더욱 정교한 추론 전략을 통해 얻은 결과들을 발표하고 있습니다. Microsoft는 의료 시험 분야에서 GPT-4를 9%나 앞서는 연쇄 추론 전략을 공개했고, 구글은 Gemini 출시 행사에서 MMLU 벤치마크 테스트 결과를 발표하며, 모델을 32번이나 호출하는 CoT@32 추론 방식을 사용했습니다. 이는 GPT-4를 단 한 번 호출했을 때의 성능과 비교하는 것이 적절한가라는 논란을 낳기도 했습니다. 복합 시스템으로의 이러한 패러다임 전환은 흥미로운 설계 과제를 제시하지만, 한편으로는 매우 고무적입니다. 이제는 단순히 모델 크기를 키우는 ‘규모 확장’ 경쟁에서 벗어나, 창의적인 시스템 엔지니어링만으로도 혁신적인 AI 성과를 만들 수 있다는 가능성을 보여주기 때문입니다.

본 글에서는 복합 AI 시스템으로의 전환이라는 거대한 흐름을 심층적으로 분석하고, 이것이 AI 개발자들에게 던지는 메시지를 탐구하고자 합니다.

개발자들은 왜 복합 시스템에 주목할까요? 모델 성능이 계속 발전하더라도 이러한 패러다임은 지속될 수 있을까요? 그리고 모델 학습 분야에 비해 상대적으로 연구가 부족했던, 복합 시스템 개발 및 최적화를 위한 새로운 도구는 무엇일까요? 저희는 복합 AI 시스템이 미래 AI 기술의 잠재력을 극대화하는 가장 효과적인 방법이며, 2024년 AI 분야의 가장 중요한 트렌드 중 하나가 될 것이라고 확신합니다.

Increasingly many new AI results are from compound systems.

AI 혁신의 새로운 물결은 복합 시스템에서 시작됩니다.

복합 AI 시스템을 선택해야 하는 이유

본문에서 정의하는 ‘복합 AI 시스템’은, 단순히 여러 모델을 호출하거나 검색 엔진, 외부 도구를 연결하는 수준을 넘어, 다양한 상호 작용 요소들을 유기적으로 통합하여 복잡한 AI 문제를 해결하는 시스템을 의미합니다. 반면, ‘AI 모델’은 텍스트 데이터의 다음 단어를 예측하는 트랜스포머와 같이, 독립적으로 작동하는 통계 모델 자체를 지칭합니다.

AI 모델 성능은 놀라운 속도로 향상되고 있으며, 그 발전 속도에 한계가 없어 보입니다. 그럼에도 불구하고, 최첨단 AI 기술의 혁신적인 성과는 점점 더 복합 시스템이라는 융합적 접근 방식을 통해 만들어지고 있습니다. 왜 그럴까요? 저희는 다음과 같은 몇 가지 핵심 이유를 도출했습니다.

시스템 설계 최적화가 모델 규모 확장보다 효율적일 수 있습니다. LLM은 컴퓨팅 자원 투입량이 늘어날수록 성능이 향상되는 ‘스케일링 법칙’을 따르는 것처럼 보입니다. 하지만 실제 많은 애플리케이션 환경에서는 모델을 무작정 키우는 것보다, 복합 시스템을 효율적으로 설계하는 것이 비용 대비 훨씬 효과적인 전략이 될 수 있습니다. 예를 들어, 최고 성능 LLM이 코딩 콘테스트 문제를 30% 확률로 푼다고 가정해 보겠습니다. 모델 훈련 예산을 3배로 늘려도 문제 해결률이 35%로 소폭 상승하는 데 그친다면, 코딩 대회에서 우승하기는 여전히 어렵습니다. 하지만 AlphaCode 사례처럼, 모델에서 다양한 해답을 샘플링하고, 각 샘플을 검증하는 시스템을 구축하면, 기존 모델 성능을 80%까지 끌어올릴 수 있습니다. 더욱 중요한 점은, 시스템 설계를 반복적으로 개선하는 것이 모델 재학습을 기다리는 것보다 훨씬 빠르고 민첩하게 이루어질 수 있다는 것입니다. 고성능이 필수적인 프리미엄 애플리케이션 개발 영역에서는, 개발자들이 AI 품질을 최고 수준으로 끌어올리기 위해 모든 수단을 동원할 것이며, 모델 스케일링뿐만 아니라 창의적인 시스템 설계 아이디어 역시 적극적으로 활용할 것입니다. 실제로 LLM 활용 사례를 보면, 뛰어난 LLM이 초기에는 인상적인 데모를 선보이지만, 신뢰성 측면에서 아쉬움을 남기는 경우가 많습니다. 이후 엔지니어링 팀이 시스템 레벨에서 개선 작업을 진행하여, 전체적인 품질을 체계적으로 향상시키는 과정을 흔히 볼 수 있습니다. 시스템은 역동적인 데이터 처리에 유리합니다. 머신러닝 모델은 고정된 데이터셋을 기반으로 학습하기 때문에, 모델이 가진 지식은 학습 시점에 한정된다는 근본적인 한계를 지닙니다. 따라서 최신 정보를 실시간으로 반영하기 위해서는 검색 엔진과 같은 외부 컴포넌트와 모델을 효과적으로 결합하는 것이 필수적입니다. 또한, 모델 학습은 방대한 훈련 데이터셋 전체를 ‘학습하는’ 방식으로 이루어지므로, 사용자별 접근 권한 제어와 같은 보안 기능이 중요한 AI 애플리케이션(예: 특정 사용자가 접근 권한을 가진 파일에 기반하여 질문에 답변)을 구축하려면, 더욱 복잡하고 정교한 시스템 설계가 요구됩니다. 시스템 레벨에서 제어력과 신뢰성을 높이기 쉽습니다. 신경망 모델 자체는 ‘블랙박스’와 같아서, 모델의 작동 방식을 사용자가 직접 제어하기 어렵습니다. 학습을 통해 모델에 간접적인 영향을 줄 수는 있지만, 특정 행동을 유도하거나 원치 않는 행동을 억제하는 것을 보장하기는 어렵습니다. 하지만 AI 시스템은 모델 출력을 필터링하는 등 다양한 제어 메커니즘을 시스템 레벨에서 구현할 수 있기 때문에, 모델 자체보다 훨씬 강력하게 모델의 행동을 통제할 수 있습니다. 뿐만 아니라, 최고 성능의 LLM조차도 여전히 ‘환각(hallucination)’ 현상을 완전히 극복하지 못하고 있습니다. 하지만 LLM과 검색 기능을 결합한 시스템은 답변의 출처를 명시하거나, 팩트체크 과정을 자동화하여 정보의 신뢰도를 획기적으로 높일 수 있습니다. 애플리케이션의 다양한 요구사항에 맞춤 대응이 가능합니다. 각각의 AI 모델은 고정된 수준의 품질과 비용을 갖습니다. 하지만 실제 애플리케이션은 서비스 환경이나 사용 목적에 따라, 요구되는 품질과 허용 가능한 비용 수준이 매우 다양합니다. 예를 들어, 코드 자동 완성 기능과 같이 빠른 응답 속도가 중요한 애플리케이션에서는, 최고 성능 모델은 지나치게 무겁고 비효율적입니다. Github Copilot과 같은 도구들은 신중하게 튜닝된 경량 모델과 다양한 휴리스틱 검색 기법을 조합하여, 빠르면서도 준수한 품질의 결과를 제공합니다. 반면, 법률 자문 서비스와 같이 높은 정확성이 핵심인 애플리케이션에서는, GPT-4와 같은 최상위 모델조차도 품질 측면에서 여전히 부족할 수 있습니다. 많은 사용자들이 GPT-4에게 간단한 질문을 던지는 데 몇 센트를 지불하는 대신, 정확한 법률 자문을 얻기 위해 수십 달러를 기꺼이 지불할 의향이 있을 것입니다. 결국 개발자는 더 높은 예산을 투입하여 최고 품질의 서비스를 제공할 수 있는 AI 시스템을 맞춤형으로 설계해야 합니다.

생성형 AI 분야에서 복합 시스템으로의 전환은 자율주행차와 같은 다른 AI 분야의 기술 트렌드와 궤를 같이 합니다. 자율주행 기술 역시 여러 전문화된 구성 요소들이 유기적으로 협력하는 복합 시스템 구조를 채택하는 추세가 뚜렷합니다. 이러한 다양한 이유들을 종합해 볼 때, 모델 성능이 계속 발전하더라도 복합 AI 시스템은 앞으로도 AI 기술 혁신의 핵심 패러다임으로 굳건히 자리매김할 것으로 전망됩니다.

복합 AI 시스템 개발, 어떻게 시작해야 할까요?

복합 AI 시스템은 분명 혁신적인 잠재력을 가지고 있지만, 이러한 시스템을 효과적으로 설계, 최적화, 운영하는 것은 아직 초기 단계에 있습니다. 겉으로 보기에는 AI 시스템이 기존 소프트웨어와 AI 모델의 단순한 결합처럼 보일 수 있지만, 실제 개발 과정에서는 다양한 설계 난관에 직면하게 됩니다. 가령, 전체 시스템의 ‘제어 로직’을 기존 프로그래밍 언어(예: LLM API를 호출하는 Python 코드)로 구현해야 할까요, 아니면 AI 모델(예: 외부 도구를 스스로 호출하는 LLM 에이전트)이 시스템 전체를 주도하도록 설계해야 할까요? 또한, 복합 시스템 개발 시 한정된 자원을 어떤 부분에 집중 투자해야 할까요? 예를 들어 RAG 파이프라인을 구축할 때, 검색 엔진과 LLM 중 어느 쪽에 더 많은 연산 자원(FLOPS)을 할당하는 것이 효율적일까요, 아니면 LLM을 여러 번 호출하여 추론 정확도를 높이는 전략을 선택해야 할까요? 마지막으로, 신경망 학습처럼, 복합 AI 시스템을 구성하는 이질적인 요소들을 엔드 투 엔드로 통합 최적화하여 전체 시스템 성능을 극대화할 수 있는 효과적인 방법론은 무엇일까요? 다음 섹션에서는 몇 가지 대표적인 복합 AI 시스템 사례를 심층적으로 분석하고, 앞서 제기된 난제들과 관련된 최신 연구 동향을 자세히 살펴보겠습니다.

AI 시스템 설계, 무한한 가능성의 세계

최근 인공지능 분야에서는 여러 구성 요소를 결합한 복합 AI 시스템이 큰 주목을 받고 있습니다. 이러한 시스템들은 각 구성 요소의 장점을 활용하여 단일 AI 모델로는 해결하기 어려웠던 복잡한 문제들을 해결하고, 새로운 가능성을 제시하고 있습니다. 아래 표는 이러한 복합 AI 시스템들을 간략하게 소개하고, 핵심 구성 요소와 설계 특징을 비교 분석한 것입니다. 이를 통해 복합 AI 시스템 설계의 다양성과 무한한 가능성을 엿볼 수 있습니다.

표에서 보시는 것처럼, 다양한 복합 AI 시스템들이 존재하며, 각각 고유한 구성 요소와 디자인을 가지고 있습니다.

저스틴) 표는 원문을 보세요. 내용은 아래 정리합니다.

예를 들어, 코딩 분야에서는 ‘AlphaCode 2’라는 시스템이 두각을 나타내고 있습니다. 이 시스템은 미세 조정된 거대 언어 모델(LLM), 코드 실행 모듈, 그리고 클러스터링 모델을 핵심 구성 요소로 사용합니다. ‘AlphaCode 2’의 디자인 특징은 코딩 문제에 대해 무려 100만 개에 달하는 다양한 솔루션을 생성한 후, 이를 필터링하고 점수를 매겨 가장 적합한 솔루션을 선택하는 방식입니다. 이러한 접근 방식을 통해 ‘AlphaCode 2’는 코딩 콘테스트에서 인간 상위 85%에 해당하는 놀라운 성과를 보여주었습니다.

기하학 문제 해결에 특화된 ‘AlphaGeometry’ 시스템은 또 다른 흥미로운 예시입니다. ‘AlphaGeometry’는 미세 조정된 LLM과 기호 수학 엔진을 결합했습니다. 이 시스템은 LLM을 통해 기하학 문제에 대한 구성을 반복적으로 제안하고, 기호 수학 엔진을 통해 추론된 사실을 검증하는 방식으로 작동합니다. 그 결과, ‘AlphaGeometry’는 시간 제한이 있는 테스트에서 국제 수학 올림피아드 메달리스트 수준의 뛰어난 성적을 거두었습니다.

의료 분야에서는 ‘Medprompt’라는 시스템이 주목받고 있습니다. ‘Medprompt’는 GPT-4 LLM, 정답 예제 데이터베이스, LLM 생성 사고 사슬 예제, 그리고 다중 샘플 및 앙상블 기법을 활용합니다. 이 시스템은 의료 질문에 답변하기 위해 유사한 예제를 검색하여 프롬프트를 구성하고, 각 예제에 대한 모델 생성 사고 사슬을 추가합니다. 또한, 최대 11개의 솔루션을 생성하고 평가하여 답변의 정확도를 높입니다. ‘Medprompt’는 이러한 복잡한 설계를 통해 단순한 프롬프팅 전략을 사용하는 기존 의료 모델보다 뛰어난 성능을 보여줍니다.

Gemini on MMLU 시스템은 Gemini LLM과 사용자 지정 추론 로직을 결합하여 MMLU 벤치마크에서 90%가 넘는 높은 정확도를 달성했습니다. 이 시스템은 32개의 사고 사슬 답변을 샘플링하고, 충분한 답변이 일치하면 최적의 답변을 선택하며, 그렇지 않으면 사고 사슬 없이 생성을 사용하는 방식으로 성능을 극대화했습니다.

**일상 생활에서 쉽게 접할 수 있는 ‘ChatGPT Plus’**는 LLM, 웹 브라우저 플러그인, 코드 인터프리터 플러그인, 그리고 DALL-E 이미지 생성기와 같은 다양한 도구를 통합했습니다. ‘ChatGPT Plus’는 웹 검색과 같은 도구를 필요에 따라 호출하여 질문에 답변할 수 있으며, LLM이 각 도구를 호출하는 시점과 방법을 지능적으로 결정합니다. 이러한 기능 덕분에 ‘ChatGPT Plus’는 수백만 명의 유료 구독자를 확보한 인기 있는 소비자 AI 제품으로 자리매김했습니다.

마지막으로, ‘RAG, ORQA, Bing, Baleen’ 등은 LLM과 검색 시스템을 다양한 방식으로 결합한 시스템들입니다. 이들은 LLM에게 검색 쿼리를 생성하도록 요청하거나, 현재 컨텍스트를 직접 검색하는 등 다양한 디자인을 통해 정보를 효과적으로 검색하고 활용합니다. 이러한 기술은 검색 엔진 및 엔터프라이즈 앱에서 널리 사용되고 있습니다.

이처럼 다양한 복합 AI 시스템들은 각 분야의 특정 문제를 해결하기 위해 고유한 구성 요소와 디자인을 채택하고 있습니다. 이러한 다양성은 복합 AI 시스템 설계의 무한한 가능성을 보여주며, 앞으로 더욱 혁신적인 복합 AI 시스템들이 등장할 것으로 기대됩니다.

복합 AI 시스템의 주요 과제

복합 AI 시스템은 AI 모델에 비해 설계, 최적화, 운영 측면에서 더욱 복잡하고 새로운 과제를 제시합니다.

설계 공간의 확장 주어진 작업에 대한 시스템 설계 가능성은 매우 넓습니다. 간단한 검색 증강 생성(RAG) 시스템만 하더라도, (i) 다양한 검색 모델과 언어 모델을 선택해야 하고, (ii) 쿼리 확장, 재랭킹 모델 등 검색 품질을 향상시키는 기술, (iii) LLM 생성 결과가 검색 내용과 연관성이 있는지 확인하거나, 생성 결과 자체를 개선하는 기술 등 고려할 요소가 많습니다. 개발자는 이처럼 광대한 설계 공간에서 최적의 설계를 찾아야 합니다.

또한, 개발자는 지연 시간, 비용 예산과 같은 제한된 자원을 시스템 구성 요소에 효율적으로 배분해야 합니다. 예를 들어, RAG 질의에 100밀리초 내에 응답해야 한다면 검색기에 20ms, LLM에 80ms를 할당할지, 아니면 반대로 할지 결정해야 합니다. 자원 배분은 시스템 성능에 큰 영향을 미치므로 신중한 접근이 필요합니다.

최적화의 난제 머신러닝에서 복합 시스템의 성능을 극대화하려면 각 구성 요소가 효과적으로 협력하도록 최적화해야 합니다. 예를 들어, LLM이 사용자 질문을 받고 검색 쿼리를 생성하여 검색 엔진으로 보내고, 검색 결과를 바탕으로 답변을 생성하는 RAG 애플리케이션을 생각해 봅시다. 이상적으로 LLM은 특정 검색 엔진에 최적화된 쿼리를 생성하도록 조정되어야 하고, 검색 엔진은 LLM이 답변 생성에 활용하기 용이한 정보를 우선적으로 제공하도록 조정되어야 합니다.

PyTorch와 같은 단일 모델 개발 환경에서는 모델 전체가 미분 가능하므로 엔드 투 엔드 최적화가 비교적 쉽습니다. 그러나 복합 AI 시스템은 검색 엔진, 코드 인터프리터와 같이 미분 불가능한 요소를 포함하므로 기존 최적화 방식 적용에 한계가 있습니다. 복합 AI 시스템 최적화는 여전히 활발한 연구 분야이며, DSPy는 사전 훈련된 LLM과 다양한 구성 요소로 이루어진 파이프라인을 위한 범용 최적화 도구를 제공합니다. 반면, LaMDA, Toolformer, AlphaGeometry 등은 모델 훈련 시 도구 호출을 활용하여 특정 도구에 최적화된 모델을 개발합니다.

운영 복잡성 증가 (MLOps) 복합 AI 시스템은 머신러닝 운영(MLOps) 측면에서도 더 큰 복잡성을 야기합니다. 기존 ML 모델, 예를 들어 스팸 분류기의 성능은 성공률로 쉽게 파악할 수 있지만, 동일한 작업을 수행하는 LLM 에이전트의 성능을 개발자가 추적하고 디버깅하는 것은 훨씬 어렵습니다. LLM 에이전트는 메시지 분류를 위해 “반성” 단계를 여러 번 반복하거나 외부 API를 호출하는 등 예측하기 어려운 과정을 거칠 수 있습니다. 이러한 문제를 해결하기 위해 새로운 MLOps 도구 개발이 필요하며, 주요 과제는 다음과 같습니다.

효율적인 모니터링:개발자는 복잡한 AI 시스템의 작동 과정을 효율적으로 로깅, 분석, 디버깅하는 효과적인 방법은 무엇일까요?
DataOps 통합:많은 AI 시스템이 벡터 DB와 같은 데이터 제공 구성 요소를 포함하고 시스템 작동이 데이터 품질에 좌우되므로, 시스템 운영은 데이터 파이프라인 관리까지 포괄해야 합니다.
보안 강화:연구에 따르면 콘텐츠 필터가 적용된 LLM 챗봇과 같은 복합 AI 시스템은 개별 모델 대비 예측하기 어려운 보안 취약점을 초래할 수 있습니다. 이러한 시스템을 안전하게 운영하기 위한 새로운 보안 도구가 필요합니다.

새로운 패러다임 부상

복합 AI 시스템 구축의 어려움을 극복하기 위해 산업계와 학계에서 다양한 새로운 접근 방식이 나타나고 있습니다. 주요 접근 방식과 관련 연구 동향은 다음과 같습니다.

AI 시스템 설계: 모듈화된 프레임워크 및 전략. 많은 개발자가 AI 모델과 다양한 구성 요소를 결합하여 애플리케이션을 구축하는 “언어 모델 프로그래밍” 프레임워크를 적극적으로 활용하고 있습니다. LangChain, LlamaIndex와 같은 컴포넌트 라이브러리는 개발자가 기존 코드에서 AI 모델을 쉽게 통합할 수 있도록 지원하며, AutoGPT, BabyAGI와 같은 에이전트 프레임워크는 LLM이 애플리케이션 실행을 주도합니다. Guardrails, Outlines, LMQL, SGLang과 같은 도구는 LLM 출력을 제어하는 데 활용됩니다. 이와 함께 연구자들은 chain-of-thought, self-consistency, WikiChat, RAG 등 모델과 도구 호출을 통해 더 나은 결과물을 생성하는 다양한 추론 전략을 개발하고 있습니다.

자동 품질 최적화: DSPy 프레임워크. 학계에서 개발된 DSPy는 LLM 호출 및 기타 도구로 구성된 시스템을 목표 성능 지표를 최대화하도록 자동 최적화하는 선구적인 프레임워크입니다. 사용자가 LLM과 다른 도구를 활용하여 애플리케이션을 구성하고, 검증 세트 정확도와 같은 목표 지표를 설정하면, DSPy는 엔드 투 엔드 성능을 극대화하기 위해 각 모듈의 프롬프트, few-shot 예제, 매개변수 등을 자동으로 조정합니다. 이는 PyTorch에서 다층 신경망을 엔드 투 엔드 방식으로 최적화하는 것과 유사하지만, DSPy 모듈은 항상 미분 가능한 것은 아닙니다. DSPy는 언어 모델의 능력을 활용하여 모듈을 정의합니다. 사용자가 user_question -> search_query 와 같이 입력/출력 필드명을 명시한 자연어 시그니처를 작성하면, DSPy는 이를 지침, few-shot 예제, 또는 기반 언어 모델의 가중치 업데이트를 포함하는 최적의 프롬프트로 자동 변환합니다.

비용 효율적인 최적화: FrugalGPT 및 AI 게이트웨이. 다양한 AI 모델과 서비스가 등장하면서 애플리케이션에 최적합한 모델을 선택하는 것이 더욱 어려워지고 있습니다. 또한, 입력 데이터에 따라 모델별 성능 편차가 발생할 수 있습니다. FrugalGPT는 목표 예산 범위 내에서 품질을 최대화하기 위해 다양한 AI 모델 조합으로 입력을 자동 라우팅하는 프레임워크입니다. FrugalGPT는 소규모 예제 데이터셋을 기반으로, 최고 성능의 LLM 서비스와 유사한 품질을 유지하면서 비용을 최대 90% 절감하거나, 동일 예산으로 품질을 최대 4% 향상시키는 라우팅 전략을 학습합니다. FrugalGPT는 Databricks AI Gateway, OpenRouter, Martian 등 소프트웨어에 구현된 AI 게이트웨이 또는 라우터의 확장된 개념을 보여주는 대표적인 사례입니다. 이러한 시스템은 AI 작업이 복합 시스템 내에서 더 작은 모듈 단계로 분할될 때 효율성이 극대화되며, 게이트웨이는 각 단계별 라우팅을 개별적으로 최적화할 수 있습니다.

운영 효율성 증대: LLMOps 및 DataOps. AI 애플리케이션의 안정적인 운영을 위해서는 모델 출력과 데이터 파이프라인에 대한 지속적인 모니터링이 필수적입니다. 특히 복합 AI 시스템은 입력에 따라 시스템 작동 방식이 더욱 복잡해지므로, 애플리케이션의 모든 단계와 중간 결과에 대한 추적이 중요합니다. LangSmith, Phoenix Traces, Databricks Inference Tables와 같은 소프트웨어는 이러한 결과물을 상세하게 추적, 시각화, 평가하고, 데이터 파이프라인 품질 및 다운스트림 지표와 연계하여 분석하는 기능을 제공합니다. 연구 분야에서는 DSPy Assertions가 모니터링 피드백을 AI 시스템에 직접 반영하여 결과물 개선을 시도하고 있으며, MT-Bench, FAVA, ARES와 같은 AI 기반 품질 평가 방법은 품질 모니터링 자동화를 목표로 연구되고 있습니다.

결론

생성형 AI는 자연어 프롬프팅을 통해 혁신적인 기능들을 구현하며 개발자들의 뜨거운 관심을 받고 있습니다. 이제 개발자들은 단순 데모 수준을 넘어, AI 애플리케이션의 품질을 극대화하기 위해 LLM의 기능을 효과적으로 제어하고 확장할 수 있는 복합 AI 시스템으로 빠르게 전환하고 있습니다. 복합 AI 시스템 개발의 Best Practice는 아직 정립 중이지만, 설계, 엔드 투 엔드 최적화, 운영 효율성 증대를 위한 다양한 접근 방식들이 활발하게 연구되고 있습니다. 복합 AI 시스템은 앞으로 AI 애플리케이션의 품질과 신뢰성을 획기적으로 향상시키는 핵심 기술로 자리매김할 것이며, 2024년 AI 분야에서 가장 주목해야 할 트렌드 중 하나임에 틀림없습니다.