OpenAI Docs – Audio and speech API – Voice agents
고객 지원 및 언어 튜터링과 같은 애플리케이션을 위한 강력하고 상황 인식적인 음성 에이전트를 만드세요. 이 가이드는 음성 에이전트를 설계하고 구축하는 데 도움이 됩니다.
올바른 아키텍처 선택
OpenAI는 음성 에이전트를 구축하기 위한 두 가지 주요 아키텍처를 제공합니다.
- 음성-음성(멀티모달)
- 체인(음성-텍스트 → LLM → 텍스트-음성)
음성-음성(멀티모달) 아키텍처
멀티모달 음성-음성(S2S) 아키텍처는 오디오 입력 및 출력을 직접 처리하여 단일 멀티모달 모델인 gpt-4o-realtime-preview에서 실시간으로 음성을 처리합니다. 모델은 음성으로 생각하고 응답합니다. 사용자의 입력에 대한 기록에 의존하지 않고 감정과 의도를 듣고 소음을 걸러내고 음성으로 직접 응답합니다. 고도로 대화형이고 지연 시간이 짧은 대화형 사용 사례에 이 접근 방식을 사용하세요.
강점 | 최적의 용도 |
---|---|
낮은 지연 시간 상호 작용 | 대화형이고 비구조적인 대화 |
풍부한 멀티모달 이해(오디오 및 텍스트 동시) | 언어 튜터링 및 대화형 학습 경험 |
자연스럽고 유연한 대화 흐름 | 대화형 검색 및 탐색 |
음성 컨텍스트 이해를 통한 향상된 사용자 경험 | 대화형 고객 서비스 시나리오 |
체인 아키텍처
체인 아키텍처는 오디오를 텍스트로 변환하고, 대규모 언어 모델(LLM)을 사용하여 지능적인 응답을 생성하고, 텍스트에서 오디오를 합성하는 방식으로 오디오를 순차적으로 처리합니다. 음성 에이전트 구축을 처음 시작하는 경우 이 예측 가능한 아키텍처를 권장합니다. 사용자 입력과 모델의 응답은 모두 텍스트 형식이므로 기록을 보유하고 애플리케이션에서 발생하는 상황을 제어할 수 있습니다. 또한 기존 LLM 기반 애플리케이션을 음성 에이전트로 변환하는 안정적인 방법입니다.
다음 모델을 연결합니다. gpt-4o-transcribe → gpt-4o → gpt-4o-mini-tts
강점 | 최적의 용도 |
---|---|
높은 제어 및 투명성 | 특정 사용자 목표에 초점을 맞춘 구조화된 워크플로 |
강력한 함수 호출 및 구조화된 상호 작용 | 고객 지원 |
안정적이고 예측 가능한 응답 | 판매 및 인바운드 분류 |
확장된 대화 컨텍스트 지원 | 기록 및 스크립트 응답과 관련된 시나리오 |
저스틴) My AI Smarteasy는 두 가지 방식 모두를 지원하고 있지만, 각각의 방식이 메뉴 선택을 하고 들어가야 한다. 메인 폼에서 대화 방식을 선택해서 사용할 수 있도록 지원하자.