뉴테크프라임 » OpenAI Docs – Audio and speech API

고객 지원 및 언어 튜터링과 같은 애플리케이션을 위한 강력하고 상황 인식적인 음성 에이전트를 만드세요. 이 가이드는 음성 에이전트를 설계하고 구축하는 데 도움이 됩니다.

올바른 아키텍처 선택

OpenAI는 음성 에이전트를 구축하기 위한 두 가지 주요 아키텍처를 제공합니다.

음성-음성(멀티모달)
체인(음성-텍스트 → LLM → 텍스트-음성)

음성-음성(멀티모달) 아키텍처

멀티모달 음성-음성(S2S) 아키텍처는 오디오 입력 및 출력을 직접 처리하여 단일 멀티모달 모델인 gpt-4o-realtime-preview에서 실시간으로 음성을 처리합니다. 모델은 음성으로 생각하고 응답합니다. 사용자의 입력에 대한 기록에 의존하지 않고 감정과 의도를 듣고 소음을 걸러내고 음성으로 직접 응답합니다. 고도로 대화형이고 지연 시간이 짧은 대화형 사용 사례에 이 접근 방식을 사용하세요.

강점	최적의 용도
낮은 지연 시간 상호 작용	대화형이고 비구조적인 대화
풍부한 멀티모달 이해(오디오 및 텍스트 동시)	언어 튜터링 및 대화형 학습 경험
자연스럽고 유연한 대화 흐름	대화형 검색 및 탐색
음성 컨텍스트 이해를 통한 향상된 사용자 경험	대화형 고객 서비스 시나리오

체인 아키텍처

체인 아키텍처는 오디오를 텍스트로 변환하고, 대규모 언어 모델(LLM)을 사용하여 지능적인 응답을 생성하고, 텍스트에서 오디오를 합성하는 방식으로 오디오를 순차적으로 처리합니다. 음성 에이전트 구축을 처음 시작하는 경우 이 예측 가능한 아키텍처를 권장합니다. 사용자 입력과 모델의 응답은 모두 텍스트 형식이므로 기록을 보유하고 애플리케이션에서 발생하는 상황을 제어할 수 있습니다. 또한 기존 LLM 기반 애플리케이션을 음성 에이전트로 변환하는 안정적인 방법입니다.

다음 모델을 연결합니다. gpt-4o-transcribe → gpt-4o → gpt-4o-mini-tts

강점	최적의 용도
높은 제어 및 투명성	특정 사용자 목표에 초점을 맞춘 구조화된 워크플로
강력한 함수 호출 및 구조화된 상호 작용	고객 지원
안정적이고 예측 가능한 응답	판매 및 인바운드 분류
확장된 대화 컨텍스트 지원	기록 및 스크립트 응답과 관련된 시나리오