뉴테크프라임 » OpenAI Docs – Audio and speech API

OpenAI API는 오디오 애플리케이션 또는 음성 에이전트를 빌드하는 데 도움이 되는 여러 API 엔드포인트를 제공합니다.

오디오 사용 사례 둘러보기

음성 에이전트

음성 에이전트는 오디오를 이해하여 작업을 처리하고 자연어로 응답합니다.

음성 에이전트에 접근하는 방법에는 크게 두 가지가 있습니다.

음성-음성 모델과 Realtime API를 사용
음성-텍스트 모델, 요청을 처리하는 텍스트 언어 모델, 응답하는 텍스트-음성 모델을 연결

음성-음성이 지연 시간이 짧고 더 자연스럽지만, 음성 에이전트를 연결하는 것은 텍스트 기반 에이전트를 음성 에이전트로 확장하는 안정적인 방법입니다.

텍스트 음성 변환

텍스트를 음성으로 변환하려면 Audio API의 audio/speech 엔드포인트를 사용합니다. 이 엔드포인트와 호환되는 모델은 gpt-4o-mini-tts, tts-1 및 tts-1-hd입니다. gpt-4o-mini-tts를 사용하면 모델에 특정 방식으로 또는 특정 어조로 말하도록 요청할 수 있습니다.

음성 텍스트 변환

음성을 텍스트로 변환하려면 Audio API의 audio/transcriptions 엔드포인트를 사용합니다. 이 엔드포인트와 호환되는 모델은 gpt-4o-transcribe, gpt-4o-mini-transcribe 및 whisper-1입니다. 스트리밍을 사용하면 오디오를 계속 전달하고 텍스트 스트림을 계속 받을 수 있습니다.

올바른 API 선택

오디오를 전사하거나 생성하는 데는 여러 API가 있습니다.

API	지원되는 양식	스트리밍 지원
Realtime API	오디오 및 텍스트 입력 및 출력	오디오 스트리밍 입출력
Chat Completions API	오디오 및 텍스트 입력 및 출력	오디오 스트리밍 출력
Transcription API	오디오 입력	오디오 스트리밍 출력
Speech API	텍스트 입력 및 오디오 출력	오디오 스트리밍 출력