본문 바로가기
IT

오픈AI, 차세대 음성 AI 모델 3종 출시! AI 음성 혁신 가속화

by 뉴스숲지기 2025. 3. 24.

목차

    오픈AI, 차세대 음성 AI 모델 3종 출시! AI 음성 혁신 가속화

    오픈AI, 새로운 음성 AI 모델 3종 공개

    오픈AI가 2025년 3월 20일(현지시간) API 서비스에 새로운 독점 음성 모델을 공개했습니다. 이번 출시된 모델은 다음과 같습니다.

    • gpt-4o-트랜스크라이브 - 고성능 음성-텍스트 변환(STT) 모델
    • gpt-4o-미니-스크라이브 - 경량화된 음성-텍스트 변환(STT) 모델
    • gpt-4o-미니-tts - 맞춤형 음성 생성(TTS) 모델

    기존 모델 대비 성능 개선

    이번 모델들은 기존 'GPT-4o'와 'GPT-4o 미니'를 기반으로 사후 훈련을 거친 변형 모델로, 음성 인식 및 변환 성능이 대폭 향상되었습니다.

     

    특히, gpt-4o-트랜스크라이브gpt-4o-미니-스크라이브는 기존의 '위스퍼(Whisper)' 모델보다 단어 오류율(WER)이 낮으며, 소음이 많은 환경에서도 뛰어난 인식 능력을 제공합니다.

    언어별 단어 오류율(WER) 비교

    • 영어: 2.46%
    • 한국어: 4.07%
    • 일본어: 3.06%
    • 중국어: 7.03%

    그러나 일부 희소 언어(타밀어, 텔루구어 등)는 30%에 가까운 오류율을 기록하며, 다국어 지원의 한계도 존재합니다.

    텍스트-음성 변환(TTS) 기능 강화

    gpt-4o-미니-tts 모델은 단순한 텍스트 음성 변환을 넘어 사용자가 원하는 감정을 반영한 맞춤형 음성을 생성할 수 있습니다.

    프롬프트를 통해 억양, 피치, 톤 등을 조정할 수 있어 보다 자연스러운 AI 음성 출력을 제공합니다.

    API 가격 및 지원

    오픈AI는 해당 모델들의 API 가격을 다음과 같이 책정했습니다.

    • gpt-4o-트랜스크라이브: 음성 입력 100만 토큰당 6달러
    • gpt-4o-미니-스크라이브: 음성 입력 100만 토큰당 3달러
    • gpt-4o-미니-tts: 텍스트 입력 100만 토큰당 0.6달러, 음성 출력 100만 토큰당 12달러

    이전 모델인 '보이스 엔진' 출시 이후 1년 만에 선보인 이번 모델들은 음성 AI 기술 발전을 가속할 것으로 전망됩니다.

    AI 에이전트 시장 변화 전망

    AI 기반 에이전트의 실용화를 위해서는 자연스러운 음성 인터페이스가 필수적입니다. 이번 오픈AI의 음성 모델 출시가 AI 시장의 경쟁을 한층 더 심화할 것으로 예상됩니다.

     

    특히, 음성 복제 및 감정 표현이 가능한 AI의 등장은 가상 비서, AI 콜센터, 자동 더빙 등의 다양한 산업에서 적극 활용될 전망입니다.