오픈AI, 차세대 음성 AI 모델 3종 출시! AI 음성 혁신 가속화

오픈AI, 새로운 음성 AI 모델 3종 공개

오픈AI가 2025년 3월 20일(현지시간) API 서비스에 새로운 독점 음성 모델을 공개했습니다. 이번 출시된 모델은 다음과 같습니다.

이번 모델들은 기존 'GPT-4o'와 'GPT-4o 미니'를 기반으로 사후 훈련을 거친 변형 모델로, 음성 인식 및 변환 성능이 대폭 향상되었습니다.

특히, gpt-4o-트랜스크라이브와 gpt-4o-미니-스크라이브는 기존의 '위스퍼(Whisper)' 모델보다 단어 오류율(WER)이 낮으며, 소음이 많은 환경에서도 뛰어난 인식 능력을 제공합니다.

그러나 일부 희소 언어(타밀어, 텔루구어 등)는 30%에 가까운 오류율을 기록하며, 다국어 지원의 한계도 존재합니다.

gpt-4o-미니-tts 모델은 단순한 텍스트 음성 변환을 넘어 사용자가 원하는 감정을 반영한 맞춤형 음성을 생성할 수 있습니다.

프롬프트를 통해 억양, 피치, 톤 등을 조정할 수 있어 보다 자연스러운 AI 음성 출력을 제공합니다.

오픈AI는 해당 모델들의 API 가격을 다음과 같이 책정했습니다.

이전 모델인 '보이스 엔진' 출시 이후 1년 만에 선보인 이번 모델들은 음성 AI 기술 발전을 가속할 것으로 전망됩니다.

AI 기반 에이전트의 실용화를 위해서는 자연스러운 음성 인터페이스가 필수적입니다. 이번 오픈AI의 음성 모델 출시가 AI 시장의 경쟁을 한층 더 심화할 것으로 예상됩니다.

특히, 음성 복제 및 감정 표현이 가능한 AI의 등장은 가상 비서, AI 콜센터, 자동 더빙 등의 다양한 산업에서 적극 활용될 전망입니다.

일론 머스크의 xAI, API에 이미지 생성 기능 추가! 새로운 수익 모델은? (1)	2025.03.24
클로드, 드디어 웹 검색 기능 추가! AI 챗봇 경쟁에 새 변수 등장 (0)	2025.03.24
AI 디지털 교과서, 급히 도입된 혁신의 그림자 (0)	2025.03.22
유발 하라리의 경고: AI가 가져올 미래와 위험 (0)	2025.03.21
구글 제미나이 2.0, AI 역사상 최초로 네이티브 이미지 생성 기능 탑재 (0)	2025.03.21