Nowe modele głosowe OpenAI dostępne dla deweloperów

OpenAI zaprezentowało trzy nowe modele głosowe: gpt-4o-transcribe, gpt-4o-mini-transcribe oraz gpt-4o-mini-tts. Modele te udostępniono poprzez API, umożliwiając twórcom oprogramowania integrację funkcji głosowych w ich aplikacjach. Dodatkowo, uruchomiono specjalną stronę demo — OpenAI.fm, która pozwala na testowanie możliwości głosowych przez użytkowników indywidualnych.

Personalizacja głosu i emocji

Model gpt-4o-mini-tts pozwala na modyfikację akcentu, tonu, wysokości głosu oraz emocji, bazując wyłącznie na podanym tekście. Dzięki temu użytkownik ma pełną kontrolę nad tym, jak brzmi odpowiedź AI. Funkcja ta ma na celu uniknięcie kontrowersji związanych z imitowaniem konkretnych głosów, co wcześniej doprowadziło do napięć wizerunkowych.

Demonstracja możliwości głosowych

W demonstracji na żywo przedstawiciel OpenAI pokazał, jak jeden głos może zostać zmodyfikowany tak, by przypominał zarówno szalonego naukowca, jak i spokojnego nauczyciela. To pokazuje elastyczność systemu i jego potencjał w różnorodnych scenariuszach użytkowych.

Nowa jakość transkrypcji

Nowe modele są rozwinięciem GPT-4o, wprowadzonego w maju 2024 roku. Dzięki dodatkowemu szkoleniu z danymi głosowymi osiągnięto niższy współczynnik błędów w transkrypcji, lepszą obsługę szumów i większą odporność na różnorodne akcenty. Model nie oferuje funkcji diarization, ale umożliwia dokładne rozpoznawanie mowy w ponad 100 językach.

Lepsza wykrywalność wypowiedzi

Zaawansowane techniki, takie jak detekcja aktywności semantycznej głosu i funkcje eliminacji szumów, pozwalają na dokładniejsze wyznaczenie końca wypowiedzi i zwiększają skuteczność transkrypcji. To znacząco poprawia jakość interakcji w aplikacjach głosowych.

Nowa forma rywalizacji społeczności

OpenAI organizuje konkurs na najciekawsze zastosowania strony demo OpenAI.fm. Uczestnicy mogą publikować swoje nagrania w serwisie X i oznaczać firmę, aby zdobyć unikalne nagrody, w tym radio z logotypem OpenAI, stworzone przez Teenage Engineering.

Przełom w zastosowaniach biznesowych

Nowe modele są idealne do zastosowań takich jak centra obsługi klienta, transkrypcje spotkań i asystenci głosowi. Dzięki SDK zaprezentowanemu tydzień wcześniej, deweloperzy mogą dodać interakcje głosowe do istniejących aplikacji opartych na GPT-4o za pomocą zaledwie kilku linii kodu.

Transkrypcje w czasie rzeczywistym

Nowa funkcja streaming speech-to-text pozwala na przekształcanie mowy na tekst w czasie rzeczywistym, co przekłada się na bardziej naturalny przebieg rozmowy. To kolejny krok w kierunku płynnych interakcji głosowych dla użytkowników końcowych.

Koszty i konkurencja na rynku

Ceny nowych modeli są konkurencyjne i zaczynają się od $0.003 za minutę dla gpt-4o-mini-transcribe. OpenAI staje jednak w obliczu rosnącej konkurencji ze strony firm takich jak ElevenLabs czy Hume AI, które oferują podobne możliwości, często z niższymi cenami lub dodatkowymi funkcjami.

Popularność i adaptacja w branży

Firmy takie jak EliseAI i Decagon już wdrożyły nowe modele OpenAI, odnotowując wyraźne korzyści w zakresie jakości interakcji głosowych i dokładności transkrypcji. Czas wdrożenia był krótki, co ułatwiło integrację w środowiskach produkcyjnych.

Krytyka i przecieki

Nie wszyscy są entuzjastyczni wobec nowych rozwiązań OpenAI. Część społeczności wskazuje na odejście od modelu niskiej latencji, co może oznaczać zmianę strategii firmy. Informacje o modelach wyciekły również przed oficjalną premierą, co wywołało dyskusje w mediach społecznościowych.

OpenAI zamierza dalej rozwijać swoje technologie głosowe, jednocześnie eksplorując możliwości multimodalnych systemów AI, takich jak integracja z wideo, by stworzyć jeszcze bardziej interaktywne doświadczenia użytkownika.

Tags:ai, modele, openai, sztuczna inteligencja, tts

Firmy stawiają na lokalne AI

Rynek IT w 2025 roku w liczbach

Nowe modele głosowe od OpenAI