Innowacyjny generator mowy Voicebox od Meta
Voicebox to zaawansowany model AI stworzony do generowania mowy, który potrafi generalizować do zadań, na które nie był specjalnie trenowany. W przeciwieństwie do tradycyjnych syntezatorów mowy, Voicebox może być trenowany na różnorodnych, niestrukturalnych danych, co eliminuje konieczność starannie oznaczonych wejść. Dzięki nowemu podejściu Flow Matching, model ten osiąga wysoką jakość dźwięku i jest w stanie syntetyzować mowę w sześciu językach, a także przeprowadzać usuwanie szumów, edytowanie treści oraz konwersję stylów.
Główne atuty Voicebox to jego wszechstronność w modyfikowaniu dowolnej części próbki audio, co czyni go idealnym do zastosowań takich jak synteza tekstu na mowę w kontekście, transfer stylów między językami, a także różnorodne próbkowanie mowy. Voicebox przewyższa istniejące modele mowy pod względem wskaźników błędów słownych oraz podobieństwa audio, a mimo że nie jest obecnie dostępny publicznie z powodu potencjalnych ryzyk nadużyć, Meta udostępnia próbki audio i szczegółowy artykuł naukowy dotyczący swojego podejścia oraz wyników.