Amazon presenta BASE TTS, el modelo de conversión de texto a voz "más grande hasta la fecha"

La compañía tecnológica investigó formas de mejorar las capacidades de los modelos de conversión de texto a voz, de cara a obtener resultados de audio más realistas y naturales, capaces de imitar cuestiones más complejas en el habla, como las emociones, las frases complejas, las palabras extranjeras o la interpretación de los signos de puntuación.

En este marco, Amazon presentó BASE TTS, el modelo de conversión de texto a voz "más grande hasta la fecha", que ha sido entrenado con 100.000 horas de datos de voz de dominio público y 980 millones parámetros en su variante más avanzada, para mejorar su capacidad para pronunciar palabras y oraciones de forma natural, incluso con una entonación compleja.

En concreto, tal y como explicó la compañía en un comunicado, se trata de un modelo que utiliza un transformador de prácticamente mil millones de parámetros que convierte textos sin formato en códigos de voz, que ha combinado con un decodificador que convierte códigos de voz en formas de onda. Como resultado, BASE TTS funciona con una arquitectura "simplificada y altamente eficiente" que, según Amazon, se completa con una "novedosa" técnica de tokenización de voz.

Para encontrar una forma de obtener resultados de voz más realistas, los investigadores de Amazon han tomado como ejemplo las "habilidades emergentes" que ofrecen los grandes modelos de lenguaje (LLM) cuando se entrenan con un volumen cada vez mayor de datos, que comienzan a mostrar comportamientos de aprendizaje y resultados mejores exponencialmente.

En este sentido, los investigadores trasladaron esta idea a los modelos de conversión de texto a voz para conseguir un resultado de voz más natural y comprobar cómo evoluciona el comportamiento del modelo, en base al entrenamiento recibido. Para ello, desde Amazon han entrenado BASE TTS con varias variantes.

Tal y como detalló la compañía en un artículo sobre el estudio, se ha probado con una variante de BASE TTS pequeña, entrenada con 1.000 horas de datos de audio y 150 millones de parámetros; una variante median, con 10.000 horas de audio de entrenamiento y 400 millones de parámetros; y la variante más grande, con 100.000 horas de entrenamiento de audio y 980 millones de parámetros.

Concretamente, los datos de audio utilizados para el entrenamiento incluían un 90 por ciento de audio en inglés. Igualmente, también se han incluido datos en alemán, holandés y español.

En este marco, los investigadores comprobaron que a partir de la variante mediana del modelo, se comenzó a mostrar una comprensión más avanzada de los textos y una pronunciación y fonética "contextualmente apropiada".

Con todo ello, el modelo BASE TTS es capaz de ofrecer mejores resultados gracias a las "habilidades emergentes" que proporciona el entrenamiento de datos. En concreto, muestra mejoras en frases con sustantivos compuestos, que muestren emociones o que utilicen palabras extranjeras.

Tal y como ha detallado Amazon, el modelo también es capaz de reproducir palabras paralingüísticas -es decir, sonidos-, interpretar de forma correcta los elementos de puntuación, incluidas las preguntas y otras complejidades sintácticas.

Con información de Europa Press

Tecnología > Tecnología

Amazon presenta BASE TTS, el modelo de conversión de texto a voz "más grande hasta la fecha"

NACIONAL

¿Cuándo vuelve a jugar Nacional por el Torneo Apertura y la Copa Libertadores?

Fútbol

El Real Madrid visita el Etihad con un objetivo: las semifinales de la Champions

Fútbol

Luis Enrique: "He visto a un equipo muy maduro y entero"

NACIONAL

El tirón de orejas del Chino Recoba a Nacional por las zozobras que pasó ante Miramar Misiones

TORNEO APERTURA

Así quedó la tabla de posiciones del Torneo Apertura tras el triunfo de Nacional sobre Miramar Misiones

Elecciones internas

Partido Colorado: Zubía baja su candidatura y anunciará su apoyo a Ojeda

JUEGOS DE AZAR

Resultados de la quiniela y tómbola nocturna del martes 16 de abril

MALVÍN NORTE

"Veo el agujero de bala en la pared": un disparo impactó a centímetros de un niño que dormía

ARGENTINA

Boca Juniors vs Godoy Cruz: mirá el gol de Cavani que clasificó a Boca para jugar contra River por la Liga Argentina

nueva decisión

El ministro Cúneo Libarona informó que el Gobierno retrotrajo los aumentos en los trámites de automotores

Cromo

REDES SOCIALES

Las notas de Instagram dejan de ser exclusivas de la bandeja de DM: también aparecerán en el perfil

Festival internacional de aprendizaje de ciencia y tecnología llega a Uruguay otra vez

El elogio de Estados Unidos a Uruguay y un acuerdo que los privados ven con "excelentes ojos"

Comentarios

	COMPRA	VENTA
Dólar Pizarra	$ 37,95	$ 40,35
Peso Argentino	$ 0,02	$ 0,20
Real de Brasil	$ 7,05	$ 8,75
Euro	$ 39,35	$ 44,10


Unidad Indexada	$ 5,9987
Unidad Reajustable	$ 1.719,57