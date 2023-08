Meta ha presentado su último avance en inteligencia artificial (IA), un modelo que es tanto multimodal como multilingüe. Denominado SeamlessM4T, este nuevo sistema tiene la capacidad de realizar traducciones de voz a texto y de texto a texto en casi un centenar de idiomas distintos.

Pero eso no es todo, ya que también brilla en las interpretaciones de voz a voz y de texto a voz, demostrando su dominio en la identificación de alrededor de cien lenguajes de entrada y treinta y cinco de salida.

A diferencia de los sistemas de interpretación convencionales que dividen el proceso en múltiples canales, este nuevo desarrollo de Meta promete una experiencia más fluida y eficiente en el ámbito de la traducción.

SeamlessM4T se erige sobre los cimientos de previos hitos en la traducción de la compañía, tales como No Language Left Behind, SpeechMatrix y Massively Multilingual Speech.

Los ingenieros de la empresa se abocaron a rediseñar el conjunto de herramientas de secuenciación ‘Fairseq’, con el propósito de alumbrar sistemas más ligeros que fueran capaces de manejar una mayor cantidad de información en diversos formatos de manera simultánea.

El proceso de entrenamiento del modelo involucró una asombrosa cantidad de decenas de miles de millones de oraciones de texto de acceso público, además de 4 millones de fragmentos de voz extraídos de la web.

Cabe destacar que toda la información empleada en esta fase carece de derechos de autor, procediendo de fuentes abiertas o con licencia. Los investigadores amalgamaron ambos tipos de contenido para dar vida a SeamlessAling, el conjunto de datos de entrenamiento que nutrió a SeamlessM4T.

En el núcleo de este repositorio yacen alineaciones de 443,000 horas de voz con sus respectivos textos, junto a la creación de 29,000 horas de alineaciones de voz a voz, marcando así un paso significativo en la evolución de la tecnología de traducción.

Según el equipo de Meta, al someterlo a pruebas de robustez, el sistema demuestra un rendimiento superior ante ruidos de fondo y variaciones en la entonación al ejecutar tareas de conversión de voz a texto, logrando mejoras promedio del 37 % y 48 %, respectivamente, en contraste con el más reciente modelo de última generación de la compañía.

La gigante tecnológica asegura que SeamlessM4T posee la capacidad de discernir cuándo un usuario integra dos o más idiomas en una sola oración. De forma automática, el modelo transcribe cada fragmento para una traducción parcial o completa, incluso abordando el reconocimiento de sesgos de género en los idiomas analizados.

