Microsoft ha dejado de depender exclusivamente de sus socios para liderar el sector. Con el lanzamiento de MAI-Transcribe-1, su tercer modelo de desarrollo propio tras MAI-Voice-1 y MAI-Image-2, la compañía reclama el trono de la conversión de voz a texto con una precisión que roza la perfección humana.
El benchmark FLEURS: Una victoria en 25 idiomas
La cifra que todo el mundo está comentando en la industria es el 3,9% de WER (Word Error Rate). Para ponerlo en contexto:
- Precisión imbatible: En la prueba FLEURS, el modelo ha logrado una tasa media de error de solo el 3,9% en 25 idiomas clave (incluyendo español, chino y francés).
- Superando a los gigantes: MAI-Transcribe-1 ha liderado la clasificación en 11 idiomas principales. En los 14 restantes, ha logrado superar a Whisper-large-v3 de OpenAI y al reciente Gemini 3.1 Flash de Google en 11 de ellos.
- Consistencia: A diferencia de otros modelos que «alucinan» o fallan en idiomas menos comunes, el modelo de Microsoft mantiene una precisión constante en todo su espectro lingüístico.

Más rápido, más barato, más MAI
Microsoft no solo ha optimizado los pesos del modelo para la precisión, sino también para el bolsillo y el tiempo de computación:
- Velocidad de vértigo: El modelo es 2,5 veces más rápido en transcripción por lotes que el servicio Microsoft Azure Fast.
- Coste disruptivo: Se ofrece a 0,36 dólares por hora. Microsoft afirma que, a día de hoy, es la opción más rentable de todos los proveedores de servicios cloud.

Nota técnica del Gurú: Aunque de momento no admite transcripción en tiempo real ni separación de locutores (diarización), su despliegue en la plataforma Microsoft Foundry indica que estas funciones llegarán en actualizaciones inminentes.
¿Crees que un 3,9% de error es suficiente para sustituir a los transcriptores humanos en juicios o medicina? ¿Es este el fin de las «alucinaciones» en la transcripción de idiomas que no son el inglés?
Déjanos tu opinión en los comentarios y únete a la discusión en Instagram, Facebook y YouTube.
