Saltar al contenido

Xiaomi Robotics-0: El cerebro robótico de código abierto que funciona en tu PC

febrero 12, 2026

Si pensabais que para tener un robot inteligente en casa necesitabais un laboratorio de la NASA, Xiaomi acaba de decir: «sujétame el destornillador».

La compañía ha decidido romper el mercado de la robótica haciendo lo que mejor se le da: democratizar la tecnología. Han liberado el código de su cerebro robótico y, ojo, porque funciona con la tarjeta gráfica que usas para jugar.

Rendimiento de vanguardia en hardware de consumo

Xiaomi ha lanzado hoy su modelo VLA (Visión-Lenguaje-Acción) de código abierto, llamado Xiaomi-Robotics-0. Este modelo cuenta con 4.700 millones de parámetros y combina la comprensión visual con la ejecución física en tiempo real.

Lo más impresionante no son solo sus récords, sino dónde corre.

  • Accesible: Ha demostrado movimientos coherentes y respuestas rápidas ejecutándose en tarjetas gráficas de consumo.
  • Inteligencia física: La clave reside en un circuito cerrado de «percepción-decisión-ejecución», equilibrando la comprensión general y el control preciso mediante una arquitectura de Mezcla de Transformadores (MoT).

¿Cómo funciona este cerebro?

El sistema se divide en dos grandes áreas:

  1. Cerebro del Lenguaje Visual (VLM): Es la base multimodal responsable de entender instrucciones vagas como «Dobla la toalla, por favor» y capturar relaciones espaciales.
  2. Experto en Acción (DiT): Para moverse, utiliza un Transformador de Difusión (DiT) multicapa que genera «Fragmentos de Acción» fluidos en lugar de movimientos robóticos rígidos, usando tecnología de adaptación de flujo.

Solucionando la «lobotomía robótica»

La mayoría de modelos se vuelven «tontos» al aprender a moverse, perdiendo capacidad de razonamiento. Xiaomi lo ha solucionado:

  • Co-entrenamiento: Obligan al modelo a predecir acciones mientras comprende la imagen, alineando la teoría con la práctica.
  • Inferencia Asíncrona: Han desacoplado el «pensamiento» del «movimiento» para evitar lagunas de acción, permitiendo que el robot se mueva suavemente mientras procesa el siguiente paso.

Resultados reales

No es solo teoría. En pruebas reales con un robot de dos brazos, el modelo ha logrado desmontar bloques de construcción y doblar toallas, manipulando tanto objetos rígidos como telas flexibles con una coordinación excepcional.

El veredicto técnico: Difusión para el movimiento

Técnicamente, el uso de Transformadores de Difusión (DiT) para la generación de acciones es el gran salto. Al igual que la IA generativa crea imágenes desde el ruido, este robot «denoisa» (limpia) el ruido para recuperar secuencias de movimiento precisas. Esto, sumado al Prefijo de Acción Limpia (usar el pasado para predecir el futuro inmediato), elimina el temblor característico de los robots aprendices.

Es movimiento orgánico generado por IA. ¡Te leo abajo! Déjanos tu opinión en los comentarios y únete a la discusión en InstagramFacebook y YouTube.

Índice
    Ajustes