Saltar al contenido

Apple presenta SHARP, un modelo de IA que transforma fotos 2D en escenas 3D

diciembre 22, 2025

Apple, la empresa que suele vender «magia» cuando en realidad es ingeniería bien empaquetada, ha presentado SHARP. No, no es una nueva tele. Es un modelo de IA que promete hacer lo que la ciencia ficción lleva décadas mostrándonos: coger una foto plana y aburrida de tu galería y convertirla en una escena 3D «inmersiva» en menos de lo que tardas en parpadear.

Pero antes de que empecéis a soñar con meteros dentro de las fotos de vuestras vacaciones de 2010, vamos a destripar qué es esto realmente, cómo funciona y dónde están las trampas. Porque siempre hay trampas.

SHARP: cuando Apple decide que el 2D es aburrido y abraza el «Gaussian Splatting»

Apple ha presentado un paper y una tecnología llamada SHARP (Sharp Monocular View Synthesis). El titular es jugoso: una IA capaz de reconstruir una escena 3D fotorrealista a partir de una única y miserable imagen 2D, y hacerlo en menos de un segundo.

Si seguís un poco el mundo de la computación gráfica, sabréis que reconstruir 3D desde 2D es el Santo Grial. Hasta ahora, necesitábamos fotogrametría (cientos de fotos desde todos los ángulos) o NeRFs (Neural Radiance Fields), que son impresionantes pero lentos de entrenar y renderizar como un dolor de muelas.

El motor técnico: la salpicadura Gaussiana 3D

Aquí es donde la cosa se pone técnica. SHARP no usa polígonos ni vóxeles tradicionales. Se basa en la técnica de moda: 3D Gaussian Splatting.

Imaginad una «mancha» difusa de luz y color en un espacio tridimensional. Eso es una gaussiana 3D. El sistema no modela superficies sólidas; en su lugar, combina millones de estas manchas semitransparentes para engañar a tu ojo y hacerle creer que está viendo una estructura sólida y texturizada. Es como puntillismo, pero en tres dimensiones y con esteroides matemáticos.

La «magia» de la velocidad y la predicción de profundidad

Lo verdaderamente disruptivo de SHARP no es que haga 3D, sino su eficiencia. Los métodos anteriores requerían un procesamiento intensivo para calcular la geometría. El modelo de Apple lo logra mediante un único paso de avance (forward pass) a través de una red neuronal.

¿Cómo sabe la IA qué profundidad tiene esa mesa en tu foto si solo tiene información 2D? Fuerza bruta de entrenamiento. Apple ha cebado al modelo con cantidades ingentes de datos sintéticos y reales. La IA ha visto tantas mesas, paredes y gatos que ha aprendido a «entender» los patrones de profundidad inherentes a la perspectiva. Básicamente, es una máquina de predicción estadística de profundidad extremadamente rápida.

La letra pequeña: no es una holocubierta

Aquí viene el jarro de agua fría para los soñadores. SHARP es potente, pero no hace milagros. Está diseñado para renderizar vistas cercanas.

¿Qué significa esto? Que puedes inclinar el móvil para ver un poco «detrás» del borde de un objeto cercano, o cambiar ligeramente la perspectiva del suelo para sentir la profundidad. Pero no puedes alejarte, no puedes girar 360 grados alrededor de una persona y no puedes ver lo que estaba totalmente oculto en la foto original.

El sistema es honesto: no «alucina» ni inventa partes de la escena que no existen. Esto garantiza que el resultado sea creíble, pero limita drásticamente el concepto de «inmersivo» que nos venden. Es más un efecto de paralaje hipervitaminado que una reconstrucción de mundo completo.

El giro de guion: ¿Apple Open Source?

Y para terminar con una nota de incredulidad: a diferencia de la hermética «Apple Intelligence», Apple ha publicado el código de SHARP en GitHub. Esto permite a desarrolladores y académicos experimentar con él. Un movimiento muy poco habitual en la empresa de la manzana mordida, que sugiere que esta tecnología es un pilar fundamental que quieren estandarizar rápidamente, quizás porque la necesitan para algo más grande que una simple función en la app Fotos.

La opinión final del Gurú

SHARP es una demostración técnica impresionante de fuerza bruta aplicada a la IA gráfica. Lograr una inferencia de Gaussian Splatting en menos de un segundo desde una sola imagen es un hito de ingeniería serio, dejando atrás métodos mucho más lentos y costosos.

Sin embargo, no nos dejemos cegar por el hype. Como producto de consumo actual, esto es poco más que un truco de fiesta glorificado para darle vidilla a tus fotos estáticas. La limitación de las «vistas cercanas» es crucial: no estás explorando un mundo 3D, estás mirando una foto con esteroides de profundidad.

La verdadera lectura aquí no es la app Fotos del iPhone. Esta tecnología de reconstrucción 3D ultrarrápida y de baja latencia es la base fundamental necesaria para unas futuras gafas de realidad aumentada (no el mamotreto de las Vision Pro, sino unas gafas de verdad). Para que la AR funcione, el dispositivo necesita entender y reconstruir tu entorno en tiempo real con un coste computacional mínimo. SHARP es Apple diciéndonos: «Ya tenemos el motor gráfico para la próxima década de computación espacial». Que lo hayan hecho open source solo confirma que necesitan acelerar el ecosistema alrededor de esta técnica. Es un ladrillo crucial, pero la casa aún no está construida. ¡Te leemos en los comentarios! Y no te olvides de seguir a Gurú Tecno en YouTubeInstagram y Facebook.

Índice
    Ajustes