Un grupo de científicos de Google DeepMind ha desarrollado un sistema de aprendizaje automático que puede «observar» una escena desde varios ángulos y predecir cómo se vería desde un punto vista totalmente distinto de los que le fueron enseñados durante su entrenamiento.
Este sistema es capaz de aprender cómo es la composición 3D de un entorno, según informan los autores, usando solo una pequeña cantidad de imágenes 2D de muestra tomadas de la escena y, lo que es aún más sorprendente, sin que sea necesaria supervisión humana.
El sistema, llamado «Red Generativa de Búsqueda» (Generative Query Network, GQN) podría sentar las bases para la creación de máquinas que puedan aprender acerca del mundo de forma autónoma usando sus propios sensores sin necesidad de ser entrenadas con conjuntos de datos etiquetados por humanos, como es el caso de los sistemas actuales de visión artificial.
Construida por Seyed Mohammadali Eslami y sus colegas, la GQN consta de dos partes: una red de representación, que elabora una imagen codificada de la escena a partir de las imágenes de muestra, y una red de producción, que genera imágenes probables de la escena desde puntos de vista nuevos y completa las partes de la escena que puedan estar ocultas.
Eslami y sus colegas «entrenaron» a la GQN usando entornos simples generados por ordenador con diferentes configuraciones de objetos y luces. Cuando posteriormente se le proporcionaron imágenes de una escena nueva, la red fue capaz de generar imágenes de ella de forma predictiva desde cualquier punto de vista de su interior, incluso después de que los investigadores cambiaran alguna característica de la escena, como el color de los objetos, lo que demuestra que la red no solamente es capaz de aprender una representación «factorizada» del espacio, sostienen los autores.
Posteriormente, los investigadores pudieron construir nuevas escenas añadiendo o sustrayendo las representaciones de la GQN entre sí. Por ejemplo, «sustraer» una escena que contiene una esfera roja de una escena que tiene una esfera azul y agregar una con un cilindro rojo da como resultado una escena con un cilindro azul, todo esto sin que el humano deba enseñarle a la GQN de forma explícita las nociones de color o forma.
La red, además, se presenta como una forma prometedora de controlar los dispositivos robóticos; una vez entrenada, sus capacidades predictivas le permiten «observar» brazos robóticos, por ejemplo, desde diferentes ángulos usando solo una cámara fija, lo que implica que se necesitan menos datos no procesados para un posicionamiento y control precisos. En un estudio de Perspective relacionado, Matthias Zwicker aporta comentarios acerca de estos hallazgos. (Fuente: AAAS)