Image by Emilinao Vittoriosi, from Unsplash

Los Nuevos Modelos de IA de OpenAI Ahora Pueden “Pensar” Con Imágenes

Tiempo de lectura: 3 min.

Publicado por primera vez el: Apr 17, 2025

Actualizado 2 veces desde su publicación

Escrito por Kiara Fabbri Anteriormente redactora de noticias tecnológicas
Traducido por El equipo de localización y traducción Servicios de localización y traducción

OpenAI ha lanzado o3 y o4-mini, modelos avanzados de IA que combinan la manipulación de imágenes con el razonamiento basado en texto para resolver problemas complejos.

¿Apurada? Aquí están los datos rápidos:

Estos modelos manipulan, recortan y transforman imágenes para resolver tareas complejas.
o3 y o4-mini superan a los modelos anteriores en preguntas de STEM, búsqueda visual y lectura de gráficos.
Los modelos combinan el procesamiento de texto e imagen, utilizando herramientas como la búsqueda en la web y el análisis de código.

OpenAI ha anunciado dos nuevos modelos de IA, o3 y o4-mini, que pueden razonar con imágenes, marcando un gran avance en cómo la inteligencia artificial comprende y procesa la información visual.

“Estos sistemas pueden manipular, recortar y transformar imágenes en función de la tarea que deseas realizar”, dijo Marc Chen, jefe de investigación de OpenAI, durante un evento en vivo el miércoles, según lo informado por el New York Times.

Los modelos o3 y o4-mini ahora tienen la capacidad de analizar imágenes como parte de su proceso de pensamiento interno, mientras que los modelos anteriores solo podían ver imágenes.

El sistema permite a los usuarios subir fotos de problemas matemáticos, diagramas técnicos, notas escritas a mano, carteles e imágenes borrosas o rotadas. Desglosará el contenido en explicaciones paso a paso, independientemente de las múltiples preguntas o elementos visuales en una misma imagen.

El sistema ahora puede concentrarse en partes poco claras de una imagen, rotándola para una mejor comprensión. Combina la comprensión visual con el razonamiento basado en texto para entregar respuestas precisas. El sistema puede interpretar gráficos científicos para explicar su significado e identificar errores de codificación en capturas de pantalla para generar soluciones.

Las modelos también pueden utilizar otras herramientas como la búsqueda en la web, código Python y la generación de imágenes en tiempo real, lo que les permite resolver tareas mucho más complejas que antes. OpenAI dice que estas capacidades vienen incorporadas, sin necesidad de modelos especializados adicionales.

Las pruebas demuestran que o3 y o4-mini rinden mejor que los modelos anteriores en todas las tareas visuales que se les asignaron. El punto de referencia de búsqueda visual, conocido como V*, muestra que o3 alcanza una precisión del 95.7%. Sin embargo, los modelos aún tienen algunos defectos, ya que OpenAI declara que pueden producir errores de sobreanálisis y errores básicos de percepción.

OpenAI introdujo esta actualización como parte de su iniciativa para desarrollar sistemas de IA que razonen de manera similar a los humanos. Los modelos requieren secuencias de pensamiento extensas para funcionar, lo que significa que necesitan tiempo extra para manejar preguntas complejas. También integran herramientas como la generación de imágenes, la búsqueda en la web y el análisis de código Python para proporcionar respuestas más precisas y creativas.

Sin embargo, existen límites. Los modelos a veces procesan cantidades excesivas de información, cometen errores de percepción y cambian sus enfoques de razonamiento entre intentos. La empresa está trabajando para mejorar la fiabilidad y consistencia de los modelos.

Tanto o3 como o4-mini ya están disponibles para los usuarios de ChatGPT Plus ($20/mes) y Pro ($200/mes). OpenAI también ha lanzado Codex CLI, una nueva herramienta de código abierto para ayudar a los desarrolladores a ejecutar estos modelos de IA junto a su propio código.

Mientras OpenAI enfrenta desafíos legales por el uso de contenido, su tecnología de razonamiento visual demuestra cómo la IA se está acercando cada vez más a resolver problemas del mundo real de formas más parecidas a las humanas.

Los Nuevos Modelos de IA de OpenAI Ahora Pueden “Pensar” Con Imágenes

¡Nos alegra que te guste nuestro trabajo!