Sinespejo

por **Guillermo Luijk** » Sab Dic 20, 2025 1:08 pm

Analizando la capacidad de ChatGPT para generar imágenes con perspectiva cónica correcta, evaluándola con criterio geométrico estricto (punto de fuga único, convergencia exacta de familias de paralelas):

[emoji3502]Punto de partida: se solicitó un dibujo de una avenida en perspectiva cónica central. Ese primer resultado (IMAGEN 1), de tipo dibujo lineal/diagramático, mostraba convergencia prácticamente perfecta: las líneas relevantes colapsaban en punto de fuga único, como en un ejemplo canónico de perspectiva.

[emoji3502]Hipótesis inicial: se planteó si esa corrección se debía a una comprensión geométrica real o a una reproducción basada en patrones aprendidos. Se aclaró que el sistema no trabaja con geometría explícita (vértices, paralelismo exacto, cámara pinhole), sino con restricciones aprendidas de forma probabilística.

[emoji3502]Análisis de una imagen fotorrealista: al analizar una imagen fotorrealista generada por ChatGPT (IMAGEN 2, avenida destruida con un astronauta), se observó:
- Existencia de punto de fuga dominante.
- Coherencia global.
- Pero también una zona de fuga difusa, no un punto matemático exacto.
Esto se identificó como un rasgo estructural de la generación probabilística: el sistema optimiza el realismo perceptual, no exactitud geométrica.

Créditos: imagen IA del astronauta generada por Miguel Muñoz. (http://www.photomamp.com).

[emoji3502]Intentos de refinamiento: se intentó corregir el problema (IMAGEN 3):
- Repitiendo la escena.
- Pasando a line art.
- Eliminando el astronauta para reducir “ruido semántico”.
Cada paso trataba mejorar la coherencia de fugas pero no eliminó las desviaciones. Persistieron los errores angulares entre líneas que en un paradigma geométrico puro deberían coincidir.

[emoji3502]Conclusión clave: se estableció que:
- ChatGPT no sigue un paradigma geométrico puro.
- No existe en su proceso una representación explícita de la escena 3D ni un cálculo determinista de proyección.
- Los elementos fotorrealistas (texturas, destrucción, irregularidades, figuras complejas) actúan como ruido inevitable desde el punto de vista geométrico.
Incluso en dibujo lineal, la perspectiva se impone como una tendencia global, no como una ley matemática dura.

[emoji3502]Conclusión final reconocida: es una imposibilidad estructural que ChatGPT genere imágenes fotorrealistas (o incluso ilustrativas complejas) con una perspectiva 100% canónica y matemáticamente perfecta, comparable a la de un motor de render 3D o un sistema CAD. La perfección observada en el primer dibujo fue un caso límite favorable, interpretado como diagrama técnico abstracto, no como escena del mundo.

En resumen: el sistema “entiende” la perspectiva, pero no opera en el mismo espacio matemático que la geometría clásica. Por diseño prioriza realismo perceptual y coherencia estadística, lo que le hace imposible alcanzar una corrección geométrica absoluta.

Salu2!

PD: este post es un resumen hecho por el propio ChatGPT de unas cuantas iteraciones para tratar de lograr una perspectiva correcta, proceso que terminó en fracaso pero, lo más interesante, con ChatGPT explicando por qué no podía no fracasar.

Créditos: imagen IA del astronauta generada por Miguel Muñoz. (http://www.photomamp.com).

por **Chemax** » Sab Dic 20, 2025 6:57 pm

¿Podría ser tal vez porque ChatGPT u otras IAs tienden a buscar la asimetría o la imperfección para no generar nunca una imagen igual a otra, no sólo por no basarse en modelos geométricos exactos y matemáticos? Es decir, porque tenga instrucciones en su programación que prioricen basarse en la imperfección de las imágenes que le sirven de modelo para interpretarlas y dar lugar a nuevas imágenes.

Algo relacionado se me ocurrió comentar en este hilo del compañero MIguelnov donde digo que hacer un recorte asimétrico en una perspectiva "falsea" esa misma perspectiva sin que lo veamos muy extraño. (digo "falsea" porque el punto de vista se traslada hacia un lado y la vista se vuelve asimétrica, las líneas obviamente siguen fugando hacia el mismo punto) Es decir, el punto de vista no coincidiría con la perspectiva.

viewtopic.php?f=16&t=46952&p=460345#p460345

No sé si en ChatGPT se puede subir un dibujo, un boceto o una imagen para que sirva de ejemplo a la IA (en Nano Banana sí se puede) para que lo tome como modelo a la hora de transformar esa imagen. Es decir, hacer una perspectiva perfecta en un dibujo o imagen y decirle "quiero un escenario fotorrealista en el que coincida exactamente la perspectiva, con el mismo punto de vista y las mismas líneas de fuga.

Imagino que ni aún así lo haría con reglas matemáticas estrictas, siempre mete algo distinto o imperfecto. De esa forma, en Nano Banana subes una foto de una persona y le dices. "Quiero que pongas a esa persona en otra postura y con otra ropa".

Como no te gusta el resultado, vas pidiendo modificaciones sucesivas: "Lo quiero más alto, más bajo, con más espacio alrededor., con un jersey de otro color.."
Pues bien, aunque le digas que no cambie nada la cara, al final de las modificaciones, la IA ha puesto tanto de su cosecha, que ha trasformado el parecido de la persona totalmente.

Por eso digo, algo tiene que haber en su programación para que la IA cambie cada vez las imágenes por "decisión" propia a pesar de que las instrucciones sean claras y lo más exactas posibles.

Saludos.

por **Guillermo Luijk** » Dom Dic 21, 2025 10:59 am

No creo que sea deliberada la imperfección, sino fruto de que ChatGPT prioriza otras cosas y como consecuencia indirecta se introducen esas incorrecciones geométricas. Lo que no sé es si se esforzarán en evitarlas, o más bien lo considerarán algo demasiado nicho.

Sobre subir imágenes con la perspectiva canónica y que se base en ellas, coño pues hay que probarlo! Creo que puede funcionar porque precisamente en este ejercicio, cuando le he subido la del astronauta y le he pedido que la pase a dibujo lineal corrigiendo los errores de perspectiva, solo ha sido capaz de hacer lo primero. Es decir que ha replicado inevitablemente la perspectiva original, limitandose a mapear nuevas texturas.

Salu2!

por **IOM60** » Dom Dic 21, 2025 12:11 pm

Muy interesante!
A mi la duda que me surge si esa no convergencia perfecta era ya así en la foto generada por IA y Chat GPT simplemente ha dibujado lo que ha detectado, o si por el contrario en la foto si que estaba perfecta la perspectiva cónica pero Chat GPT no la ha tenido en cuenta a la hora dibujarla .

por **Guillermo Luijk** » Dom Dic 21, 2025 9:58 pm

IOM60 escribió:Muy interesante!
A mi la duda que me surge si esa no convergencia perfecta era ya así en la foto generada por IA y Chat GPT simplemente ha dibujado lo que ha detectado, o si por el contrario en la foto si que estaba perfecta la perspectiva cónica pero Chat GPT no la ha tenido en cuenta a la hora dibujarla .

Si te refieres a la imagen del astronauta, no sé si había una imagen original, mira le voy a preguntar al autor. No se me había ocurrido

Por cierto Inma esto del tag rimg me encanta

Acabo de hacer el ejercicio que decía Chemax: le he dado a ChatGPT dos imágenes con perspectivas canónicas (de Sketchup). Le he dicho que les de texturas fotorrealistas insistiendo mucho en que la perspectiva debe respetarse escrupulosamente, es decir que cada vértice y arista debería poder solaparse con los originales:

En este ejemplo la perspectiva se ha respetado al 99%, pero no es exacta, aunque si no es por comparación nadie lo detectaría y mucho menos le podría parecer incorrecta. Es decir no solapa perfectamente el boceto lineal con el render. Con el coche se ha pasado 3 pueblos, lo ha hecho bastante más grande que el original.

Este ejemplo de la Casa Fansworth es muy interesante: de nuevo pese a darle instrucciones precisas de que respete la perspectiva, la ha modificado y bastante más que en el ejemplo anterior. La sorpresa es que: por un lado su modificación es 99% correcta como perspectiva (me ha costado la hueva pero con el Paint he logrado tirar las fugas y son muy coherentes, ver abajo). Por otro lado la perspectiva que ha "recalculado" en realidad es mejor a la original. Si os fijáis en la original puse la cámara demasiado cerca de la casa y las fugas eran un poco exageradas de más. ChatGPT lo ha reinterpretado de forma más natural (menos angular para entendernos), seguramente porque es el tipo de proporciones/fugas con que mayoritariamente ha sido entrenado.

Conclusión: que no respete la perspectiva al 100% es una pequeña decepción, me habría parecido cojonudo para usarlo de motor de render rápido. Que pese a los cambios que introduce no genere resultados descabelladamente erróneos es una buena noticia.

Salu2!

PD: la comprobación de fugas de la Casa Fansworth reinterpretada por ChatGPT: vemos que el punto de fuga se aleja. Geométricamente equivale a alejar la cámara de la casa obteniendo fugas menos radicales:

por **Chemax** » Dom Dic 21, 2025 11:23 pm

Ostras, el resultado es sorprendente a pesar de no conseguir la exactitud buscada. Y pensar que para hacer algo parecido antes te tirabas un montón de tiempo en un programa de diseño 3D...

Las imágenes sorprenden y quedan geniales. Una pena lo del coche y también veo que ha cambiado las sombras en las imágenes de la Casa Fansworth, además de la perspectiva, pero si se consiguiese exactitud completa sería una herramienta mucho más útil la IA.

Más o menos hace lo que decía y lo que explicaba Guillermo: Siempre cambia algo. Es decir, sería un poco una "lotería".

Si le vuelves a poner el mismo boceto o dibujo o modelo te hará siempre alguna variación en el resultado de la transformación. No sé si las versiones PRO de algunas IAs conseguirán resultados exactos, porque ahora ya hay tantas que se pierde uno y no sabe cuál es la mejor y por eso le he preguntado también a la IA de Google Chrome por si sirve de ayuda. Es la primera vez que la uso:

"¿Hay alguna IA en la que suministrando un modelo exacto, como puede ser un dibujo en perspectiva cónica completamente ortodoxa y pidiendo que sobre ese modelo haga una imagen fotorrealista sin cambiar ni la perspectiva ni las medidas, dé como resultado una perspectiva 100% exacta a la del modelo?

Sí, es posible lograrlo mediante el uso de redes neuronales de control espacial. Aunque la mayoría de las IAs generativas de imágenes (como Midjourney o DALL-E) tienden a "interpretar" o deformar la perspectiva original, existen herramientas específicas diseñadas para mantener una precisión geométrica del 100%.
La tecnología clave para esto es ControlNet, utilizada en combinación con Stable Diffusion.

Herramientas y métodos para precisión del 100%

Para que la IA no altere ni un solo ángulo o medida de tu dibujo en perspectiva cónica, debes usar modelos de control que "bloquean" la geometría original:

Stable Diffusion con ControlNet (Modelo Canny o Lineart): Esta es la opción más profesional. Al cargar tu dibujo técnico, ControlNet extrae los bordes exactos y obliga a la IA a generar texturas y materiales fotorrealistas únicamente dentro de esas líneas. La perspectiva se mantiene intacta porque la red neuronal usa tu dibujo como un mapa estructural inamovible.

PromeAI / ArchiVinci: Son plataformas orientadas a la arquitectura que permiten subir un boceto o dibujo técnico. Ofrecen un modo de "Renderizado Preciso" (Precision Mode) que respeta estrictamente las líneas de fuga y proporciones del modelo suministrado.

Veras (EvolveLab): Un motor de IA que se integra directamente en software de modelado (como Revit, Rhino o SketchUp). Al trabajar sobre la vista de cámara ya establecida en el software técnico, garantiza que el resultado fotorrealista coincida píxel a píxel con la perspectiva original.

Krea.ai: Permite un control en tiempo real donde puedes suministrar una imagen de referencia y ajustar la "fuerza" del dibujo para que la IA no se desvíe de las formas originales.

Requisitos para el éxito

Para asegurar que la perspectiva no varíe en absoluto, es fundamental ajustar dos parámetros técnicos:
Control Weight (Peso de Control): Debe configurarse al máximo (habitualmente 1.0 o superior) para que la IA priorice la geometría del dibujo sobre su propia "creatividad".
Denoising Strength (Fuerza de Reducción de Ruido): En modos de imagen a imagen, un valor bajo (0.4 - 0.5) mantendrá la estructura, mientras que un valor alto dará libertad a la IA para cambiar formas.
Si buscas el máximo rigor técnico, la combinación de Stable Diffusion con el módulo ControlNet es el estándar actual para arquitectura y diseño técnico.
Las respuestas de la IA pueden contener errores. Más información"...

Saludos!

Sinespejo

SOBRE LA PERSPECTIVA DE LAS IMÁGENES GENERADAS POR CHATGPT

SOBRE LA PERSPECTIVA DE LAS IMÁGENES GENERADAS POR CHATGPT

Re: SOBRE LA PERSPECTIVA DE LAS IMÁGENES GENERADAS POR CHATG

Re: SOBRE LA PERSPECTIVA DE LAS IMÁGENES GENERADAS POR CHATG

Re: SOBRE LA PERSPECTIVA DE LAS IMÁGENES GENERADAS POR CHATG

Re: SOBRE LA PERSPECTIVA DE LAS IMÁGENES GENERADAS POR CHATG

Re: SOBRE LA PERSPECTIVA DE LAS IMÁGENES GENERADAS POR CHATG

¿Quién está conectado?