La IA generativa como herramienta de trabajo (II)

En el artículo anterior puse en contexto el tema tratado en el presente artículo, que incluye las pruebas realizadas sobre una herramienta de IA generativa, resume los resultados, que se detallan en el siguiente artículo, y ofrece las conclusiones extraidas de los mismos.

Realizando las pruebas

La herramienta utilizada en las pruebas es AI Freebox, concretamente la generación de fotografías. Solicité generar una serie de imágenes desde 3 dispositivos diferentes, que presentaban una dirección IP diferente para asegurar completamente que se trataran como visitantes diferentes, y utilizando 3 navegadores web diferentes (dos en mi PC de escritorio y otro en mi teléfono móvil).

Elegí una serie de preguntas o frases de entrada (en inglés prompts) que sirvieran a mi propósito, utilizando 2 navegadores web desde mi PC de escritorio, firefox y chromium, y un tercer navegador web desde mi teléfono inteligente y mi computadora portátil: brave.

Tratándose de una herramienta gratuita, a saber, la modalidad gratuita de una Aplicación en la Nube, Software como servicio o SaaS, no cabía esperar grandes resultados. Ahora bien, sirve perfectamente para ilustrar como funcionan las herramientas IA actuales.

Dicho lo anterior, paso a redactar las observaciones realizadas y las conclusiones que extraigo sobre los resultados obtenidos, que detallaré al final del artículo.

Resultados de las pruebas

Funcionalidad

El uso de la herramienta es relativamente sencillo y ofrece funcionalidades que resultan de utilidad. Ahora bien, hay que saber proporcionar a la IA el texto más preciso para obtener un resultado que se acerque a lo que queremos. El consejo que aparece en la interfaz nos dice que seamos precisos y, ciertamente, hay que serlo y saber en que posición de la frase hay que situar cada elemento para que este sea más relevante o no. Los elementos centrales se deben especificar primero y los menos relevantes en la parte posterior de la misma.
La herramienta ofrece la posibilidad de elegir una imagen previa a partir de la que obtener variaciones o generar una imagen sin tomar una previa. Una vez generada una imagen, podemos obtener variantes cambiando nuestro texto y se ofrece un histórico de todas las imagenes generadas junto con con el texto que las generó, que se preserva entre diferentes visitas al sitio web.

Sesgo

En cuanto a mi segundo objetivo de identificar los sesgos de las imágenes generadas, he observado en las imágenes generadas de personas que están muy presentes los referentes al género, grupo humano y también a los aspectos socio-económicos. Para obtener una imagen femenina me ha sido necesario especificarlo, también para obtener personas negras y orientales. Por defecto siempre se obtienen personas blancas caucásicas de género masculino y cuando se solicita un grupo de personas sí que pueden aparecer mujeres, pero en clara minoría. A propósito del sesgo socio-económico me llama la atención que la IA considera que los ingenieros no IT deben llevar siempre un casco y mono de trabajo, en cambio los consultores visten ropa de calle. En el mismo aspecto, las imágenes por defecto sobre una vivienda representan un nivel de vida alto y se debe ser especifico para que muestre un nivel de vida bajo. También es necesario especificar si se quieren obtener imágenes de una vivienda oriental o africana, por defecto son "occidentales". Aquí cabe la posibilidad de que, debido a la geolocalización se me ofrezcan unos resultados por defecto y no otros, pero me voy a permitir dudarlo dado que hay presentes otros sesgos muy marcados. Y la anécdota curiosa es que la IA considere que los conductores son pilotos de carreras y se deba ser especifico para conseguir, por ejemplo, un taxista que también aparece con casco. Para terminar, pidiendo una niña china la primera generación resultó en un error y hube de repetir la solicitud.

Calidad

Los resultados obtenidos no se pueden considerar como excelentes, como cabe esperar de una herramienta gratuita y tampoco como lo suficientemente aceptables para ser considerada una herramienta profesional. Lo cierto es que ignoro como funciona la versión de pago y en la propia web la promocionan con argumentos tales como evitar publicidad, tiempo de espera entre generaciones y límite diario del número de imágenes generadas, sin incluir aspectos relevantes sobre la calidad de los resultados obtenidos. He preguntado a la empresa que, por cierto, no incluye en los términos legales de la web una identificación de la misma acorde con la normativa de la UE, sobre qué mejoras puedo esperar al respecto de la calidad de las imágenes generadas si utilizo el servicio de pago y su respuesta ha sido el silencio. Así que concluyo que el pago ofrece solo la supresión de las restricciones que tienen los usuarios que no pagan.

He de destacar que como calidad no estoy considerando el aspecto (calidad de imagen, resolución, etc.) de las imágenes generadas, sino la exactitud, la originalidad de las imágenes obtenidas y el hecho de que se puedan generar diversidad de contenidos evitando sesgos. Esto es:

  1. si pido la imagen de una vivienda, que me muestre diversidad real en el continente (vivienda) y el contenido (mobiliario) y no me ofrezca un cuadro con un supuesto escrito en alfabeto oriental colgado en una casa occidental con mobiliario occidental

  2. si soy un profesional que necesita ilustrar, por ejemplo, un artículo para ser publicado, espero poder generar una imagen que sea única o, por lo menos, que se diferencie lo más posible de otras que generen otros usuarios para un mismo propósito o contenido

El criterio es que no se puede considerar aceptable que una misma pregunta o frase de entrada ofrezca resultados idénticos a diferentes usuarios. Y es deseable que las diferencias entre resultados para diferentes peticiones de usuarios para obtener imágenes sobre un mismo tema sean las suficientes como para que no parezca que estamos copiando contenido de terceros. Si no lo consigue la herramienta, entonces no aporta ningún valor añadido a los bancos de imágenes que existen en Internet desde mucho tiempo antes de la aparición de la IA generativa.

Originalidad de la primera imagen

En cuanto a la originalidad de las imágenes generadas, se puede afirmar que es prácticamente inexistente. A un mismo texto de entrada, o pregunta, introducido por diferentes usuarios anónimos (supuestamente), con diferente dispositivo y dirección IP, las imágenes generadas llegan a ser idénticas.

Exactitud de las imágenes

Como indicaba antes, los motores actuales cometen errores, sobre todo con determinadas partes de la anatomía humana, en especial las manos y los pies. La herramienta analizada presenta errores de generación como, por ejemplo:

  1. una de las imágenes generadas muestra las piernas, cubiertas por una manta, y los pies de una persona de la que no aparece el resto del cuerpo.

  2. las manos aparecen con 6 dedos, o deformadas de tal modo que pueden llegar a ser impactantes o desagradables a la vista por su irrealidad

  3. los pies también se muestran con deformidades irreales e impactantes a la vista

  4. se representa un niño saltando como si fuera un querubín que levita por gracia divina

Coherencia en imágenes sucesivas

Finalmente, en lo que refiere a la coherencia en imágenes sucesivas, la herramienta permite generar imágenes coherentes pudiendo introducir variantes en la pregunta realizada a la IA para conseguir variar una misma imagen y, para textos similares, las imágenes apenas difieren, ahora bien, muestran claramente un patrón común a partir del que se están generando las imágenes para todos los usuarios.

Conclusiones

A partir de las observaciones realizadas, las conclusiones no son muy halagüeñas. Es cierto que se obtienen imágenes con calidad fotográfica y que es posible llegar a obtener resultados aceptables, aportando más detalles para conseguir ajustar la imagen a lo que se quiere conseguir. Y también que se ofrecen funcionalidades que ayudan al usuario a la hora de perfeccionar una imágen. Ahora bien, si se quiere conseguir un ingeniero en un centro de datos, se deberá utilizar la palabra consultor para que no parezca un mecánico o un obrero de la construcción. En el caso de la petición de un niño saltando parece que este levite en el aire y quiero suponer que se pueda obtener un mejor resultado con más tiempo y esfuerzo.

Si tomáramos en cuenta los sesgos introducidos en la IA, podríamos afirmar que los que la han programado y entrenado, o quizás debamos referirnos únicamente a los líderes del proyecto, son mayoritariamente hombres blancos de origen caucásico, con un nivel socio-económico elevado y con poca empatía, dado que no han sido capaces de evitar que exista un nivel elevado de sesgo en el algoritmo de generación de imágenes fotográficas.

Podemos pensar también que, si existe, el preentrenamiento del motor de IA, además de un conjunto de datos reducido de entrenamiento, puede ser la causa de este sesgo tan marcado.

En cuanto a la escasez de originalidad de las imágenes generadas, hemos de tener en cuenta que una aplicación "freemium" muy probablemente esté utilizando mecanismos y procesos que le permitan evitar elevados costes y ahorrar en ciclos de CPU, capacidad de memoria RAM, así como espacio de almacenamiento, partiendo de imágenes predefinidas que se modifican posteriormente mediante el algoritmo de generación. Mencionemos aquí también el ahorro energético, ya que los centros de datos donde hay presentes equipos ejecutando algoritmos de IA consumen también energía eléctrica para una refrigeración óptima de estos equipos.

Para los legos en la materia debo aclarar que, cuando se genera contenido aleatorio, se utilizan vectores numéricos denominados semillas aleatorias. Una vez dicho esto podrán entender que, en esta herramienta, el problema es que no se está consiguiendo suficiente aleatoriedad en la imagen inicial para diferentes usuarios, lo cual podría explicarse estadísticamente porque las imágenes ofrecidas a los usuarios en realidad sean variantes de un conjunto previo de imágenes limitado utilizadas como semilla o, simplemente, se reutilizan imágenes ya generadas.

Y como ya explico en el artículo anterior si la herramienta no aporta originalidad, ya disponemos de bancos de imágenes en Internet desde hace años.

En el siguiente artículo se ofrecen los resultados