Saltar al contenido

El entrenamiento de la inteligencia artificial

Garbage in, garbage out

Se está hablando mucho de la inteligencia artificial aplicada a servicios como el reconocimiento facial, o a procesos de toma de decisiones en selección de personal o servicios financieros y de las restricciones que se están empezando a demandar y a aplicar debido, entre otras cosas, a los altos índices de error y sesgos hacia ciertos colectivos.

Simplificando mucho (pero mucho, mucho), podemos definir la inteligencia artificial como la capacidad para interpretar correctamente datos externos y usar lo interpretado para ejecutar tareas concretas.

Si esto es así, parece claro que lo primero que necesitamos es enseñar al sistema a interpretar datos de forma adecuada a las tareas que queremos que ejecute, para lo cual tendremos que usar como punto de partida una cantidad relevante de datos ya interpretados en ese sentido, de forma que el sistema sea capaz de relacionar el dato con la interpretación correcta que nos interesa.

Para eso se usan bases de datos en las que la información que se debe interpretar está ya previamente etiquetada: una fotografía de unos esquís podría etiquetarse como «esquís», «medio de transporte», «artículo deportivo», «invierno» y todos los posibles atributos que tengan sentido y que cubran el propósito que nos ocupe. Y esto último es muy importante, porque si lo que queremos, por decir algo, es clasificar equipaje, a lo mejor la etiqueta «invierno» es irrelevante, y la que nos interesa es «especial», «voluminoso» o cualesquiera otras relevantes para ese propósito.

Es decir, que el proceso de entrenamiento del sistema de inteligencia artificial no es aséptico ni objetivo ni neutral porque se basa en un objetivo específico y en decisiones de quien diseña y entrena el sistema, por lo que Inevitablemente refleja formación, conocimiento, voluntades, opiniones, sesgos, …, de quien o quienes etiquetan esos datos, o los aciertos o errores de quienes seleccionan el conjunto de datos ya previamente etiquetados.

Como decíamos, se están detectando sesgos y comportamientos indeseados en ciertos sistemas de inteligencia artificial. En la explicación sobre el origen de estos errores en los procesos de entrenamiento podemos ser objetivos, tratar de solucionarlos en su origen y asumir nuestros errores, o dejarnos llevar por la naturaleza humana y tender a echar la culpa a factores externos, por ejemplo a las bases de datos:

MIT has taken offline its highly cited dataset that trained AI systems to potentially describe people using racist, misogynistic, and other problematic terms.

MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs

«La base de datos que entrenó a los sistemas», dice.

Sin embargo, de lo explicado más arriba, parece evidente que los datos en sí no tienen capacidad alguna de entrenar al sistema, sino que son meras herramientas que se usan con un propósito determinado. Más bien fueron las personas que decidieron usar esa base de datos las que entrenaron al sistema con un conjunto de datos que posiblemente era inadecuado para el propósito que se buscaba.

Y aquí es donde yo quería llegar.

Revisando el texto publicado por The Register enlazado más arriba se obtienen detalles muy ilustrativos para entender la «maldad» de la inteligencia artificial. Me interesa especialmente el origen de los datos:

The dataset was created in 2006 and contains 53,464 different nouns, directly copied from Wordnet. Those terms were then used to automatically download images of the corresponding noun from Internet search engines

https://groups.csail.mit.edu/vision/TinyImages/

Traducido a lenguaje sencillo: se usa una base de datos de palabras (Wordnet) cuyo objetivo es agruparlas en anillos de sinónimos con objetivos lexicológicos y se buscan en internet las imágenes que hay publicadas relacionadas con esas palabras, porque el objetivo es saber cómo usa la gente esas palabras.

Ejemplo sencillo: busco «burro» en Google y asocio a esta palabra todas las imágenes que salen. Si alguien ha publicado mi foto con esa palabra como comentario o atributo y el buscador así lo asocia, lo recojo en una nueva base de datos que relaciona las palabras con las imágenes a las que los que publican en Internet las han asociado.

Es decir, que se crea una base de datos de uso de las palabras, en la que al dato «palabra» (burro), se asigna un atributo (mi foto) que es lo que millones de personas han publicado en internet asociado a esa palabra. Esto refleja el uso que las personas que publican en Internet hacen de las palabras y el significado que le dan, reflejando por tanto los usos, jergas, filias y fobias de ese colectivo. Lo cual tiene sentido desde el punto de vista lexicológico que es con el que se creó la base de datos.

Y luego, años después, un grupo de investigadores (y no un grupo cualquiera) usa esa base de datos sin tener en cuenta ni su origen, ni el propósito ni la lógica con la que se construyó, y emplean como dato la imagen y la palabra asociada como atributo para calificarla (o etiquetarla).

Lo que nació como una forma de saber qué imágenes se asociaban en internet a ciertas palabras (averiguar el uso real de las palabras), se usa como fuente de definición de las imágenes. El mundo al revés. Estás enseñando a la máquina a usar las palabras con el mismo sentido que las personas que las usaron previamente. Así, sin filtros. Y «curiosamente» la máquina aprendió a usar las palabras como esas personas.

¿A ninguno de los investigadores se le había ocurrido averiguar el origen de la base de datos? Y si la respuesta es afirmativa ¿no se les ocurrió pensar que esa base de datos iba a esta plagada de todos los problemas, errores, prejuicios, odios, filias, fobias, sarcasmos, etc. de las personas que publicaron las imágenes originalmente?

Luego decimos que la inteligencia artificial no funciona o es mala o tiene sesgos y culpamos a la base de datos, cuando lo que ha pasado es que los desarrolladores han cometido un error de primero de analítica de datos: no se han parado a entender los datos antes de usarlos para entrenar su sistema de inteligencia artificial.

Tenemos, todos, la responsabilidad de entender en términos generales qué es la inteligencia artificial, porque su uso generalizado es imparable. Y quienes están desarrollando servicios que la aplican tienen la responsabilidad de hacerlo de forma transparente y profesional y saber a ciencia cierta qué datos están usando para entrenarla y cómo se han obtenido, ya que de otra forma podrán demostrar que pueden hacer que el sistema aprenda, pero no podrán justificar si el resultado del sistema es el deseado.

Aquí, en el mundo de la inteligencia artificial, también se aplica el concepto GIGO: Garbage in, garbage out: si los datos que usas son basura, obtendrás basura.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.