miércoles, 24 de septiembre de 2008

Algoritmos de optimización y clasificación inspirados en hormigas: ant clustering




En el más reciente CLAIO, tuve la ocasión de asistir a una conferencia sobre investigaciones en minería de texto, dada por unos profesores de la Universidad de Cantabria. En sus trabajos, ellos utilizaron una técnica conocida como ant-based clustering, o agrupamiento basado en hormigas.

La utilización de metáforas biológicas en inteligencia artificial, optimización y clasificación es casi tan antigua como las mismas disciplinas. Generalmente utiliza como idea fundamental la inteligencia colectiva emergente de individuos con muy poca autonomía personal, tales como hormigas, abejas y bandadas de pájaros, que a pesar de su limitada capacidad de recolectar y clasificar información exhiben mecanismos de amplificación que hacen de los comportamientos grupales algo muy elaborado .





El mismísimo Alan Turing en los años 50 previó las posibilidades de las colectividades de organismos simples y planteó su funcionamiento a partir de mecanismos de accion local e inhibición, de acuerdo con esta página (altamente técnica).

Es fácil crear en un computador pequeños automátas que recojan información y hagan clasificaciones simples. Lo dificil (antes de los años 90) era crear miles o millones de los mismos simultáneamente, y lo que hoy en día sigue siendo un reto es crear los mecanismos adecuados de acción, inhibición y amplificación colectiva de la información que hagan de estos "seres" una inteligencia colectiva.
Dos ejemplos clásicos de mecanismos de inteligencia colectiva para resolver problemas (el nombre técnico es metaheurísticas) son: colonia de hormigas e inteligencia de partículas.

El caso de la clasificación basada en hormigas resultó para mi particualmente intrigante por el sistema biológico en el que se basa: la creación de cementerios a partir de cadáveres. Si se pone un conjunto de cadáveres de diferentes tipos (o tamaños) de hormigas en un plato circular, y se ubica en ellos un conjunto de hormigas vivas (de ciertas especies), éstas empiezan a desplazar lentamente los cadáveres hasta formar, después de unas horas, grupos (clusters) de cadáveres perfectamente clasificados.



Al parecer las hormigas no mueven cada cadáver de una vez a su cementerio, sino que los van desplazando lentamente a lo largo del tiempo, usando un mecanismo basado en los cadáveres más recientes que han visto alrededor. Si hay cadáveres parecidos en las cercanías, acercan el nuevo cadáver; si él cadáver es muy diferente a los que hay en las cercanías, lo alejan; y en ocasiones parecen indiferentes a algunos cadáveres. Ese mecanismo ha resultado bastante bueno para realizar clasificaciones de elementos en un computador con conocimiento previo de los grupos que deben clasificarse. En el caso de la minería de texto, la intención es tener un sistema que clasifique automáticamente en categorías la información que se encuentra en la red (p.e en deportes, tecnología, farándula, etc...) para así disminuir la inmensa carga de tener que hacerlo manualmente, dada la explosión de información en Internet.

Algunas de las clasificaciones mostradas por los investigadores no fueron muy exitosas, otras sí; Sin embargo, yo creo que resultaría muy interesante ver porque ciertos artículos no fueron "bien" clasificados y quedaron en regiones indefinidas del "cementerio", o aún peor, en el cementerio equivocado. Más allá de las limitaciones de la técnica, esos automátas podrían estarnos diciendo algo intersante y nuevo acerca de ciertos textos. ¿No es acaso la clasificación humana también falible? ¿Porqué es mejor nuestra clasificación que la de los automátas? ¿No es la clasificación de ella un poquito más objetiva, o al menos, no está esa clasificación basada en criterios matemáticamente definidos frente al juicio subjetivo del evaluador experto?
Es cierto que estas técnicas aún tienen dificultades para clasificar ciertos textos de alguna complejidad. Pero no estoy proponiendo que la minería de textos reemplace al evaluador humano por completo, sino que en ocasiones le de nuevas luces. Así, el autómata clasificaría los textos fáciles, y enriquecería la información para los textos dificiles, dándole nuevas herramientas al evaluador subjetivo para ciertos casos. Lo fácil, para la máquina; lo difícil, para el humano, pero enriquecido.

Y por último, no sobra recordar cómo la naturaleza sigue resultando ser nuestra mayor fuente de inspiración para la resolución de problemas complejos.

No hay comentarios.: