sábado, 16 de octubre de 2010

Minería de datos contra el "pitufeo"

Tuve la ocasión de asistir a un evento de SPSS como conferencista invitado. Allí también tuve la oportunidad de escuchar a un conferencista que me interesó mucho: utiliza software de minería de datos para la detección del lavado de activos en bancos. El nos explicó, particularmente,algunas técnicas usadas para detectar el "pitufeo".

Como su nombre lo indica, esta técnica de lavado de activos consiste en utilizar un sinnúmero de personas diferentes para hacer "pequeñas" consignaciones o transacciones en una determinada cuenta. Estas personas son los "pitufos", en honor a la serie de dibujos animados creada por el belga Peyo. Una verdadera lástima que el verbo "pitufear", que estas criaturas usaban indiscriminadamente para reemplazar otros verbos, se haya vuelto sinónimo de una actividad ilegal.

Estas transacciones de "pitufeo" están justo por debajo de un límite establecido, a partir del cual dichas operaciones deben reportarse en un papel especial y pueden llamar la atención de las autoridades.

Pues bien: los bancos están utilizando algoritmos de minería de datos- en particular, clustering y reglas de asociación- para clasificar clientes con comportamientos sospechosos. El trabajo se hace sobre más de 20 millones de transacciones mensuales y un par de millones de clientes. En el camino, por supuesto, están aprendiendo de sus clientes y detectando la manera usual en que grupos de dichos clientes se comportan, en cuanto a bancos se refiere. !Una verdadera mina de oro! Sin embargo, parece que esta información no se está reenviando o compartiendo con mercadeo y ventas.

Estos análisis de pitufeo se complementan con asociaciones en sistemas de referenciación geográfica para analizar, por ejemplo, sucursales en zonas que se sabe -por detección satelital- tienen un mayor número de hectáreas de cultivos ilícitos o influencia guerrillera. Mediante inteligencia han detectado prácticas sospechosas como el uso del canal virtual repetidamente desde zonas remotas donde lo usual es utilizar las transacciones físicas, hasta la detección de pagos hipotecarios por adelantado que no corresponden a los ingresos de las personas.

Estas detecciones sospechosas deben ser enviadas a entidades gubernamentales para que ellas inicien investigaciones. Lo realmente malo de esta situación es que los bancos no reciben realimentación de los resultados, es decir, no saben cuántos de los supuestos sospechosos de "pitufeo" o lavado de activos realmente estaban realizando estas actividades, debido a la sensibilidad de los datos. Es una verdadera lástima, digo yo, porque unas cifras consolidadas , que no revelarían nada en particular, si serían útiles para saber si los patrones detectados corresponden a actividades ilícitas o son meras fantasías de los analistas del banco.

martes, 28 de septiembre de 2010

Recursividad

"Para entender qué es la recursividad primero es necesario saber qué es la recursividad"

Escuchado al amigo de un amigo


MMMM.... al parecer es un clásico.... pero está buenísimo aunque hasta ahora me entere......

martes, 3 de agosto de 2010

Wordle & inteligencia de negocios

Si bien conozco Wordle hace ya un par de años, no deja de fascinarme la idea de tener una herramienta adicional para visualización de concéptos más allá de la clásica definición de libro o un mapa conceptual. Lo más hermoso es que los conceptos quedan como realmente son... nunca definidos del todo, visibles desde muchos puntos de vista, discutibles, pero a la vez ciertas cosas esenciales definitivamente son capturadas. Aquí les dejo un Wordle que hice para un curso en Inteligencia de negocios con minería de datos que estoy ofreciendo en una Maestría actualmente.

La idea era transmitir el concepto de Inteligencia de Negocios y me basé en los dos primeros textos en Español que "San Google" me ofreció.

¿Bonito, no?

sábado, 23 de enero de 2010

Mapa de las películas más populares en Estados Unidos divididas por zip code

Netflix, la más grande empresa de renta de películas en Estados Unidos se asoció con el New York Times para publicar este interesante mapa en donde se pueden ver las tendencias en renta de películas de Netflix durante 2009 divididas por zip code para las 100 películas más rentadas en 10 ciudades principales de los Estados Unidos. El mapa colorea cada zip code según la popularidad alcanzada por la película que se haya escogido en el panel de la parte izquierda. Aún para quienes tenemos sólo un background muy ligero en la geografía de los Estados Unidos el mapa resulta de lo más chevere.
Por la red circulan muchos comentarios a un tweet del crítico de cine Rogert Ebert acerca de la posibilidad de adivinar las opiniones de las personas de cada zip code frente a la homosexualidad observando el ranking obtenido por la película Milk. Las conjeturas nada científicas que de allí se pueden sacar, si son, por decir lo menos, muy jugosas al nivel del chisme (que, como negarlo, es uno de los mayores intereses al husmear datos: el chisme). Resulta de lo más llamativo ver como todos los zip code costeros de Miami enrojecen al seleccionar Milk como película. No sé a ustedes, pero a mi me dice mucho sobre la liberalidad de opinión y el tipo de película que le gusta a los que viven en cierto sector.
En mi caso le dediqué más tiempo a una película que me gustó bastante y que quería chismosear: Vicky Cristina Barcelona de Woody Allen. Es interesantísimo ver la popularidad que tuvo de nuevo en toda la zona costera de Miami; también se genera un contraste interesante entre Manhattan (muy popular) y sus alrededores (en donde pierde toda popularidad). Por último, llama la atención el contraste entre Beverly Hills y West Hollywood frente al resto de Los Angeles.
Los invito a curiosearlo un rato. Para quien tenga un mínimo background de cine y de cultura y geografía estadounidense, no tiene desperdicio. Por ejemplo, también es interesante ver las tendencias de la última película de Batman, The Dark Knight.