domingo, 31 de agosto de 2008

Adivina tu sexo según las páginas web que visitas



¿qué hace la minería de datos web? Bueno, uno se puede dar una pequeña idea con ayuda de este juego que pretende adivinar tu sexo a partir de las páginas web que visitas. Allí informan que muchas empresas han mostrado interés en este tipo de aplicaciones, e inclusive Xerox tiene una patente al respecto.


El juego utiliza los 10.000 sitios más visitados de los Estados Unidos (que en muchos casos coinciden con los del mundo, al menos occidental) y las proporciones de hombres y mujeres que lo visitan; luego, a través del uso de un javascript (social history) recupera tus visitas a esos sitios. Después, utliza regresión logística para calcular la "probabilidad" de que alguien sea hombre (o mujer), o más bien, la tendencia que tiene la persona que usa determinado computador a visitar sitios preferidos por hombres o mujeres.

En la regresión logística se utilizan los denominados "odd ratios", que no tienen traducción al español, aunque a veces se les llame radios de probabilidad. Si alguna vez el lector ha visto apuestas en U.S.A, entenderá de que le hablo: allí se dice que las apuestas a favor de determinado equipo o jugador están 2 a 1, lo que de algún modo quiere decir que la gente piensa que es dos veces más probable que el jugador o equipo gane, lo que, finalmente, expresado en probabilidades, representa el 66.6% de probabilidad de victoria. Bueno, pues si se han visitado dos sitios, uno con "odd ratio" de 2 a 1 a favor de los hombres y otro con "odd ratio" de 3 a 1 para los hombres, entonces la probabilidad de ser considerado mujer es (1/(1+2*3))=1/7. Esta sencilla explicación evite los logaritmos y funciones de Euler que realmente están involucradas en ello, relacionados con el gráfico que presento en esta entrada.

¿Y yo, parezco hombre, o mujer?

A mi me resultó mal: dice que mi probabilidad de ser mujer es del 53%. Veamos por qué, en resultados de radio hombre-mujer:

Visito google: el radio es 0.98, es decir es más visitado por mujeres (ligeramente)

yahoo: 0.9, más visitado por mujeres

facebook: 0.83. más visitado por mujeres. La socialización no es el fuerte de los hombres.

blogger: 1.06. Hacer este blog ayuda a que piensen que soy hombre!!!

wired: definitivamente una página de hombres, con 1.41

amtrak: viajar en tren me va volviendo mujer: 0.75

cheapflights: viajar en avión también !me feminiza!!: 0.75

ncsu: la universidad en la que estoy tiene más mujeres, ¿¿pero donde?? 0.87

popular mechanics: !!ese si es para macho que se respete!! 1.74

wordreference: el diccionario también me hace un poquito más mujer: 0.94


En fin, es solo una burda aproximación. Lo interesante es lo fácil que resulta empezar a obtener datos personales con un poquito de estadística y la navegación en la web. Quizás yo no sea mujer, pero no estoy inclinado a visitar más sitios de mujeres o de hombres. Eso ya dice algo de mi, ¿ o no?. Y así con la edad, el ingreso, etc...
Y usted, querido lector, ¿qué resultado obtuvo? ¿con qué páginas? Espero su comentario.....



1 comentario:

Anónimo dijo...

matematicamente mas sensillo si se fijara cuanto tiempo pasa mirando paginas porno.

salu3