domingo, 31 de agosto de 2008

Adivina tu sexo según las páginas web que visitas



¿qué hace la minería de datos web? Bueno, uno se puede dar una pequeña idea con ayuda de este juego que pretende adivinar tu sexo a partir de las páginas web que visitas. Allí informan que muchas empresas han mostrado interés en este tipo de aplicaciones, e inclusive Xerox tiene una patente al respecto.


El juego utiliza los 10.000 sitios más visitados de los Estados Unidos (que en muchos casos coinciden con los del mundo, al menos occidental) y las proporciones de hombres y mujeres que lo visitan; luego, a través del uso de un javascript (social history) recupera tus visitas a esos sitios. Después, utliza regresión logística para calcular la "probabilidad" de que alguien sea hombre (o mujer), o más bien, la tendencia que tiene la persona que usa determinado computador a visitar sitios preferidos por hombres o mujeres.

En la regresión logística se utilizan los denominados "odd ratios", que no tienen traducción al español, aunque a veces se les llame radios de probabilidad. Si alguna vez el lector ha visto apuestas en U.S.A, entenderá de que le hablo: allí se dice que las apuestas a favor de determinado equipo o jugador están 2 a 1, lo que de algún modo quiere decir que la gente piensa que es dos veces más probable que el jugador o equipo gane, lo que, finalmente, expresado en probabilidades, representa el 66.6% de probabilidad de victoria. Bueno, pues si se han visitado dos sitios, uno con "odd ratio" de 2 a 1 a favor de los hombres y otro con "odd ratio" de 3 a 1 para los hombres, entonces la probabilidad de ser considerado mujer es (1/(1+2*3))=1/7. Esta sencilla explicación evite los logaritmos y funciones de Euler que realmente están involucradas en ello, relacionados con el gráfico que presento en esta entrada.

¿Y yo, parezco hombre, o mujer?

A mi me resultó mal: dice que mi probabilidad de ser mujer es del 53%. Veamos por qué, en resultados de radio hombre-mujer:

Visito google: el radio es 0.98, es decir es más visitado por mujeres (ligeramente)

yahoo: 0.9, más visitado por mujeres

facebook: 0.83. más visitado por mujeres. La socialización no es el fuerte de los hombres.

blogger: 1.06. Hacer este blog ayuda a que piensen que soy hombre!!!

wired: definitivamente una página de hombres, con 1.41

amtrak: viajar en tren me va volviendo mujer: 0.75

cheapflights: viajar en avión también !me feminiza!!: 0.75

ncsu: la universidad en la que estoy tiene más mujeres, ¿¿pero donde?? 0.87

popular mechanics: !!ese si es para macho que se respete!! 1.74

wordreference: el diccionario también me hace un poquito más mujer: 0.94


En fin, es solo una burda aproximación. Lo interesante es lo fácil que resulta empezar a obtener datos personales con un poquito de estadística y la navegación en la web. Quizás yo no sea mujer, pero no estoy inclinado a visitar más sitios de mujeres o de hombres. Eso ya dice algo de mi, ¿ o no?. Y así con la edad, el ingreso, etc...
Y usted, querido lector, ¿qué resultado obtuvo? ¿con qué páginas? Espero su comentario.....



viernes, 29 de agosto de 2008

Edge: el pensamiento humano en la frontera

Hoy quiero recomendarles una página que conozco ya hace algún tiempo (está en ingles): La de la fundación Edge. Se trata de un club conformado por "algunas de las mentes más interesantes en el mundo" con el propósito de "promever el estudio y la discusión de temas intelectuales, filosóficos, artísticos y literarios, así como trabajr por el éxito intelectual y social de la sociedad"

Larry


Poquita cosa, ¿no?. Lo sorprendente es que hacen parte de Edge personas como Matt Ridley (autor de genoma y ¿qué nos hace humanos?), los creadores de google (sergey bring y larry page), marvin minsky (un conocido psicólogo cognitivo e investigador en inteligencia artificial), richard dawkins (el renombrado autor de El gen egoísta) y un etcétera de personajes interesantísimos que permiten dar una mirada a la vanguardia del pensamiento científico.




Sergey


Una de las secciones que más me gusta se llama "The world question center" y se trata de una pregunta que los miembros de Edge intentan pensar durante el año. Para el 2.008 la pregunta es: ¿sobré qué has cambiado de opinión y porqué?. Es fascinante ver a los científicos contando como cambiaron lo que creían sobre un tema específico. Las de los años pasados son: ¿sobre qué eres optimista? y ¿cuál es tu idea más peligrosa?. Esta última me encantó y sus respuestas me tuvieron atrapado durante todo el año.


Richard dawkins



En fin, quiero recomendar muchísimo esta página y para quienes no dominan el inglés lo suficiente, es probable que intente traducir en el futuro algunos apartes fascinantes... no lo garantizo, pero trataré.

jueves, 28 de agosto de 2008

Refranero geek....

Uno que me hizo reír mucho.....

No por mucho Megaram carga windows más temprano...

je,je,je....
y de postre: a programa pirateado no se le miran las fuentes.....

Para ver el refranero completo haz clic aquí.

martes, 5 de agosto de 2008

El premio Netflix




Desde Octubre del año 2.006 hay un premio de un millón de dólares esperando ser ganado. Se trata de The Netflix Prize, una iniciativa de la empresa de renta de películas Netflix.

Ellos tienen un sistema llamado Cinematch para predecir la calificación que una persona le va a dar a una película nueva basados en las calificaciones que anteriormente le dio a otras películas y en las calificaciones que otros usuarios le han dado a la película que va a ser calificada.

¿Listos para asumir el reto? Yo piqué el anzuelo e inscribí un "equipo" (por ahora solo).

Pues bien, la base de datos que le entregan a los competidores contiene 100 millones de registros y pesa 700 Megas (comprimida). Ni siquiera sé si seré capaz de obtener una estadística básica de esa información. Luego hay que hacer un pronóstico sobre 2.5 millones de registros y obtener un RMSE (desviación cuadrática media) un 10% superior a la obtenida por el sistema de Netflix. ¿cómo la ven? Así mismo hay un premio anual (50.000 dólares) si se logra un mejoramiento del 1% sobre el mejor resultado del año anterior.

Este concurso plantea retos interesantes. La información disponible de cada cliente es nula, solo se tienen las fechas de renta, la calificación dada, una fecha y el nombre de la película. Por lo visto está más orientada a torturar los datos hasta exprimirles una predicción que a crear un modelo explicativo de lo que ocurre. Se trata de una batalla entre aquellos que aun quieren explicarse el mundo y aquellos que solo quieren sacarle utilidad. Y estos últimos van ganando la partida por mucho. Y hace mucho. Sería interesante cuando menos lograr algún tipo de modelo combinado o tradeoff de esas dos tendencias.

Ya les contaré como avanzo (si es que logro siquiera avanzar). Así mismo cualquier idea es bienvenida, así como ofertas para participar en el grupo.

Por ahora se puede explorar la página de los ganadores del año pasado. Y hay que apurarse, pues el concurso este año cierra el primero de octubre!!