martes, 30 de septiembre de 2008

NETFLIX PRIZE: primeros archivos

!Ya he logrado enviar al premio tres archivos de prueba exitosamente a este premio! Sin embargo, los resultados están lejos de alcanzar el nivel necesario. Como recordarán, debo pronosticar más o menos 2 millones de calificaciones (de 1 a 5) hechas por usuarios a películas rentadas en Netflix. La vara para ser medido es el RMSE, conocido como la raíz del error cuadrático medio (simplemente la raíz cuadrada del promedio de los "descaches" o errores de predicción al cuadrado). Pues bien, multiplicando simplemente la media de calificaciones de la película por la media de calificaciones del usuario obtengo RMSE=1.0157. Para igualar lo que actualmente hace el sistema de Netflix, debo lograr RMSE=0.9514; para ganar 50.000 dólares antes del primero de Octubre debo lograr RMSE<=0.8625; y para ganar el premio mayor, RMSE<=0.8563 en cualquier momento y no ser superado por nadie durante un mes.

Algunas cosas sencillas que he hecho han bajado mi RMSE a 1.0149. A ese paso todavía estoy lejos... pero ahora si voy a empezar a realizar acciones más intensivas. Mantendré actualizado este blog con mi (más que probable) tortuoso camino hacia mi primer millón... =). Cualquier idea es bienvenida....

domingo, 28 de septiembre de 2008

Privacidad

"Ustedes tiene cero privacidad, de todos modos. Supérenlo."
"You have zero privacy, anyway. Get over it"
Scott McNealy, CEO de Sun Microsystems en 1.999, cuándo se le preguntó por los esfuerzos para combatir el rastreo de usuarios de Internet.

viernes, 26 de septiembre de 2008

Macrofotografías espectaculares




Generalmente son de flores o de insectos, como esta fotografía de un insecto bañado por el rocío de la mañana. Son.... simplemente espectaculares. Las encontré vía microsiervos, y hacen parte de una colección llamada "Inspiración de los Lunes" del blog Smashing Magazine, la cual contiene otras series de fotos maravillosas (ya no macrofotografías). Bueno, y de ahi puedes saltar al grupo de Flirck de macrofotografía y perderte en la red hasta que la vela se apague.....




miércoles, 24 de septiembre de 2008

Algoritmos de optimización y clasificación inspirados en hormigas: ant clustering




En el más reciente CLAIO, tuve la ocasión de asistir a una conferencia sobre investigaciones en minería de texto, dada por unos profesores de la Universidad de Cantabria. En sus trabajos, ellos utilizaron una técnica conocida como ant-based clustering, o agrupamiento basado en hormigas.

La utilización de metáforas biológicas en inteligencia artificial, optimización y clasificación es casi tan antigua como las mismas disciplinas. Generalmente utiliza como idea fundamental la inteligencia colectiva emergente de individuos con muy poca autonomía personal, tales como hormigas, abejas y bandadas de pájaros, que a pesar de su limitada capacidad de recolectar y clasificar información exhiben mecanismos de amplificación que hacen de los comportamientos grupales algo muy elaborado .





El mismísimo Alan Turing en los años 50 previó las posibilidades de las colectividades de organismos simples y planteó su funcionamiento a partir de mecanismos de accion local e inhibición, de acuerdo con esta página (altamente técnica).

Es fácil crear en un computador pequeños automátas que recojan información y hagan clasificaciones simples. Lo dificil (antes de los años 90) era crear miles o millones de los mismos simultáneamente, y lo que hoy en día sigue siendo un reto es crear los mecanismos adecuados de acción, inhibición y amplificación colectiva de la información que hagan de estos "seres" una inteligencia colectiva.
Dos ejemplos clásicos de mecanismos de inteligencia colectiva para resolver problemas (el nombre técnico es metaheurísticas) son: colonia de hormigas e inteligencia de partículas.

El caso de la clasificación basada en hormigas resultó para mi particualmente intrigante por el sistema biológico en el que se basa: la creación de cementerios a partir de cadáveres. Si se pone un conjunto de cadáveres de diferentes tipos (o tamaños) de hormigas en un plato circular, y se ubica en ellos un conjunto de hormigas vivas (de ciertas especies), éstas empiezan a desplazar lentamente los cadáveres hasta formar, después de unas horas, grupos (clusters) de cadáveres perfectamente clasificados.



Al parecer las hormigas no mueven cada cadáver de una vez a su cementerio, sino que los van desplazando lentamente a lo largo del tiempo, usando un mecanismo basado en los cadáveres más recientes que han visto alrededor. Si hay cadáveres parecidos en las cercanías, acercan el nuevo cadáver; si él cadáver es muy diferente a los que hay en las cercanías, lo alejan; y en ocasiones parecen indiferentes a algunos cadáveres. Ese mecanismo ha resultado bastante bueno para realizar clasificaciones de elementos en un computador con conocimiento previo de los grupos que deben clasificarse. En el caso de la minería de texto, la intención es tener un sistema que clasifique automáticamente en categorías la información que se encuentra en la red (p.e en deportes, tecnología, farándula, etc...) para así disminuir la inmensa carga de tener que hacerlo manualmente, dada la explosión de información en Internet.

Algunas de las clasificaciones mostradas por los investigadores no fueron muy exitosas, otras sí; Sin embargo, yo creo que resultaría muy interesante ver porque ciertos artículos no fueron "bien" clasificados y quedaron en regiones indefinidas del "cementerio", o aún peor, en el cementerio equivocado. Más allá de las limitaciones de la técnica, esos automátas podrían estarnos diciendo algo intersante y nuevo acerca de ciertos textos. ¿No es acaso la clasificación humana también falible? ¿Porqué es mejor nuestra clasificación que la de los automátas? ¿No es la clasificación de ella un poquito más objetiva, o al menos, no está esa clasificación basada en criterios matemáticamente definidos frente al juicio subjetivo del evaluador experto?
Es cierto que estas técnicas aún tienen dificultades para clasificar ciertos textos de alguna complejidad. Pero no estoy proponiendo que la minería de textos reemplace al evaluador humano por completo, sino que en ocasiones le de nuevas luces. Así, el autómata clasificaría los textos fáciles, y enriquecería la información para los textos dificiles, dándole nuevas herramientas al evaluador subjetivo para ciertos casos. Lo fácil, para la máquina; lo difícil, para el humano, pero enriquecido.

Y por último, no sobra recordar cómo la naturaleza sigue resultando ser nuestra mayor fuente de inspiración para la resolución de problemas complejos.

martes, 23 de septiembre de 2008

Privacidad y seguridad de la información personal


¿Qué tan pública es nuestra información personal? Todos sabemos que el envío de información por Internet es potencialmente peligroso, pero... ¿qué tan conscientes somos del manejo que las empresas o instituciones a las que hemos entregado información le han dado a nuestros datos?


Los colombianos, por lo menos, nunca olvidaremos el rumor de que durante las "pescas" milagrosas de las FARC, los guerilleros decidían a quién secuestrar consultando en una base de datos al parecer robada o comprada de manera corrupta a funcionarios de la oficina de impuestos nacionales, DIAN.
La privacidad electrónica fue uno de los tópicos de la charla que tuvimos en la Maestría que estoy cursando. La conferencia fue dada por Julie Earp, una experta mundial en el tema. He aquí algunas cifras y anotaciones interesantes:

Julie Earp

- En Estados Unidos no existe como tal el derecho a la intimidad o privacidad, como sí existe en Europa o Colombia. Algunas leyes regulan aspectos puntuales de esa intimidad o privacidad, pero no tienen un rango constitucional o no lo establecen como un derecho de la persona.

- Más de 240 millones de registros se han visto afectados por posibles fallas de seguridad en Estados Unidos desde el 2.005. Estas pérdidas o robos de información solo son tenidos en cuenta si se ha perdido información sensible que pueda llevar al robo de identidad, así que hay muchos más registros perdidos. Y ésto es sólo lo reportado en Estados Unidos.

- Las universidades son uno de los blancos favoritos de los crackers para apoderarse de la información, porque generalmente tienen menor presupuesto para seguridad, poseen información de muchas personas y por su naturaleza investigativa y académica tienen configuraciones electrónicas diseñadas para compartir más que para proteger.

- Entre 6 y 10 millones de personas sufrieron algún tipo de robo o suplantación de identidad en Estados Unidos, de acuerdo con las fuentes oficiales.

Y lo mejor, viene ahora.... la página dónde se llevan registros de todas las brechas de seguridad potencialmente peligrosas que han sido reportadas en los Estados Unidos... no sabe uno si morirse de espanto o morirse de la risa enterándose que ....


Facebook, probando su nueva versión, "accidentalmente"
hizo públicas las fechas de nacimiento de TODOS sus usarios durante un tiempo indeterminado en el mes de Julio, aún si el usuario había decidido mantenerla en secreto.

¿qué le preguntan a uno cuando llama a averiguar por su tarjeta de crédito, por ejemplo, para confirmar identidad? ¿cuándo me informó Facebook de ésto?

Es impresionante hacer un recorrido por esta exhaustiva página: backups de información bancaria enviada sin encriptar, USB pérdidas, funcionarios de nivel medio- bajo que se llevan computadores. Es trsite darse cuenta que ocurren cosas casi todos los días, a veces de 100 registros, a veces de 1.000.000... y si eso es en USA, ni qué decir de países como Colombia.... mejor no llevemos el registro, por favor. A veces siento que prefiero no saber.

domingo, 21 de septiembre de 2008

La paradoja del pavo



Un pavo es alimentado durante 1.000 días. Cada uno de esos días le confirmaba a su departamento de estadística que la raza humana se preocupaba por su bienestar, "con significancia estadística cada vez mayor". El día 1.001 el pavo recibe una sorpresa.
Nassim Nicholas Taleb, en un ensayo para Edge.

¿cómo se entiende esta paradoja estadística? ¿qué significa?... Lean el ensayo completo (en inglés). Más adelante comentaré sobre el tema.

viernes, 19 de septiembre de 2008

CLAIO 2008: Efectos logísticos de los precios del petróleo




Durante el congreso Latino-Iberoamericano de Investigación de Operaciones CLAIO 2008, tuve la ocasión de escuchar al Dr. Edgar Blanco, un egresado de la Universidad de los Andes en Colombia con doctorado en Georgia Tech que ahora trabaja para el Centro para el transporte y la logística de Instituto Tecnológico de Massachusetts. El profesor Blanco dió una conferencia sobre el tema de los cambios logísticos que se están produciendo debido a los altos precios del petróleo. Algunas ideas que me parecieron interesantes:

1- El precio del petróleo es tan solo el 15,2% del costo del transporte. Esta cifra surge de la siguiente manera: el 50% del precio de la gasolina corresponde el precio del petróleo; y solo el 30% del costo del transporte corresponde a la gasolina (60% es mano de obra y 10%, vehiculos y demás). Al respecto encontré esta gráfica del departamento de energía de U.S.A . En ella, el precio del petróleo es el 73% de la gasolina, pero eso es en U.S.A, donde los impuestos no se llevan una tajada tan grande como en otros países y la eficiencia en la distribución es mayor.

2) De esta forma, si el precio del petróleo se triplica su efecto sobre el costo de los bienes es más bien marginal. En palabras de Edgar Blanco, con ajustes básicos en los camiones como mantener las llantas bien infladas y los vehiculos bien reparados, gran parte del impacto puede ser revertido. Por eso no vivimos una catástrofe con los precios del petróleo.


3) Sin embargo, el mercado minorista de bienes depende de pequeños márgenes, así que para las empresas es importante enfrentar el aumento en los precios de petróleo. Las principales tendencias son dos: utilización de mayor transporte intermodal (más barcos y trenes) y utilización de mayor cantidad de centros de distribución.


4) En el tema del transporte intermodal, dos cambios ya se están llevando a cabo. las empresas están llevando su producción cerca de la mayor cantidad de redes multimodales, para así diversificar el riesgo de los precios fluctuantes; también se están tratando de negociar contratos más largos con las transportadoras, crendo así un mercado de futuros del transporte.

5) En el tema de los centros de distribución, se está buscando que los tramos más largos sean los más llenos. Por ejemplo, el agua embotellada que antes se traía de la Isla Fiji hasta Los Angeles para de allí ser enviada por camión a la costa Este, se está llevando directamente en barco hasta Filadelfia a través del Canal de Panamá. El inventario en tránsito está creciendo, así como se disminuye el número de envíos por semana. Aumentar el inventario es quizás algo que va en contra de la teoría clásica de la logística, pero es algo que se está generando por esta nueva situación.El número de centros de distribución y de proveedores está aumentando, con el fin de diversificar el riesgo. Se están generando alianzas de transporte entre empresas competidoras que antes jamás hubieran considerado tal opción.

6) Se requiere un cambio de mentalidad en logística. La logística es un tema cuyos mayores desarrollos se dieron en los años ochentas, época en la que los precios del petróleo, y de la gasolina, eran una constante, situación que se mantuvo hasta hace unos 3 años, como se ve en la siguiente gráfica (de cuño propio) donde se ve la evolución del precio de la gasolina en Carolina del Norte.


Por eso, la teoría logística se basaba en el supuesto de precios bajos y no volátiles de la gasolina, situación usual en los 80´s. De allí parte la necesidad de repensar toda la teoría logística, empezando por la teoría de Just in Time, siguiendo con Lean manufacturing, las decisiones de outsourcing , y las de pricing y packing, todas basadas en la suposición de precios bajos, o al menos constantes, del petróleo.

7) Producción verde: las empresas cada vez más tienden a hablar en sus productos, de frente al cliente, de la huella ecológica. Las empresas de trasnporte, como UPS, calculan cuánta gasolina se consume en transportar cada paquete; Wal-Mart se ha comprometido a reducir en 25% sus emisiones de carbono; y los productos traen su huella ecológica impresa en la etiqueta. Así mismo, cada vez se toma más en cuenta el ciclo de vida del producto, incluyendo disposición del empaque y los residuos. Sin embargo, en opinión del Dr. Blanco, esta tendencia ecológica es más marketing que verdadero compromiso, y podría verse revertida en unos 3 o 4 años, si el precio del petróleo baja.

8) La globalización no se va a acabar, pero su panorama va a cambiar. No existe una tecnología de energía híbrida para el transporte de carga en los próximos 20 años, por lo que las empresas no están preparadas para ese cambio. Los camiones híbridos están hoy muy lejos del mercado, y la única tecnología madura es la que maneja los centros de distribución con energía solar y eólica, la cual ya está siendo implementada en muchas partes. Así mismo surgirán intermediarios de recursos energéticos, como los intermediarios financieros de hoy. Va a haber mayor regulación en el tema energético.

9) Oportunidades para Colombia. Es muy posible que la decisión de poner megaplantas en Asia sea repensada, y ello lleve a tener plantas medianas en varias partes del mundo, incluido, por supuesto, Latinoamérica. El acceso a transporte multimodal va a ser clave en esa redistribución. Aunque ello no sea rentable en el corto plazo, tener la producción cerca a mis clientes es una opción que es necesario tener para minimizar el riesgo.


lunes, 8 de septiembre de 2008

CLAIO 2008



Durante esta semana estaré en Cartagena (Colombia) para asistir al Congreso Latino Ibero-americano de Investigación de Operaciones (CLAIO 2008) donde presentaré la ponencia "Implicaciones del uso de distribuciones heavy-tailed en la prestación de servicios con prioridades percibidas" que escribí en conjunto con la que una vez fuera mi estudiante, Lina Rangel.

Les estaré contando si veo algo interesante que pueda ser medianamente bien explicado en un blog. Estoy esperando encontrarme con muchas ponencias cuyo nivel matemático está por encima de mis capacidades actuales, con el agravante de que sus autores suelen tender a obscurecerlo aun más bien sea por deseos de hacerse notar o por incapacidad de comunicarse con mayor claridad. Al leer los títulos pensé que la mayor parte del tiempo voy a estar en un diálogo de cuasi-sordomudos. Solo trato de tener fe en este dificil diálogo como posible germen de algunas gotas de ciencia que quizás en un futuro no tan lejano sean inspiradoras, útiles, o reveladoras para alguien en el mundo; en otras palabras, espero que este congreso no sirva sólo para engrosar las hojas de vida de los asistentes y hacer networking (bueno, al menos conoceré gente de toda latinoamérica metida en el dantesco mundo de la investigación de operaciones, me digo a mi mismo... y disfrutaré también de cartagena, dice el diablillo dentro mío).
Por ahora, echenle un ojo a las sesiones plenarias y diganme que opinan.... ¿va a estar bueno o no tanto?


Enseñanza práctica

"Reza al dios que quieras pero no dejes de remar hacia la orilla"

Comentario de qui prodest? en el blog fogonazos

sábado, 6 de septiembre de 2008

El arte de Linda Bergkvist

Copyright: Linda Bergkvist.
Vagando un poco por la red, me encontré con el espectacular trabajo de esta noruega. El ambiente medioeval y de cuento de hadas me pareció simplemente sobrecogedor.





Copyright: Linda Bergkvist.
De los mejores que he visto, en este tema de los bosques mágicos. Las imágenes hablan por sí solas.


Copyright: Linda Bergkvist.





Copyright: Linda Bergkvist.

jueves, 4 de septiembre de 2008

Bailando sobre el planeta tierra

¿Que pasa cuando alguien empieza a bailar repentinamente en cualquier lugar del mundo?? ¿Cambian las reacciones según el lugar?


Where the Hell is Matt? (2008) from Matthew Harding on Vimeo.

Matt Harding se ha vuelto un popular productor de estos videos... pero que hacemos si la alegría es contagiosa!!

martes, 2 de septiembre de 2008

El bikini

"Las estadísticas son como los bikinis: lo que sugieren es interesante, pero lo que esconden es vital"
Leído en Selecciones (versión en español de Reader´s Digest) en alguna de sus ediciones de 2.008.