historias para no dormir…
Esta mañana iba pensando en los trabajos de doctorado que he de entregar el mes que viene. El tema de los trabajos lo decide uno mismo, y en una de las asignaturas tendría la posibilidad de implementar algún tipo de clustering.
Los algoritmos de clustering son algoritmos de clasificación de muestras no supervisados, es decir, tú le das al algoritmo lo que quieres que te clasifique y él se las ha de apañar para agruparlas en un determinado número de clases. Dicho número de clases se le suministra al algoritmo como parámetro. De hecho solemos ver aplicaciones que usan clustering todos los días, como las noticias de Google o el propio buscador.
El caso es que he pensado que sería interesante aplicar un algoritmo de estos sobre las etiquetas de del.icio.us y me he puesto a buscar sobre el tema en Internet, encontrando dos interesantes aplicaciones, que básicamente hacen lo mismo: nubes de etiquetas.
La primera aplicación surge como parte de una tesis titulada “Groups in Social Software: Utilizing Tagging to Integrate Individual Contexts for Social Navigation”, desarrollada por los alemanes Marc Zacher y Kai Bielenberg. Han abierto un blog en el que se pueden ir viendo los avances de su tesis y en el que hemos encontrado la aplicación en cuestión: un sistema de clustering sobre etiquetas del.icio.us. Tendremos que tener una cuenta en del.icio.us para que funcione. Una vez introducidos nombre de usuario y contraseña veremos las agrupaciones naturales de nuestras etiquetas. Podemos ajustar un factor de granularidad que determina el número de grupos formados.
La segunda aplicación se llama Cloudalicious. Cuando le suministramos una dirección web busca en del.icio.us todas las etiquetas con las que se encuentra etiquetada dicha dirección y muestra interesantes gráficas. En ellas se ven todas las etiquetas y la evolución de su uso a lo largo de los días. Por ejemplo, si buscamos www.google.es veremos que el mes pasado la etiqueta más popular era la de buscador, no habiendo práctiamente ninguna más. Según han pasado los días han ido apareciendo nuevas etiquetas y la de buscador ha ido perdiendo importancia, siendo la etiqueta google la más relevante. De hecho parece que se tiende a unificar criterios (etiquetas en este caso), tal como comentaba marzembre el otro día en su post Tags en del.icio.us.
Y para rematar el tema un interesante y extenso artículo sobre las nubes de etiquetas de del.icio.us, su diferencia con conjuntos de etiquetas y su posible importancia.
Parece que esto del clustering es interesante, además de mostrarnos las tendencias en el uso de etiquetas puede que sea una solución al problema de la ambigüedad de las mismas, del que tanto se está hablando últimamente. A lo mejor nos estamos equivocando al intentar utilizar una única etiqueta para encontrar, a lo mejor la solución pasa por utilizar la unión de varias etiquetas (una OR lógica). O a lo mejor la solución es identificar conjuntos de etiquetas mediante clustering y transformar dichos conjuntos en conceptos ontológicos, con lo cuál conseguismo unificar sin perder la posibilidad de etiquetar.
Yo de momento voy a ver si me decido a hacer el trabajo.
Blog personal de Fernando Blat, sobre tecnologías web, y programación, ¿o era al revés?
Muy interesantes cloudalicious y el artículo que citas para saber cómo evolucionan las etiquetas empleadas por los usuarios de del.icio.us. Como dicen de pasada, hasta se pueden estudiar aspectos culturales.
Aunque del artículo, lo que he encontrado más interesante ha sido la parte final. Una buena introducción a las manipulaciones que se pueden hacer con la información de las etiquetas.