historias para no dormir…
Ahora que la araña tiene casi una semana de vida me aventuro a dar algunos datos ya, y a dar por concluída la primera fase.
En total, en estos días se han analizado 1508 blogs, todos ellos obtenidos a partir del feed de actualizados de Bitácoras.com. El análisis ha consistido (además de en guardarse las URLs de los blogs y sus respectivos enlaces sus feeds), en buscar qué valores contenían los atributos rel="" de los enlaces.
¿Y por qué el atributo rel=""? Porque es especialmente popular para definir y marcar con microformatos, como por ejemplo XFN.
Por ejemplo, de los 1508 blogs, sólo 54 utilizan XFN como para definir relaciones con otros blogs/recursos.
rel=""Y sin más, este es el listado con los distintos valores que ha encontrado la araña:
Como véis, alguno es un viejo conocido, como tag (utilizado para marcar los tags de un post), license (que indica qué tipo de licencia tiene el contenido del blog o del post, en su caso), o nofollow (microformato anti-spam), mientras que otros no los conocía de nada, como por ejemplo category (aunque aporta realmente poco porque suele aparecer junto al valor tag).
Por otro lado, la mayoría de los desconocidos han aparecido una o ninguna vez (aparecieron una vez cuando aún no guardaba ejemplos y no han vuelto aparecer). Eso son los que he marcado con un *.
También hay que notar que muchos de estos atributos son propios de XFN, por lo que la variedad no es tan alta com podría parecer con 39 valores diferentes.
tag y categoryVeamos qué podemos hacer con posts recogidos durante 4 días en los que aparezca tag o category para marcar los posts.
De los 4127 enlaces distintos almacenados con un atributo rel="" 2334 contenían el valor tag o category, lo cuál es un número bastante representativo (más del 50%).
Así pues, si dichos tags/categorías los ordenamos por frecuencia, tenemos el siguiente listado:
Así, a lo bestia. En total hay 1409 valores diferentes. Además, como era de esperar, todos estos valores siguen una distribución típica:
Lo que muestra esta gráfica es: en el eje X cuántos enlaces con el mismo atributo rel="", y en el eje Y su frecuencia. Así, con 30 repeticiones sólo hay un caso, mientras que con una repeticion hay más de 1000 ejemplos. Y el valor medio podría ser 8 repeticiones.
Por supuesto, esto pide a gritos agrupar en clusters, o incluso hacer conjuntos de categorías a mano, para incrementar el número de muestras por clase.
Pues varios puntos:
profile="" y
(gracias Gonzalo)Y de momento esto es todo, y creo que no me dejo nada más.
Gracias a los que me habéis estado ayudando y sugiriendo :) Pronto más.
Blog personal de Fernando Blat, sobre tecnologías web, y programación, ¿o era al revés?
si esperas que alguien meta más atributos a los enlaces lo llevamos claro, no creo que mucha gente se ponga a rellenar atributos en un enlace cuando en un post puede haber mas de 10 de ellos, primero por el tiempo “que se pierde” y segundo por el desconocimiento de de los tags.
O bien se crea una herramienta que identifique tus enlaces dentro de una base de datos y te agregue estomáticamente los tags, o poca cosa se puede hacer.
Interesante análisis…
Completamente de acuerdo con Manu.
O se automatiza de alguna manera la creación de enlaces como el caso de XFN con Wordpress utilizando un asistente para agregar las etiquetas,-y además de manera “divertida”- o bastante tiene el usuario con el “a href” como para ponerse a estudiar las variedades y posibilidades de etiquetas y todo para hacer algo que no comprende.
Los usuarios avanzados ya son otra cosa… :-)
Estoy de acuerdo, que resulta bastante coñazo, vamos.
startpuede usar como sinónimo defirsto dehome.¿Es correcto que discrimines a
Bookmark(con mayuscula)? Hubiera jurado que los valores derelera case insensitive.Ups, no entendí ni m….oños.
¿Algo como esto, no? Pero extendido a varios CMS.
En realidad la idea es que el CMS te apoye en eso lo más posible y te haga toda esa tarea lo más transparente posible.
De hecho, iniciativas como Structured Blogging son muy bonitas, pero les veo poco futuro, porque es un coñazo tener que pensar cada vez de qué vas a hablar para que el CMS te cree el post con el marcado apropiado.
Federico: es que sólo ha apercido una vez en 4727 casos, con lo cuál, sí, de momento no es que sea muy relevante. Pero si hubiera un número de casos más representativo sin duda lo pasaría todo a minúsculas y a seguir, ¿no?
Luis: he visto que me has xfneado, jejejeje. Yo tenía a furilo por hacer una prueba más que nada, pero ni con el asistente de WP me he animado. Por mi cierto, mi araña peta en tu blog :(
Que mi araña peta en mi blog? :-) Será por el insecticida para bichejos de la red…
El XFN es sencillo de generar con Wordpress… lo único es saber, qué te aporta el tomarte la molestia. El tema de los microformatos es que no se le ve utilidad real a primera vista. Sinceramente, me pongo en el lugar de un usuario normal y no termino de verle la utilidad.
Normal que no se la veas. Es un tema que requiere entender varios puntos previos y que en realidad no reporta nada al usuario final que le pueda resultar atractivo a primera vista.
En fin, ya sé porque me peta la araña. Tranquilo que pronto no te salvas.
Sabeis de alguna demostracion de Microformatos que pueda resultar útil para que lo comprenda un usuario normal? Qué hacen los Microformatos? Algo visible, tangible… :-) Yo los he visto funcionando en un chat con votos sobre el plenario del W3C… pero en la web…
Muy buenas. Voy a ir por partes que tengo que hacer unas cuantas referencias, je je.
Fernando, en el segudo punto de “y ahora qué”, te falta
rel="schema, pero viendo que no sale en la lísta de vínculos relacionales, ya suponemos los resultados, je je. Y lo mismo podemos decir de Dublin Core, no se si alguien aparte de arnau y yo lo utiliza (aunque merece la pena).Y veo bastante dificultad en crear “clusters” en las categorías: el concepto de “general” para una bitácora biográfica no tiene nada que ver con el de “general” de una bitácora tecnológica. Habría que buscar relaciones entre las categorías para aquellos post que tienen más de una categoría, o son subcategorías de la misma.
Ahora evito los términos complejos y lo intento escribir más claro: si en la bitácora autobiográfica, los post que tienen la categoría de “general” suelen aparecer con la categoría “personal”, en esa bitácora en concreto se puede encontrar una alta correlación.
Si en la bitácora tecnológica los post de la categoría “general” también se archivan en la categoría “internet”, igualmente se puede establecer una relación entre ambas categorías.
Pero mezclando ámbas relaciones, no obtenemos nada concluyente. Habría tantos “clusters” como temáticas de bitácoras.
¿Todavía hay alguien que no se ha dormido? Je je.
Cambiando de tema, coincido con Manu: muy poca gente se molesta en escribir buen código en las bitácoras, porque es muy pesado, a veces no se ve un beneficio ó utilidad inmediata, y no siempre te deja hacerlo el gestor de contenidos (ésto último me cabrea bastante).
Pero no sólo con los vínculos: acrónimos, identificación del idioma de algunas palabras cuando es distinto del general de la bitácora, la inclusión de abreviaturas y acrónimos,… es mucho más fácil escribir una página fuera de un gestor de contenidos, ya que te aseguras de que va a quedar como quieres (bueno, depende del editor utilizado, je je). Éso, o desarrollar un gestor de contenido que funcione como un buen editor web, y te deje incluir atributos por doquier a las etiquetas que te interesen.
Luís, como ya utilizas los vínculos
rel="tag"en grancomo, supongo que te refieres a otros microformatos, ¿no? :)Ahora en serio, personalmente creo que uno de los microformatos que puede ser más interesante, es el de datos geográficos geo, aunque personalmente creo que no le vendría mal incluir otros tipos como país, estado o provincia, localidad (de lo que se ocupa hcard). ¿Porqué? Piensa en todas las aplicaciones geográficas que han salido en estos últimos meses y el potencial que puede tener ya mismo.
Hablando en términos generales (al menos pensando desde el punto de vista de los microformatos de Dublin Core y perdón por la autocita), creo que son una poderosa herramienta para extraer metadatos de forma sencilla (siempre y cuando los agentes de software quieran aprender a utilizarlos) y así hasta hablar de la interoperatibilidad, aunque a un nivel muy básico (es mucho más potente RDF, como me comentó Emmanuelle en coversaciones previas al artículo Etiquetas meta, ficheros RDF, microformatos: 3 sabores de la Web Semántica). Pero es volver a hablar de una Web Semántica que a día de hoy resulta complicado de poder disfrutarla “pasado mañana”, por decir una fecha ambígua. Aunque lo cierto es que hoy en día hay aplicaciones muy interesantes con ontologías en la web semántica, aunque no a un nivel global, sino en proyectos concretos.
Y para terminar (lo prometo) creo que en el fondo una de las ideas que subyace en este interesante experimento es la utilidad que realmente le damos a los gestores de contenidos para crear nuestro blogs o bitácoras, la utilidad que le podríamos dar si aprovechasemos bien todas las características de los gestores de contenidos y la utilidad que se podría conseguir usando unos gestores de contenidos mucho mejores (sin despreciar los que existen actualmente).
Siendo sinceros, la mayor parte de los que escribimos en blogs, es por su comididad y sencillez. No requiere conocimientos de código para poder publicar, y todo aquello que no entendamos al entrar en las diferentes opciones son ignoradas, por desconocimiento o por comodidad.
Si alguien ha sido capaz de leerse ésto se merece un monumento, je je. Vaya rollo que he soltado.
el tema no es que pueden hacer por ti los microformatos, si no que es lo que puedes hacer tu por los microformatos, estan diseñados simplemente para estructurar la web (¿2.0?), esto es como hace un tiempo el XHTML, todo el mundo ponía esfuerzo en validar su contenido, pues esto es igual, tan solo es una parte del camino de una web estructurada.
Luis seguramente el mejor ejemplo de microformatos en web es flickr, añadiento tags, pero… ¿se pueden considerar los tags como microformato?
Por cierto “…base de datos y te agregue estomáticamente los tags…”, lol, maldito corrector ortográfico ;-)
Fernando, puede que te interese leer Re: Metadata for Library Web Pages?, que para mi alegría contradice un poco mi opinión sobre el hecho de que los metadatos son ignorados por los robots de búsqueda. Y habla sobre Dublin Core: entre un 6 y un 8% de las páginas webs de un estudio los utilizaban (metadatos de Dublin Core, se entiende).
También puedes leer en formato PDF The impact of metadata implementation on
webpage visibility in search engine results (Part II).
Más que nada para comparar resultados.
Genial Gonzalo.
Por cierto, en el estudio ignoaraba cualquier
rel=""que no esté en una href="", con lo que me falta mirar en los enlaceslink.De hecho ya estoy mirando, y pronto lo comentaré.
muy way, pero eraa nada mas para compaarar respuestas