Hace unos días el equipo de QA de Opera presentó el proyecto MAMA (Metadata Analysis and Mining Application). Este proyecto de Opera es, según la nota de presentación, un motor de búsqueda de estructura, en vez de contenido
.
El objetivo de MAMA es la recopilación de datos y el análisis de la estructura de los sitios web. De esta forma, se pueden contestar preguntas como qué tecnologías son más populares, qué tipo MIME se utiliza, qué porcentaje de sitios incluye archivos de Javascript o CSS, o qué porcentaje de sitios contiene HTML válido.
Incluso puede ayudar a los equipos de desarrollo de los navegadores para saber en qué clase de fallos deben concentrarse y qué tecnologías deben implementar.
Junto con el anuncio oficial, se publicaron dos estudios de los muchos a los que puede dar lugar la información recopilada por MAMA: ¿Cómo es la página web promedio? y ¿Qué porcentaje de páginas web utiliza código válido?.
La página web promedio
http://dev.opera.com/articles/view/mama-key-findings/
Este estudio contiene datos interesantes, por ejemplo menciona que la página promedio no tiene DOCTYPE, y que cuando se utiliza uno se utiliza HTML 4.x Transicional. Es fácil concluir de esto que la mayoría de las páginas se analiza en modo "permisivo" (quirks).
Lamentablemente la página promedio contiene al menos 1 elemento FONT, con los atributos color, face y size.
En cuanto a CSS, la página promedio contiene al menos un elemento STYLE y una referencia a un archivo externo (que muy probablemente se llame style.css
) de 8,5 KB. Al parecer el uso mayoritario de CSS sigue siendo el control de fuentes.
Se menciona que el promedio de imágenes por página es 23, el de enlaces 38 (con al menos 1 que se abre en una nueva página), y el de etiquetas META 3 (Content-Type, description y keywords).
Se utilizan en promedio 2,5 archivos Javascript externos, con un tamaño sumado de 26 KB. Eso se suma a los 3,6 elementos SCRIPT y a los 19,2 manejadores de eventos declarados en la página.
HTML válido
http://dev.opera.com/articles/view/mama-w3c-validator-research-2/
Se puede ver que solamente el 4,13% de las páginas analizadas por MAMA contienen HTML válido. Según el estudio, este número crece lentamente, pero es claro que aún es ridículamente bajo.
Se detalla el porcentaje de páginas con HTML válido según el uso de otras características. Podemos enterarnos que solamente el 1,44% de las páginas que utilizan marcos (frames) contienen HTML válido, el número se eleva a 4,72% si la página utiliza CSS.
Se muestra también un dato curioso: el número de páginas válidas alojadas en servidores Apache casi duplica a las páginas válidas alojadas en servidores IIS (5,38% contra 2,80%)
Otro análisis tiene que ver con los editores y los CMS, con datos obtenidos analizando las etiquetas META Generator
.
En cuanto a editores, podemos saber que el 81% de las páginas creadas con Apple iWeb son válidas, mientras que en el otro extremo se ubica FrontPage, con 0,60%.
Y en lo que respecta a gestores de contenido, los resultados varían entre el 0,30% (Blogger) y el 12,74% (Typo3)
Decepcionante es descubrir que 1 de cada 2 páginas que muestran un botón de HTML válido
, en realidad contienen errores de validación. Queda pendiente la pregunta, que obviamente un analizador automático no puede contestar, de cuál es el motivo de esos botones. ¿Se colocaron porque sí? ¿se colocaron en un momento en el que la página era válida y luego el código de la página cambió?
El estudio contiene muchos otros datos interesantes, como por ejemplo qué codificación de caracteres se utiliza más (iso-8859-1 seguido por UTF-8) o cuáles son los errores de validación más comunes.
En mi opinión es un artículo muy interesante, al menos para obtener un pantallazo de la situación actual.
Es una lástima que solamente esté en inglés, pero seguramente los traductores automáticos pueden hacer un trabajo decente para aquellos que lo necesitan.
Un detalle a recordar en todo momento es que la muestra del estudio es bastante reducida, se analizaron 3,5 millones de páginas mientras que la Web actual contiene varias decenas de miles de millones.
Solamente se han publicado algunos de los estudios que se planea publicar, pero lo que se ve ya hace de MAMA un reflejo interesante de la Web.










20/10/2008, a las 19:56
Muy interesante :), sigan así (de mal), así nosotros tenemos mas visitas jaja
Fuera de broma Lotus 123, Word, Publisher, Wordstar y Frontpage son iguales, deberían estar prohibidos para hacer webs, son en gran parte culpables del problema.