O antigo sonho de livre acesso a um repositório contendo todo o conhecimento e cultura humana está se tornando realidade através da Internet e da participação colaborativa dos seus usuários. A Wikipédia é um grande exemplo de repositório de livre acesso e edição criado através do esforço colaborativo de sua comunidade de usuários. Entretanto, esta enorme quantidade de informação disponibilizada de forma democrática causa uma grande preocupação quanto à qualidade de seu conteúdo. Nesta dissertação foram coletados um grande número de indícios de qualidade, alguns já propostos e outros novos e utilizados pela primeira vez para este fim, com o objetivo de estudar a capacidade dos mesmos em estimar a qualidade dos artigos da Wikipédia. Além disso, foi apresentada uma nova abordagem para combinar estes indícios, utilizando técnicas de aprendizado de máquina, para extrair um valor unificado referente à qualidade desses artigos. Com este trabalho foi possível analisar o impacto de cada indício e foi identificado, por exemplo, que os mais promissores em estimar a qualidade de um artigo são aqueles mais simples de extrair em qualquer biblioteca digital de acesso livre: os que levam em conta o conteúdo do texto atual como, por exemplo, o tamanho do artigo e a sua estrutura. Também foi identificado quais indícios não foram tão importantes na estimativa da qualidade. Estes indícios são, coincidentemente, os mais complexos de extrair, como os baseados em análise de ligações. Por fim, o método proposto demonstrou ganhos significativos na estimativa da qualidade de artigos ao compará-lo com as soluções estado-da-arte na literatura.

Fonte: http://www.bibliotecadigital.ufmg.br/dspace/bitstream/handle/1843/SLSS-7WJN62/danielhasandalip.pdf?sequence=1