Uma solução promissora é utilizar a Wikipédia como fonte de conhecimento devido a confiabilidade, dinamicidade e abrangência de seu conteúdo. A Wikipédia é uma enciclopédia multilíngue, colaborativa e com qualidade editorial comparável às enciclopédias tradicionais [Kittur and Kraut, 2008]. Em português, a Wikipédia possui cerca de 760 mil artigos. Muitos trabalhos propõem abordagens para aquisição de conhecimento que utiliza a informação estruturada da Wikipédia, como os infoboxes e a árvore de categorias [Auer and Lehmann 2007, Suchanek et al. 2008], porém o conteúdo conceitual descrito em forma textual na enciclopédia não é capturado. Métodos e técnicas para extração de informações de textos de documentos poderiam ser adaptadas para extrair conhecimento dos artigos da Wikipédia. As técnicas mais proeminentes são aprendizado de máquina [Wu and Weld 2010] e casamento de padrões de expressões regulares [Stoutenburg et al. 2009]. O ReVerb [Fader et al. 2011], em particular, propõe o uso de restrições léxicas, expressões regulares, e um conjunto de features, para suplantar problemas como extração de relações pouco informativas, irrelevantes e incoerentes. No entanto, ReVerb baseia-se na definição de features através de aprendizagem supervisionada (portanto, necessita de um processo manual de anotação de um conjunto de treinamento), e não identifica relações redundantes. Neste trabalho nos propomos a superar esses obstáculos, Apresentamos um método para aquisição de relações semânticas entre conceitos, a partir do texto de documentos da Wikipédia, que faz uso de um conhecimento implícito existente na Wikipédia e em sistemas hipermídia: os links entre artigos. Ao longo do texto descritivo de um artigo da Wikipédia aparecem links para outros artigos que são evidências de que há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método proposto objetiva capturar a relação semântica expressa entre os artigos, o corrente e o artigo chamado por um link, identificando relações similares através de uma medida de similaridade semântica.
Fonte: http://www.lbd.dcc.ufmg.br/colecoes/eniac/2013/0052.pdf
Referências:
http://super.abril.com.br/cultura/enciclopediada-para-confiar-na-wikipedia
Como vimos, o caráter enciclopédico do texto dos verbetes deve, a
princípio, seguir os chamados ‘cinco pilares’ da Wikipédia:42
• a pesquisa não deve ser inédita, mas deve ser rigorosa e se basear em
fontes fiáveis;
• o texto deve ser imparcial;
• o conteúdo é de licença livre (não há crédito explícito para autoria);
• devem-se seguir determinadas normas de conduta na relação entre editores,
com um debate equilibrado e que assuma a boa-fé; e
• a iniciativa de editar deve ser encorajada, respeitadas as regras anteriores
(‘seja audaz’).