História da Arte na Wikipédia, uma observação macroscópica |

Fonte: http://arxiv.org/ftp/arxiv/papers/1304/1304.5629.pdf

resumo

Como são artigos sobre arte atores históricos interligados

dentro da Wikipédia? Levar por esta questão, buscamos uma

visão geral sobre a estrutura de ligação de um domínio específico

subconjunto de artigos da Wikipédia. Nós usamos uma estabelecido

autoridade nome da pessoa de domínio específico, a Getty

União Lista de Artist Names (ULAN), a fim de

identificar externamente atores relevantes. Além de conter

dados biográficos pessoa consistentes, esta base de dados também

fornece relações associativas entre a sua pessoa

registros, servindo como uma estrutura de links de referência para

comparação. Como um primeiro passo, usamos mapeamentos entre

a ULAN e Inglês DBpedia fornecido pelo Virtual

Arquivo Autoridade Internet (VIAF). Desta forma, somos capazes de

identificar 18,002 artigos pessoa relevante. Examinando o

estrutura de ligação entre estes recursos revela

visão interessante sobre a estrutura de alto nível da arte

conhecimento histórico como está representado na Wikipedia.

 

Introdução

Embora a estrutura de Wikipedia como um todo tem sido

extensivamente estudadas, observações mais focadas de

subconjuntos específicos de domínio de seu conteúdo são muitas vezes limitadas

qualitativas comparações em nível individual do artigo,

ou na extracção / análise de categoria subjacente

esquemas ou taxonomias. Com uma multidão em crescimento activo

participa do projeto Wikipédia, a quantidade de

artigos vinculados a domínios de conhecimento específico atingiu

uma medida em que torna viável para observar sua largescale

estrutura dentro das fronteiras de domínio definidos.

Considerando-se o domínio do Património Cultural, um número

de instituições estão cada vez mais conscientes de

Wikipedia como uma ferramenta valiosa para fornecer contexto para

artefatos de museu [4]. De fato, o número de história da arte

recursos relacionados sobre Wikipedia é impressionante, por exemplo,

procurando apenas recursos distintos pertencentes à

categoria yago: Painter1103916531 já retorna

14.138 artigos a partir de fevereiro de 2012. Há,

no entanto, os lotes de diferentes tipos de artigos da Wikipédia

lidar com a história da arte. Existem artigos sobre

obras de arte famosas (por exemplo, Mona Lisa), cerca de estilos artísticos

(por exemplo, Renascença), sobre os museus (por exemplo, Louvre) ou

sobre arte atores históricos (por exemplo, Leonardo da Vinci).

Especialmente artigos deste último tipo são adequados para um

em larga escala de observação estrutural, como biografias de arte

história as pessoas relacionadas são altamente interligados devido à

estudante / professor, artista / patrono ou relações influentes.

Neste estudo, portanto, incidir sobre os artigos da Wikipédia

sobre a história da arte relacionada pessoas. Eu quero examinar

como eles são ligados uns aos outros e se houver

propriedades estruturais interessantes ou agrupamentos de inter-

 1 http://www.mpi-inf.mpg.de/yago-naga/yago/

ligações do artigo, como se eles refletem atributos comuns.

Como primeiro passo, queremos abordar a análise por

usando técnicas de visualização.

Mas quem são arte atores históricos? Embora possa ser clara

que uma proporção significativa são (grupos de artistas como)

pintores, escultores, arquitetos etc., há também muitos

outras pessoas que têm desempenhado papéis importantes na

domínio, como estudiosos importantes, coletores, patronos,

políticos ou monarcas. Esta variedade de pessoa diferente

papéis torna difícil identificar as pessoas relevantes. Nós

portanto, fazer uso de uma externa bem estabelecida

controle de autoridade, a Getty União Lista de nomes Artista

(ULAN) 2

, A fim de encontrar a história da arte pessoa relacionada

biografias em artigos da Wikipédia sobre extraídos DBpedia.

Além de apoiar a identificação, esse vocabulário também

oferece atributos consistentes biográficos, tais como

nascimento / falecimento data, papel ou nacionalidade, o que não é

sempre o caso com DBpedia [1]. Além disso, o ULAN

fornece relações associativas entre a sua pessoa

registos, que servem como referência para comparação com

o inter-artigo ligações entre artigos da Wikipédia.

Nós fazemos uso de outra autoridade, a Internet Virtual

Autoridade Arquivo (VIAF) 3

, Para o mapeamento ULAN registra a

Recursos DBpedia. Em fevereiro de 2012, existem

18.002 desses mapeamentos no VIAF. Desde que nós usamos o

Resource Description Framework (RDF) para o mapeamento

entre ULAN, VIAF e DBpedia, este projeto também

serve como um exemplo de Web Semântica como

tecnologias pode ser eficazmente utilizado para combinar

diferentes fontes de dados, melhorando a qualidade do

corpus dados e levando a resultados interessantes.

 

Trabalho relatado

A estrutura em grande escala de Wikipedia tem sido

descrito em [6], salientando que Wikipedia interarticle

ligações formar uma rede livre de escala. Um estudo incidiu

na Wikipedia estrutura de links é apresentada em [2]. o

adequação da Wikipedia para domain-specific derivando

dicionários é demonstrado em [3] por comparação da sua

cobertura com um tesauro profissional no domínio de

agricultura. Em [5], pessoa relacionada com artigos da Wikipédia são

analisada para a filosofia e os domínios literatura,

com artigos escolhidos pela ocupação das pessoas. o

dados recolhidos são usados ​​para mostrar para os dois

domínios que países / cidades foram importantes

Centros durante os séculos. Uma comparação entre

ULAN DBpedia e é apresentado em [1]. Os autores

foram capazes de corresponder 14,972 recursos DBpedia ao seu

Ulan homólogos. Quanto à cobertura de DBpedia

atributos biográficos, eles foram capazes de identificar 8077

(53,95%) atributos do tipo data de nascimento, 9.628 (64,31%)

Tipo de nacionalidade e 5.442 (36,35%) do tipo de função.

Esses achados nos encorajou a contar com a ULAN como

fonte para biográfica atributos para a análise do

estrutura de links dos artigos da Wikipédia observados.

Setup Sytem

Usamos RDF como formato de dados, como é o formato nativo do

o conjunto de dados DBpedia, o que representa o modelo de dados núcleo

subjacente à Visão Web Semântica. Como DBpedia, nós

usar Openlink Virtuoso4 como plataforma de armazenamento. Usando uma ferramenta

fornecida pelo projeto MultimediaN N9C Eculture5, nós

primeiro convertido o conjunto de dados ULAN para RDF. Como o ULAN

identificadores são agora completamente integrado VIAF,

fomos capazes de recuperar os dados VIAF RDF para cada um dos

 4 http://virtuoso.openlinksw.com

5 http://e-culture.multimedian.nl

os registros Ulan. Usando os mapeamentos fornecidos, nós

o download dos conjuntos de dados RDF 18,002 do público

Endpoint Inglês DBpedia SPARQL. Como este endpoint

Atualmente não fornece as ligações internas Wikipédia,

baixamos o link completo reserva wiki interno

do site da DBpedia. Foram extraídos todos relevantes

links wiki entre os 18,002 entidades e carregaram-

em nossa loja triplo.

Um primeiro olhar para os dados

Depois de reunir todas as fontes de dados necessárias, tivemos

um primeiro olhar para a estrutura resultante fazendo uma

visualização utilizando a Plataforma Gephi6. A Figura 1 mostra

um layout baseado força da rede de todos os 18.002

Recursos DBpedia e seus 54.590 ligações mútuas,

onde o tamanho de um nó de reflectir o seu grau (in & out). O blob

no centro sugere a existência de um gigante

componente ligado. De facto, o tratamento de todas as ligações quanto

rendimentos sem direção diferente fracamente ligados 4187

componentes (CC), com um componente gigante - coloridos

verde na Fig. 1 - que consiste em 75,44% (~ 13.581) de todos

artigos, sendo o restante distribuído entre o restante

4.186 CCs cujos tamanhos variam entre 0,06% (~ 11)

e artigos desconexos de solteiro. Tratar todos os links como

rendimentos dirigidos 10.071 componentes fortemente conectados

(SCC), com um SCC gigante que consiste em 40,55% (~ 7300)

de todos os artigos, os restantes 10,070 contando CCEs

entre 0,05% (~ 9) e individuais artigos desconexos.

Olhando para a distribuição grau nó, a ligação

estrutura do subconjunto seleccionado de artigos mostra claramente

uma distribuição de lei de potência, uma vez que tem sido identificada com

Wikipedia em geral [6] - ver Fig. 2. Observando o

distribuição de nó dentro e fora grau, encontramos

valores comparáveis ​​tal como em [2].

 

Temporal Pessoa Pessoa-Link Properties

A visualização da rede na Fig. 1 não é muito

expressivo, como o componente gigante conectado visualmente

se assemelha a um não-estruturados, mas altamente conectado "blob"

de nodos. Portanto, consideramos um olhar mais atento ao

propriedades da ligação, que têm uma certa suposição em mente: Como

observa-se apenas os artigos pessoa, podemos esperar que o seu

ligações mútuas de suportar fortes características temporais,

ou seja, o período de tempo que uma ligação cobre varia de zero

anos até milênios para pessoas referenciar pessoas

a partir, por exemplo, a Grécia antiga. Nós aproximar a

intervalo para cada link de pessoa-pessoa pela diferença

entre suas datas de nascimento, tal como previsto pela ULAN. Figo.

3 mostra a distribuição da ligação de uma cadeia linear TimeSpans

escala para todas as 54.590 ligações Wiki comparado a todos os

9.406 ligações Ulan para o mesmo subconjunto. O que vem à

atenção em primeiro lugar é que o número de 'links' "curta"

cobrindo 0-37.5 anos supera claramente a soma de

todos os outros (DBpedia: 75,3%, ULAN: 81,2%). Isso pode

ser interpretada como tal, que os contemporâneos são muito

mais susceptíveis de serem interligadas de pessoas que se encontram

gerações de distância. Medimos a distância em relação

ambas as direções possíveis: para o futuro e para a

passado. Isso revela uma diferença interessante entre o

vínculos associativos de ULAN e os da Wikipedia:

Enquanto ligações Ulan são altamente recíproca, ou seja, por quase

Cada elo de pessoa A para B, há também uma de B

a A, este não é o caso em DBpedia, onde duas vezes mais

muitos links apontam para o passado (66,8%) do que no

futuro (33,2%). Dos 54.590 ligações Wiki, 15606

(28,59%) são espelhados e os restantes 38.984 são

'' único ''. Do ponto de vista histórico, isso parece bastante

lógico, como os artistas podem sempre extrair influências de

as gerações anteriores, que são, por natureza assimétrica.

Do ponto de vista enciclopédico, no entanto, isso não é

o caso: Enquanto as diretrizes editoriais para a Getty

inclusão de relações associativas em ULAN7 (capítulo

3.5.2.3.1) afirmam claramente que cada ligação tem de ser

espelhado, este não é o caso com a ligação Wikipedia

guidelines8 estilo

. No entanto, a quantidade observada de

ligações espelhado Wiki ainda difere significativamente [2],

relatando cerca de 8,7% as ligações recíprocas para uma muito maior

subconjunto cross-domain de Wikipedia. Isso, no entanto, poder

provavelmente relacionado com o nosso conjunto de domínio específico de pessoa

artigos. Outra diferença entre ULAN e DBpedia

links é que este último não abrangem geralmente muito maior

TimeSpans do que o anterior - ver Fig. 4 com ligação

distâncias plotados contra uma escala logarítmica. Isso também pode ser

explicou através das diretrizes editoriais Ulan

(capítulo 3.5.1.4), afirmando que '' Relações deve ser

feita apenas entre os registros que estão diretamente relacionados ''.

Refinando a Visualization

As propriedades temporais das ligações indicam DBpedia

para que possamos ver mais estrutura na visualização por

ligações omitindo que se estendem além de um certo tempo

intervalo. À medida que usar um algoritmo baseado em vigor para o

layout, esperamos que a estrutura de links nó para "desenrolar"

em, aproximadamente, uma sequência cronológica. Figo. 5

mostra o resultado da aplicação do mesmo algoritmo disposição

como para a Fig. 1, mas sem ligações cujas extremidades são

mais de 75 anos de diferença. Nós escolhemos esta distância, como

89,13% de todas as ligações DBpedia são "mais curto" (ULAN:

98,87%) e é mais ou menos adequados para separar

contemporâneo de relações inter-geracionais.

O layout resultante tem agora um alinhamento cronológica,

que representa o fluxo da história da arte do

Renaissance (à esquerda) até hoje (à direita), com base exclusivamente no

as relações entre os seus inúmeros atores históricos.

 

Colorir os nós de acordo com cada pessoa de

nacionalidade, tal como previsto pela ULAN, revela

padrões interessantes de interação cultural dentro do

rede, como eles são percebidos pela língua Inglês

Wikipedia comunidade: O lado esquerdo da Fig. 5 é

dominada por italianos (verde). Este cluster spans

Renascimento e Barroco vezes, desaparecendo até o final

do século 17. Um pequeno grupo na parte inferior esquerda

representa renascentista alemão Albrecht redor

Duerer (preto). Mais à direita, um grupo de holandeses

Renascimento e Barroco (laranja) pessoas marca a

começando de um desenvolvimento interessante. Dois distintos

grupos de britânicos (ciano) e francês (vermelho) históricos

atores dominar o centro da cidade, até que os americanos (azul)

uni-los em um caldeirão grande em torno do final dos anos 19

século. A parte mais à direita representa Pós-Modernista

Americanos, com um conjunto independente de nacionalidade

Arquitetos abaixo.

Discussão e Trabalho Futuro

Ao visualizar o reduzido conjunto de link, fomos capazes de

identificar características estruturais do artigo inter-

links. Existem grupos de artigos de link com base que

representam a nacionalidade das pessoas e respectivos

possuem fortes características temporais, que representam

arte períodos históricos e nas escolas. A completa

discussão destas observações é, no entanto, deixou de

futuro trabalho. Como nós limitamos nossa observação para

Inglês DBpedia e usou uma principalmente anglo-americana

arquivo de autoridade para a identificação dos artigos, esperamos

para obter resultados diferentes para a utilização de autoridades

origem diferente e para outras versões linguísticas

DBpedia. Comparando-se os resultados poderiam revelar diferenças

na percepção cultural entre os diferentes Wikipedia

comunidades. Além disso, seria interessante

aplicar o método descrito para outros domínios.

Conclusão

Temos efetivamente integrado de dados heterogêneos

fontes para a análise das ligações entre 18.002 54.590

específicas pessoa artigos de domínio Wikipédia. Nossos resultados

incluem indicações de que as propriedades tais como o grau nó

distribuição são comparáveis ​​a Wikipedia inteira, enquanto

outros, como a reciprocidade de ligações parecem diferentes. o

ligações observados tendem a cobrir TimeSpans comparáveis ​​para uma

vida humana, e são mais propensos a apontar para o

passado do que vice-versa. Ao remover as ligações que cobrem mais

de 75 anos, que visualmente identificados aglomerados artigo

com propriedades temporais e culturais interessantes.

Agradecimentos

Este trabalho foi financiado pela FWF austríaco da ciência

Fundo, Projeto No. L602, The Virtual 3D social

Experiência Museum

Referências

[1] P. D. Clough, N. Ireson, e J. Marlow. Estendendo

recursos específicos de domínio para permitir o acesso a semântica

dados património cultural. Jodi 10, 6 (2009).

[2] J. Kamps e M. Koolen. É o link estrutura Wikipedia

diferente? Em Proc. WSDM, ACM (2009), 232-241.

[3] D. Milne, O. Medelyan, e I. H. Witten. Mineração

thesauri específica de domínio da Wikipedia: Um estudo de caso.

Em Proc. WI, IEEE CS (2006), 442-448.

[4] J. L. e Oomen Aroyo. No Crowdsourcing

domínio do património cultural: oportunidades e desafios.

Em Proc. C & T, ACM (2011), 138-149.

[5] A. G. e Popescu Grefenstette. Spatiotemporal

mapeamento de conceitos Wikipédia. Em Proc. JCDL, ACM

(2010), 129-138.

 

[6] J. Voss. Medindo Wikipedia. Em Pro