História da Arte na Wikipédia, uma observação macroscópica |
Fonte: http://arxiv.org/ftp/arxiv/papers/1304/1304.5629.pdf
resumo
Como são artigos sobre arte atores históricos interligados
dentro da Wikipédia? Levar por esta questão, buscamos uma
visão geral sobre a estrutura de ligação de um domínio específico
subconjunto de artigos da Wikipédia. Nós usamos uma estabelecido
autoridade nome da pessoa de domínio específico, a Getty
União Lista de Artist Names (ULAN), a fim de
identificar externamente atores relevantes. Além de conter
dados biográficos pessoa consistentes, esta base de dados também
fornece relações associativas entre a sua pessoa
registros, servindo como uma estrutura de links de referência para
comparação. Como um primeiro passo, usamos mapeamentos entre
a ULAN e Inglês DBpedia fornecido pelo Virtual
Arquivo Autoridade Internet (VIAF). Desta forma, somos capazes de
identificar 18,002 artigos pessoa relevante. Examinando o
estrutura de ligação entre estes recursos revela
visão interessante sobre a estrutura de alto nível da arte
conhecimento histórico como está representado na Wikipedia.
Introdução
Embora a estrutura de Wikipedia como um todo tem sido
extensivamente estudadas, observações mais focadas de
subconjuntos específicos de domínio de seu conteúdo são muitas vezes limitadas
qualitativas comparações em nível individual do artigo,
ou na extracção / análise de categoria subjacente
esquemas ou taxonomias. Com uma multidão em crescimento activo
participa do projeto Wikipédia, a quantidade de
artigos vinculados a domínios de conhecimento específico atingiu
uma medida em que torna viável para observar sua largescale
estrutura dentro das fronteiras de domínio definidos.
Considerando-se o domínio do Património Cultural, um número
de instituições estão cada vez mais conscientes de
Wikipedia como uma ferramenta valiosa para fornecer contexto para
artefatos de museu [4]. De fato, o número de história da arte
recursos relacionados sobre Wikipedia é impressionante, por exemplo,
procurando apenas recursos distintos pertencentes à
categoria yago: Painter1103916531 já retorna
14.138 artigos a partir de fevereiro de 2012. Há,
no entanto, os lotes de diferentes tipos de artigos da Wikipédia
lidar com a história da arte. Existem artigos sobre
obras de arte famosas (por exemplo, Mona Lisa), cerca de estilos artísticos
(por exemplo, Renascença), sobre os museus (por exemplo, Louvre) ou
sobre arte atores históricos (por exemplo, Leonardo da Vinci).
Especialmente artigos deste último tipo são adequados para um
em larga escala de observação estrutural, como biografias de arte
história as pessoas relacionadas são altamente interligados devido à
estudante / professor, artista / patrono ou relações influentes.
Neste estudo, portanto, incidir sobre os artigos da Wikipédia
sobre a história da arte relacionada pessoas. Eu quero examinar
como eles são ligados uns aos outros e se houver
propriedades estruturais interessantes ou agrupamentos de inter-
1 http://www.mpi-inf.mpg.de/yago-naga/yago/
ligações do artigo, como se eles refletem atributos comuns.
Como primeiro passo, queremos abordar a análise por
usando técnicas de visualização.
Mas quem são arte atores históricos? Embora possa ser clara
que uma proporção significativa são (grupos de artistas como)
pintores, escultores, arquitetos etc., há também muitos
outras pessoas que têm desempenhado papéis importantes na
domínio, como estudiosos importantes, coletores, patronos,
políticos ou monarcas. Esta variedade de pessoa diferente
papéis torna difícil identificar as pessoas relevantes. Nós
portanto, fazer uso de uma externa bem estabelecida
controle de autoridade, a Getty União Lista de nomes Artista
(ULAN) 2
, A fim de encontrar a história da arte pessoa relacionada
biografias em artigos da Wikipédia sobre extraídos DBpedia.
Além de apoiar a identificação, esse vocabulário também
oferece atributos consistentes biográficos, tais como
nascimento / falecimento data, papel ou nacionalidade, o que não é
sempre o caso com DBpedia [1]. Além disso, o ULAN
fornece relações associativas entre a sua pessoa
registos, que servem como referência para comparação com
o inter-artigo ligações entre artigos da Wikipédia.
Nós fazemos uso de outra autoridade, a Internet Virtual
Autoridade Arquivo (VIAF) 3
, Para o mapeamento ULAN registra a
Recursos DBpedia. Em fevereiro de 2012, existem
18.002 desses mapeamentos no VIAF. Desde que nós usamos o
Resource Description Framework (RDF) para o mapeamento
entre ULAN, VIAF e DBpedia, este projeto também
serve como um exemplo de Web Semântica como
tecnologias pode ser eficazmente utilizado para combinar
diferentes fontes de dados, melhorando a qualidade do
corpus dados e levando a resultados interessantes.
Trabalho relatado
A estrutura em grande escala de Wikipedia tem sido
descrito em [6], salientando que Wikipedia interarticle
ligações formar uma rede livre de escala. Um estudo incidiu
na Wikipedia estrutura de links é apresentada em [2]. o
adequação da Wikipedia para domain-specific derivando
dicionários é demonstrado em [3] por comparação da sua
cobertura com um tesauro profissional no domínio de
agricultura. Em [5], pessoa relacionada com artigos da Wikipédia são
analisada para a filosofia e os domínios literatura,
com artigos escolhidos pela ocupação das pessoas. o
dados recolhidos são usados para mostrar para os dois
domínios que países / cidades foram importantes
Centros durante os séculos. Uma comparação entre
ULAN DBpedia e é apresentado em [1]. Os autores
foram capazes de corresponder 14,972 recursos DBpedia ao seu
Ulan homólogos. Quanto à cobertura de DBpedia
atributos biográficos, eles foram capazes de identificar 8077
(53,95%) atributos do tipo data de nascimento, 9.628 (64,31%)
Tipo de nacionalidade e 5.442 (36,35%) do tipo de função.
Esses achados nos encorajou a contar com a ULAN como
fonte para biográfica atributos para a análise do
estrutura de links dos artigos da Wikipédia observados.
Setup Sytem
Usamos RDF como formato de dados, como é o formato nativo do
o conjunto de dados DBpedia, o que representa o modelo de dados núcleo
subjacente à Visão Web Semântica. Como DBpedia, nós
usar Openlink Virtuoso4 como plataforma de armazenamento. Usando uma ferramenta
fornecida pelo projeto MultimediaN N9C Eculture5, nós
primeiro convertido o conjunto de dados ULAN para RDF. Como o ULAN
identificadores são agora completamente integrado VIAF,
fomos capazes de recuperar os dados VIAF RDF para cada um dos
4 http://virtuoso.openlinksw.com
5 http://e-culture.multimedian.nl
os registros Ulan. Usando os mapeamentos fornecidos, nós
o download dos conjuntos de dados RDF 18,002 do público
Endpoint Inglês DBpedia SPARQL. Como este endpoint
Atualmente não fornece as ligações internas Wikipédia,
baixamos o link completo reserva wiki interno
do site da DBpedia. Foram extraídos todos relevantes
links wiki entre os 18,002 entidades e carregaram-
em nossa loja triplo.
Um primeiro olhar para os dados
Depois de reunir todas as fontes de dados necessárias, tivemos
um primeiro olhar para a estrutura resultante fazendo uma
visualização utilizando a Plataforma Gephi6. A Figura 1 mostra
um layout baseado força da rede de todos os 18.002
Recursos DBpedia e seus 54.590 ligações mútuas,
onde o tamanho de um nó de reflectir o seu grau (in & out). O blob
no centro sugere a existência de um gigante
componente ligado. De facto, o tratamento de todas as ligações quanto
rendimentos sem direção diferente fracamente ligados 4187
componentes (CC), com um componente gigante - coloridos
verde na Fig. 1 - que consiste em 75,44% (~ 13.581) de todos
artigos, sendo o restante distribuído entre o restante
4.186 CCs cujos tamanhos variam entre 0,06% (~ 11)
e artigos desconexos de solteiro. Tratar todos os links como
rendimentos dirigidos 10.071 componentes fortemente conectados
(SCC), com um SCC gigante que consiste em 40,55% (~ 7300)
de todos os artigos, os restantes 10,070 contando CCEs
entre 0,05% (~ 9) e individuais artigos desconexos.
Olhando para a distribuição grau nó, a ligação
estrutura do subconjunto seleccionado de artigos mostra claramente
uma distribuição de lei de potência, uma vez que tem sido identificada com
Wikipedia em geral [6] - ver Fig. 2. Observando o
distribuição de nó dentro e fora grau, encontramos
valores comparáveis tal como em [2].
Temporal Pessoa Pessoa-Link Properties
A visualização da rede na Fig. 1 não é muito
expressivo, como o componente gigante conectado visualmente
se assemelha a um não-estruturados, mas altamente conectado "blob"
de nodos. Portanto, consideramos um olhar mais atento ao
propriedades da ligação, que têm uma certa suposição em mente: Como
observa-se apenas os artigos pessoa, podemos esperar que o seu
ligações mútuas de suportar fortes características temporais,
ou seja, o período de tempo que uma ligação cobre varia de zero
anos até milênios para pessoas referenciar pessoas
a partir, por exemplo, a Grécia antiga. Nós aproximar a
intervalo para cada link de pessoa-pessoa pela diferença
entre suas datas de nascimento, tal como previsto pela ULAN. Figo.
3 mostra a distribuição da ligação de uma cadeia linear TimeSpans
escala para todas as 54.590 ligações Wiki comparado a todos os
9.406 ligações Ulan para o mesmo subconjunto. O que vem à
atenção em primeiro lugar é que o número de 'links' "curta"
cobrindo 0-37.5 anos supera claramente a soma de
todos os outros (DBpedia: 75,3%, ULAN: 81,2%). Isso pode
ser interpretada como tal, que os contemporâneos são muito
mais susceptíveis de serem interligadas de pessoas que se encontram
gerações de distância. Medimos a distância em relação
ambas as direções possíveis: para o futuro e para a
passado. Isso revela uma diferença interessante entre o
vínculos associativos de ULAN e os da Wikipedia:
Enquanto ligações Ulan são altamente recíproca, ou seja, por quase
Cada elo de pessoa A para B, há também uma de B
a A, este não é o caso em DBpedia, onde duas vezes mais
muitos links apontam para o passado (66,8%) do que no
futuro (33,2%). Dos 54.590 ligações Wiki, 15606
(28,59%) são espelhados e os restantes 38.984 são
'' único ''. Do ponto de vista histórico, isso parece bastante
lógico, como os artistas podem sempre extrair influências de
as gerações anteriores, que são, por natureza assimétrica.
Do ponto de vista enciclopédico, no entanto, isso não é
o caso: Enquanto as diretrizes editoriais para a Getty
inclusão de relações associativas em ULAN7 (capítulo
3.5.2.3.1) afirmam claramente que cada ligação tem de ser
espelhado, este não é o caso com a ligação Wikipedia
guidelines8 estilo
. No entanto, a quantidade observada de
ligações espelhado Wiki ainda difere significativamente [2],
relatando cerca de 8,7% as ligações recíprocas para uma muito maior
subconjunto cross-domain de Wikipedia. Isso, no entanto, poder
provavelmente relacionado com o nosso conjunto de domínio específico de pessoa
artigos. Outra diferença entre ULAN e DBpedia
links é que este último não abrangem geralmente muito maior
TimeSpans do que o anterior - ver Fig. 4 com ligação
distâncias plotados contra uma escala logarítmica. Isso também pode ser
explicou através das diretrizes editoriais Ulan
(capítulo 3.5.1.4), afirmando que '' Relações deve ser
feita apenas entre os registros que estão diretamente relacionados ''.
Refinando a Visualization
As propriedades temporais das ligações indicam DBpedia
para que possamos ver mais estrutura na visualização por
ligações omitindo que se estendem além de um certo tempo
intervalo. À medida que usar um algoritmo baseado em vigor para o
layout, esperamos que a estrutura de links nó para "desenrolar"
em, aproximadamente, uma sequência cronológica. Figo. 5
mostra o resultado da aplicação do mesmo algoritmo disposição
como para a Fig. 1, mas sem ligações cujas extremidades são
mais de 75 anos de diferença. Nós escolhemos esta distância, como
89,13% de todas as ligações DBpedia são "mais curto" (ULAN:
98,87%) e é mais ou menos adequados para separar
contemporâneo de relações inter-geracionais.
O layout resultante tem agora um alinhamento cronológica,
que representa o fluxo da história da arte do
Renaissance (à esquerda) até hoje (à direita), com base exclusivamente no
as relações entre os seus inúmeros atores históricos.
Colorir os nós de acordo com cada pessoa de
nacionalidade, tal como previsto pela ULAN, revela
padrões interessantes de interação cultural dentro do
rede, como eles são percebidos pela língua Inglês
Wikipedia comunidade: O lado esquerdo da Fig. 5 é
dominada por italianos (verde). Este cluster spans
Renascimento e Barroco vezes, desaparecendo até o final
do século 17. Um pequeno grupo na parte inferior esquerda
representa renascentista alemão Albrecht redor
Duerer (preto). Mais à direita, um grupo de holandeses
Renascimento e Barroco (laranja) pessoas marca a
começando de um desenvolvimento interessante. Dois distintos
grupos de britânicos (ciano) e francês (vermelho) históricos
atores dominar o centro da cidade, até que os americanos (azul)
uni-los em um caldeirão grande em torno do final dos anos 19
século. A parte mais à direita representa Pós-Modernista
Americanos, com um conjunto independente de nacionalidade
Arquitetos abaixo.
Discussão e Trabalho Futuro
Ao visualizar o reduzido conjunto de link, fomos capazes de
identificar características estruturais do artigo inter-
links. Existem grupos de artigos de link com base que
representam a nacionalidade das pessoas e respectivos
possuem fortes características temporais, que representam
arte períodos históricos e nas escolas. A completa
discussão destas observações é, no entanto, deixou de
futuro trabalho. Como nós limitamos nossa observação para
Inglês DBpedia e usou uma principalmente anglo-americana
arquivo de autoridade para a identificação dos artigos, esperamos
para obter resultados diferentes para a utilização de autoridades
origem diferente e para outras versões linguísticas
DBpedia. Comparando-se os resultados poderiam revelar diferenças
na percepção cultural entre os diferentes Wikipedia
comunidades. Além disso, seria interessante
aplicar o método descrito para outros domínios.
Conclusão
Temos efetivamente integrado de dados heterogêneos
fontes para a análise das ligações entre 18.002 54.590
específicas pessoa artigos de domínio Wikipédia. Nossos resultados
incluem indicações de que as propriedades tais como o grau nó
distribuição são comparáveis a Wikipedia inteira, enquanto
outros, como a reciprocidade de ligações parecem diferentes. o
ligações observados tendem a cobrir TimeSpans comparáveis para uma
vida humana, e são mais propensos a apontar para o
passado do que vice-versa. Ao remover as ligações que cobrem mais
de 75 anos, que visualmente identificados aglomerados artigo
com propriedades temporais e culturais interessantes.
Agradecimentos
Este trabalho foi financiado pela FWF austríaco da ciência
Fundo, Projeto No. L602, The Virtual 3D social
Experiência Museum
Referências
[1] P. D. Clough, N. Ireson, e J. Marlow. Estendendo
recursos específicos de domínio para permitir o acesso a semântica
dados património cultural. Jodi 10, 6 (2009).
[2] J. Kamps e M. Koolen. É o link estrutura Wikipedia
diferente? Em Proc. WSDM, ACM (2009), 232-241.
[3] D. Milne, O. Medelyan, e I. H. Witten. Mineração
thesauri específica de domínio da Wikipedia: Um estudo de caso.
Em Proc. WI, IEEE CS (2006), 442-448.
[4] J. L. e Oomen Aroyo. No Crowdsourcing
domínio do património cultural: oportunidades e desafios.
Em Proc. C & T, ACM (2011), 138-149.
[5] A. G. e Popescu Grefenstette. Spatiotemporal
mapeamento de conceitos Wikipédia. Em Proc. JCDL, ACM
(2010), 129-138.
[6] J. Voss. Medindo Wikipedia. Em Pro