Como comparar um milhão de imagens?

Assim que novas revistas de mangá são publicadas no Japão, os fãs de compram-nas, digitalizam as páginas, traduzem o texto em outros idiomas, e distribuem imagens digitais das páginas traduzidas em sites. No processo, eles também inserem páginas adicionais (créditos de grupo, comentários e fan art original). Este processo é referido como “scanlation” (algo como escanização). Até julho de 2010, o arquivo on-line mais popular de “scanlations” foi OneManga.com. (Ele também foi um dos sites mais visitados em geral – 300 em os EUA, e no top 20 em Singapura e na Malásia).

No Outono de 2009,a equipe de pesquisadores composta por Jeremy Douglass, William Huber e Lev Manovich baixou 883 séries de mangá contendo 1.074.790 páginas exclusivas a partir deste site. Em seguida, usaram um sistema de software personalizado executado em um supercomputador pelo Departamento Nacional de Centro de Pesquisa de Energia (NERSC) para analisar características visuais destas páginas (financiados pelo Humanities High Performance Award from NEH Digital Humanities Office).

O resultado foi a visualização abaixo, que mostra o conjunto de dados completo – 1 milhão de páginas Manga organizadas de acordo com suas características visuais. As páginas na parte inferior da visualização são as mais gráficas (que têm a menor quantidade de detalhe). As páginas na parte superior direita têm muitos detalhes e texturas. As páginas com o maior contraste estão à direita, enquanto as páginas com o mínimo de contraste estão à esquerda. Entre esses quatro extremos, encontramos cada possível variação estilística.

Algumas das páginas – como todas as capas – estão coloridas. A fim de ser capaz de atender todas as páginas para a maior imagem possível que o software poderia processar e salvar, a renderização da visualização foi feita em escalas de cinza. Já que as páginas foram renderizadas uma por cima das outras, você não pode ver realmente um milhão de páginas distintas – a visualização mostra uma distribuição de todas as páginas com exemplos típicos que aparecem na parte superior.

Essa visualização sugere que o próprio conceito de estilo , como é normalmente empregado, começa a tornar-se complicado quando analisamos grandes conjuntos de dados culturais. O conceito assume que podemos dividir um conjunto de obras em um pequeno número de categorias discretas. No entanto, se encontrarmos um número muito grande de variações com diferenças muito pequenas entre elas (como neste caso de 1 milhão de páginas de mangá ) , já não é possível falar de “estilo” dessas obras. É mais viável usar a visualização e / ou modelos matemáticos para descrever o espaço de possíveis variações. Seguindo esta lógica, seria mesmo possível comparar um milhão de páginas? Ou essa comparação seria apenas uma distorção gráfica de números e uma análise dos mesmos?