Corpus Histórico do Português Tycho Brahe

Sistema de Versões Dinâmicas:
Resumo

1. Tipos de Texto-Fonte e Tipos de Edição

O tipo de edição aplicada aos textos depende antes de tudo da natureza do texto utilizado como fonte para a digitalização.

1.1 Texto-Fonte com grafia preservada
       (originais impressos e transcrições diplomáticas):
       Edição Completa

Nos casos em que o texto-fonte tinha a grafia preservada, surge a necessidade de modernizar a grafia, para melhor funcionamento das ferramentas automáticas de anotação lingüística.

Esta modernização de grafia é o que chamamos aqui de Edição Completa; ela segue as diretrizes detalhadas no [Manual].

1.2 Texto-Fonte com grafia modernizada
        (edições intermediárias, usadas na Fase I) :
        Edição Técnica

Nos casos em que o texto-fonte já consistia em uma edição modernizada de terceiros, não havia a necessidade de modernizar a grafia no modelo acima. Entretanto, alguns itens de difícil processamento computacional precisaram ser modificados, para melhor funcionamento das ferramentas automáticas de anotação lingüística.

Esta modificação pontual é o que chamamos aqui de Edição Técnica; ela segue as diretrizes detalhadas no [Manual].

1.3 Casos Especiais

Em alguns dos documentos transcritos a partir de textos-fonte sem modernização de grafia, apenas a edição técnica foi aplicada. São casos de documentos incluidos no Corpus na primeira fase de sua construção (1998-2003), período em que o sistema de edições pela equipe técnica não incluia a modernização completa.

Nestes casos, a modernização completa será aplicada progressivamente, privlilegiando os textos que ainda não passaram pelo processo de anotação lingüística automática.

Para ver a lista de textos e seu nível de edição, por favor vá ao Catálogo.

2. Versões Disponíveis

As seguintes versões estão disponíveis:

2.1 Versão Transcrição do Texto-Fonte

Mostra a transcrição fidedigna em relação ao texto tomado como fonte (seguindo portanto sua grafia: a grafia original dos originais impressos; ou a grafia modernizada pelo editor anterior).

2.2 Versão Texto Editado

Mostra o texto com as interferências realizadas pela equipe do corpus (modernizações completas ou modificações técnicas, conforme o caso).

Dois tipos de arquivos estão disponíveis nesses casos:

  • arquivos .html para leitura
  • arquivos .txt sem formatação, para uso das ferramentas automáticas e busca de dados
2.3 Versão Glossário de Edições

Mostra uma lista das intervenções realizadas pela equipe do corpus, seja no caso de edições completas ou técnicas.

 

3. Informações Gerais

Os textos do corpus estão arquivados no formato xml (em /~tycho/corpus/texts/xml). Cada texto está ligado a uma folha XSL (/~tycho/corpus/xslt/catalog_files_2006.xsl) que configura a apresentação da ficha catalográfica.

Nesses arquivos, por sobre a transcrição dos originais, estão anotados a estrutura textual (paragrafação, paginaçÃo, etc) e as interferências de edição (modernizações e adaptações).

Estas interferências podem ser vistas em diferentes versões de cada arquivo, que são ativadas pela programação getversion.pl, por meio das seguintes folhas xsl:

  • origversion.xsl: configura a apresentação de Transcrição do Texto-Fonte, .html
  • edversion.xsl: configura a apresentação de Texto Editado, .html
  • plain.xsl: configura a apresentação de Texto Editado, .txt
  • varietylex.xsl: configura a apresentação de Glossário de Edições, .html

Estas versões geradas on-line não ficam armazenadas no servidor.
Uma exceção é a versão Texto Editado, .txt; neste caso, um backup dos arquivos relativos a cada texto estão está aqui.

Para uma correta visualização, certifique-se de que seu navegador web esteja com a codificação selecionada para UTF-8.