Corpus Histórico do Português Tycho Brahe

Citação »

Galves, Charlotte; Andrade, Aroldo Leal de; and Faria, Pablo (2017, December). Tycho Brahe Parsed Corpus of Historical Portuguese. URL: texts/psd.zip.

Apresentação »

O Corpus Histórico do Português Tycho Brahe é um corpus eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1978.

Atualmente, 88 textos ( 3.544.628 palavras) estão disponíveis para pesquisa livre, com um sistema de anotação linguística em duas etapas: anotação morfológica (aplicada em 58 textos, num total de 2.280.819 palavras); e anotação sintática (aplicada em 27 textos, num total de 1.234.323 palavras).

O Corpus tem sido desenvolvido no âmbito dos projetos temáticos:


Agradecimentos »

Agradecemos às seguintes instituições e pessoas:

  • Fundação de Amparo à Pesquisa do Estado de São Paulo, FAPESP 04/03643-0.
  • CNPq, projeto 485999/2007-2, "Padrões rítmicos, domínios prosódicos e modelagem probabilística em corpora do português".
  • Anthony Kroch e Beatrice Santorini, pela inspiração e o apoio permanente.
  • Fábio Kepler, por nos permitir utilizar seu etiquetador morfológico em nosso trabalho.
  • Dan Bikel, por nos permitir utilizar seu analisador sintático em nosso trabalho.
Outros corpora »

Para uma correta visualização, certifique-se de que seu navegador web esteja com a codificação selecionada para UTF-8.