Projeto temático: Padrões rítmicos, fixação de
parâmetros e mudança linguística
2º Relatório
1999-2000
Fonologia e Modelagem Matemática
No final do segundo ano de vigência do projeto, o
Corpus Tycho Brahe se encontra com 22 textos ortograficamente transcritos, num
total de 1.003.772 palavras.
Desses textos, 10 já estão com a etiquetagem
morfológica corrigida.
Segue em anexo a lista dos arquivos disponíveis no site (cf. www.ime.usp.br/~tycho/corpus)
A atual versão do etiquetador morfológico automático tem um
desempenho muito mais satisfatório do que a primeira, passando de 78,28 % de
acerto para 95,45% (cf. o artigo de Marcelo Finger, em anexo). Mesmo assim, a
tarefa de correção manual ainda ocupa um longo tempo. Temos agora a nossa
disposição uma ferramenta automática de correção, elaborada por Anthony
Kroch e sua equipe no âmbito do Penn-Helsinki Corpus of Middle English
Project, rodando em Linux, que foi adaptada ao sistema de etiquetagem do nosso
corpus por Anthony Kroch na ocasião da sua visita em agosto passado (cf.
Seção II.5). Além de tornar o trabalho mais rápido, permite evitar erros
na digitação das novas etiquetas, uma vez que isso é feito automaticamente.
Este ano, enfrentamos o problema complexo da ortografia não
modernizada de certos textos. Como descrito pela bolsista Tais Menegatti (cf.
Anexo V), tivemos que fazer um levantamento das variantes ortográficas em
cada texto, para incluir essas informações no refinador do etiquetador. O
trabalho ainda está em andamento, mas já conseguimos resolver todos os casos
sistemáticos como as consoantes redobradas, a grafia ae em lugar de ai, as
grafias ph, th, a colocação do til no o em lugar do a. Outros casos são
mais difíceis por ocorrerem de maneira mais isolada, ou serem ambíguos (como
a grafia ão que pode ser do futuro ou do passado em verbos cujo radica
termina por r). A solução computacional para esses problemas interessa
certamente todos os pesquisadores envolvidos em elaboração de corpora
históricos anotados. Além disso, constitui um trabalho relevante também
para o estudo da história da ortografia em português.
O outro aspecto fundamental do trabalho deste ano foi a construção do analisador sintático automático (parser). No Anexo II, Helena Britto descreve o trabalho que vem realizando na adaptação ao português da ferramenta usada no projeto do Corpus do inglês médio coordenado por Anthony Kroch. Dois momentos foram importantes para a discussão da elaboração dessa ferramenta. O primeiro foi o encontro de Lisboa (cf. Seção II.3), onde tivemos a oportunidade de interagir longamente com a equipe de linguistas portugueses trabalhando no Projeto CordialSin (Corpus Dialetal Sintático do português europeu) coordenado por Ana Maria Martins (cf. abaixo), e também com Eckard Bick, autor de um analisador sintático para o português brasileiro baseado em regras. O segundo foi a visita de Anthony Kroch em agosto, quando foram tomadas as decisões que constam do manual em anexo (cf. também o Anexo II.). Para a anotação sintática manual dos textos, contamos agora com uma ferramenta trazida por Anthony Kroch. O primeiro texto de 50 000 palavras a receber essa anotação manual é o de Matias Aires, a partir do que submeteremos os dados o analisador do projeto Penn-Helsinki, como base à elaboração, por Marcelo Finger, do analisador para o português.
O corpus já está sendo tomado como fonte de dados para análises da história do português europeu no âmbito do projeto (cf. Seção I.2). Temos recebido também muitos pedidos de senha para acesso ao corpus por parte de pesquisadores tanto do Brasil quanto do exterior (cf. Anexo VI.), mostrando que já constitui uma ferramenta de trabalho para muitos estudiosos do português.
Ressalta-se também a orientação dada ao projeto português CordialSin de Ana Maria Martins. Em janeiro de 2000, uma bolsista do projeto, Ernestina Carrilho, fez um estágio de 15 dias com nossa equipe para aprender a usar o etiquetador do corpus Tycho Brahe, que passou a ser usado na anotação do corpus do projeto CordialSin.
No terceiro ano do projeto, serão as seguintes as prioridades do projeto:
- a construção do analisador sintático, a cargo da pós-doutoranda Helena Britto para a parte linguística e de Marcelo Finger para a parte computacional.
- a correção dos 10 arquivos etiquetados restantes, a cargo de Charlotte Galves e da mestranda Maria Clara Paixão. Note-se que a partir do momento em que o analisador for disponível, a correção será feita numa só etapa, depois dos arquivos terem sido submetidos aos dois anotadores automáticos.
- a inclusão de mais 10 textos no Corpus, privilegiando os períodos menos representados como a segunda metade do séc.17, a segunda metade do séc.18, e séc. 19. Note-se que no que diz respeito aos dois primeiros, encontramos uma certa dificuldade em achar edições não originais que sejam comprovadamente confiáveis. O trabalho com edições originais implica um trabalho de edição que não estava previsto originalmente no projeto, mas que talvez tenhamos que enfrentar. É o caso por exemplo com o texto de Manuel Galhegos, previsto para este ano mas que acabamos deixando de lado por priorizarmos outras tarefas. O trabalho de preparação dos textos, desde o scaneamento até a rodagem do tagger e a inserção do arquivo na ferramenta de correção, passando pela instalação do texto ortograficamente transcrito no site será a cargo das bolsistas de TT Tais Menegatti e Vanessa Vinha.
Projeto temático: Padrões rítmicos,
fixação de parâmetros e mudança linguística
2º Relatório
No final do segundo ano de vigência do projeto, o
Corpus Tycho Brahe se encontra com 22 textos ortograficamente transcritos, num
total de 1.003.772 palavras.
Desses textos, 10 já estão com a etiquetagem
morfológica corrigida.
Segue em anexo a lista dos arquivos disponíveis no site (cf. www.ime.usp.br/~tycho/corpus)
A atual versão do etiquetador morfológico automático tem um
desempenho muito mais satisfatório do que a primeira, passando de 78,28 % de
acerto para 95,45% (cf. o artigo de Marcelo Finger, em anexo). Mesmo assim, a
tarefa de correção manual ainda ocupa um longo tempo. Temos agora a nossa
disposição uma ferramenta automática de correção, elaborada por Anthony
Kroch e sua equipe no âmbito do Penn-Helsinki Corpus of Middle English
Project, rodando em Linux, que foi adaptada ao sistema de etiquetagem do nosso
corpus por Anthony Kroch na ocasião da sua visita em agosto passado (cf.
Seção II.5). Além de tornar o trabalho mais rápido, permite evitar erros
na digitação das novas etiquetas, uma vez que isso é feito automaticamente.
Este ano, enfrentamos o problema complexo da ortografia não
modernizada de certos textos. Como descrito pela bolsista Tais Menegatti (cf.
Anexo V), tivemos que fazer um levantamento das variantes ortográficas em
cada texto, para incluir essas informações no refinador do etiquetador. O
trabalho ainda está em andamento, mas já conseguimos resolver todos os casos
sistemáticos como as consoantes redobradas, a grafia ae em lugar de ai, as
grafias ph, th, a colocação do til no o em lugar do a. Outros casos são
mais difíceis por ocorrerem de maneira mais isolada, ou serem ambíguos (como
a grafia ão que pode ser do futuro ou do passado em verbos cujo radica
termina por r). A solução computacional para esses problemas interessa
certamente todos os pesquisadores envolvidos em elaboração de corpora
históricos anotados. Além disso, constitui um trabalho relevante também
para o estudo da história da ortografia em português.
O outro aspecto fundamental do trabalho deste ano foi a construção do analisador sintático automático (parser). No Anexo II, Helena Britto descreve o trabalho que vem realizando na adaptação ao português da ferramenta usada no projeto do Corpus do inglês médio coordenado por Anthony Kroch. Dois momentos foram importantes para a discussão da elaboração dessa ferramenta. O primeiro foi o encontro de Lisboa (cf. Seção II.3), onde tivemos a oportunidade de interagir longamente com a equipe de linguistas portugueses trabalhando no Projeto CordialSin (Corpus Dialetal Sintático do português europeu) coordenado por Ana Maria Martins (cf. abaixo), e também com Eckard Bick, autor de um analisador sintático para o português brasileiro baseado em regras. O segundo foi a visita de Anthony Kroch em agosto, quando foram tomadas as decisões que constam do manual em anexo (cf. também o Anexo II.). Para a anotação sintática manual dos textos, contamos agora com uma ferramenta trazida por Anthony Kroch. O primeiro texto de 50 000 palavras a receber essa anotação manual é o de Matias Aires, a partir do que submeteremos os dados o analisador do projeto Penn-Helsinki, como base à elaboração, por Marcelo Finger, do analisador para o português.
O corpus já está sendo tomado como fonte de dados para análises da história do português europeu no âmbito do projeto (cf. Seção I.2). Temos recebido também muitos pedidos de senha para acesso ao corpus por parte de pesquisadores tanto do Brasil quanto do exterior (cf. Anexo VI.), mostrando que já constitui uma ferramenta de trabalho para muitos estudiosos do português.
Ressalta-se também a orientação dada ao projeto português CordialSin de Ana Maria Martins. Em janeiro de 2000, uma bolsista do projeto, Ernestina Carrilho, fez um estágio de 15 dias com nossa equipe para aprender a usar o etiquetador do corpus Tycho Brahe, que passou a ser usado na anotação do corpus do projeto CordialSin.
No terceiro ano do projeto, serão as seguintes as prioridades do projeto:
- a construção do analisador sintático, a cargo da pós-doutoranda Helena Britto para a parte linguística e de Marcelo Finger para a parte computacional.
- a correção dos 10 arquivos etiquetados restantes, a cargo de Charlotte Galves e da mestranda Maria Clara Paixão. Note-se que a partir do momento em que o analisador for disponível, a correção será feita numa só etapa, depois dos arquivos terem sido submetidos aos dois anotadores automáticos.
- a inclusão de mais 10 textos no Corpus, privilegiando os períodos menos representados como a segunda metade do séc.17, a segunda metade do séc.18, e séc. 19. Note-se que no que diz respeito aos dois primeiros, encontramos uma certa dificuldade em achar edições não originais que sejam comprovadamente confiáveis. O trabalho com edições originais implica um trabalho de edição que não estava previsto originalmente no projeto, mas que talvez tenhamos que enfrentar. É o caso por exemplo com o texto de Manuel Galhegos, previsto para este ano mas que acabamos deixando de lado por priorizarmos outras tarefas. O trabalho de preparação dos textos, desde o scaneamento até a rodagem do tagger e a inserção do arquivo na ferramenta de correção, passando pela instalação do texto ortograficamente transcrito no site será a cargo das bolsistas de TT Tais Menegatti e Vanessa Vinha.
Projeto
temático: Padrões rítmicos, fixação de parâmetros e mudança
linguística
2º Relatório
Descrição e análise dos padrões prosódicos do
Português Europeu e Brasileiro
Na sequência dos trabalhos do primeiro ano do projeto, a descrição e análise dos padrões prosódicos do Português Europeu e Brasileiro se organizou em torno dos seguintes temas:
-
a classificação rítmica do PE e do PB
-
a análise contrastiva dos padrões prosódicos do PE e do PB no quadro
da teoria da otimalidade, com o auxílio da ferramenta computacional Sotaq
-
a análise da entoação no PB
A maior preocupação do período foi a obtenção de dados confiáveis que pudessem ser submetidos a análises estatísticas e constituirem a base de modelagens satisfatórias. Os trabalhos de iniciação científica das alunas Flaviane Fernandes e Janaísa Viscardi (cf. anexos I e II ) foram concebidos para atender essa necessidade básica do projeto. A constituição do corpus fonético e sua análise estão sendo coordenados por Antonio Galves.
Esses dados constituem um prerequisito essencial tanto para a discussão da classificação rítmica do PE e do PB no quadro da análise de Ramus quanto para a formalização dos padrões prosódicos na teoria da Otimalidade. A localização do português brasileiro e europeu no espaço das línguas definido por Ramus é uma tarefa complexa como mostram os trabalhos de Duarte (anexo III) e de Frota e Vigário (anexo IV). A interação permanente entre os linguistas encarregados das medições e os estatísticos é uma condição para o sucesso da pesquisa, e isso foi consolidado durante este período. Diversas reuniões foram organizadas : o terceiro workshop de dezembro (cf. Seção II.2), o encontro de Lisboa, e diversas reuniões ao longo do ano, além de uma comunicação permanente via correio eletrônico permitiram que começassemos a colher os primeiros resultados robustos desse longo trabalho de obtenção de dados.
O texto de Filomena Sandalo (anexo V.) mostra a importância desses dados também para a análise otimalista. Com uma ampliação das restrições inicialmente propostas por Abaurre e Galves (1998), e com o auxílio do programa Sotaq (cf. anexo VI e VII) para a avaliação das hipóteses, chegamos agora a uma formulação bastante satisfatória da diferença entre PB e PE (cf. Anexo V., p.5), que confirma, precisando-a, a hipótese inicial de Abaurre e Galves. Ressalta-se também nesse caso a importância da interação dos linguistas do projeto com Arnaldo Mandel, autor da versão atual de Sotaq, bem como da discussão do próprio Sotaq com matemáticos e estatísticos, como aconteceu no 3o workshop do projeto (cf. Seção II.2), e no Encontro de Lisboa (cf. Seção II.3).
O trabalho sobre a entoação do PB proposto no anexo V. nasceu da discussão, no workshop de Lisboa, dos dados obtidos em 1999 e analisados por Frota e Vigário (1999) – cf. também o relatório no 1 do projeto -. A partir desses dados, chegou-se à conclusão de que o domínio da entoação é a frase entoacional (IP) no PE e o sintagma fonológico (phi) no PB. O objetivo é aumentar o número de informantes e inserir os enunciados em contextos discursivos que permitam observar os efeitos da focalização, a fim de verificar se a conclusão da pesquisa se mantém uma vez que as variáveis informante e contexto discursivo são melhor controladas.
A partir de uma conjectura levantada no workshop de dezembro, começamos a trabalhar este ano sobre um dos objetivos mais ambiciosos do projeto: a determinação do ritmo subjacente aos textos escritos. O anexo VIII mostra os primeiros resultados de uma pesquisa realizada no quadro de uma iniciação científica orientada por Claudia Peixoto. Considerando a estrutura silábica das palavras dos textos e a localização dos seus acentos principais, observam-se diferenças sistemáticas e estatísticamente confiáveis na proporção de monosílabos não acentuados (PE>PB), da soma dos monosílabos acentuados, dos dissílabos e dos trissílabos (PB>PE), palavras oxítonas (PB>PE), distâncias curtas (0 e 1) entre acentos (PB>PE). O próximo passo é aplicar essa análise a textos históricos para verificar se se comportam de maneira esperada nas duas pontas do período contemplado, ou seja no início como o PB e no fim como o PE. Se essas medidas se revelam significativas, elas podem constituir um instrumento valioso de datação de mudança prosódica, e consequentemente de mudança sintática.
A modelagem de padrões prosódicos está na origem de um novo projeto reunindo linguistas e matemáticos, coordenado por Antonio Galves, pesquisador principal e coordenador de matemática do projeto: o Projeto TIPAL: Técnicas Probabilísticas de Identificação de Padrões, com Aplicação à Linguística (cf. Anexo VII). Esse projeto foi contemplado na Edital 2000 do CNPq, sendo o único projeto em matemática, estatística ou linguística, a ser aprovado na faixa A de financiamento, com 95 000 reais.
Projeto
temático: Padrões rítmicos, fixação de parâmetros e mudança
linguística
MODELAGEM
MATEMÁTICA
Os principais objetivos matemáticos no primeiro ano do Projeto foram:
a) modelar
matematicamente a relação entre sintaxe e fonologia, durante a aquisição
b) desenvolver ferramentas matemáticas, estatísticas e
computacionais para a identificação de padrões rítmicos em contornos
prosódicos.
Para tratar esses pontos no primeiro ano de atividade do
Projeto os seguintes artigos foram produzidos:
1)
BRESSAUD, X., R. FERNANDEZ, A.GALVES “Speed of d-convergence for Markov Approximations of Chains with
Complete Connections. A coupling approach”. Stochastic Processes and Applications,
no prelo.
2) BRESSAUD, X., R. FERNANDEZ, A.GALVES “Decay of
correlations for non-holderian dynamics. A coupling approach.” Electronic Journal of Probability, vol.4, paper 3: 1-19, 1999.
3)
CASSANDRO, M., P. COLLET, A. GALVES, C. GALVES
"A Statistical-Physics approach
to language acquisition and language change", Physica A, vol.
263, 1999, pp. 427-437.
4) COLLET,
P., A. GALVES, B. SCHMIDT “Lognormal versus exponential
approximation for repetition times of Gibbsian sources and their large
deviations”, 1999
5) FERNANDEZ, R. & A. GALVES “Identifying
features in the presence of competing evidence, the case of first language
acquisition”, submitted to World
Scientific.
6) FERNANDEZ, R., A. GALVES, C. PEIXOTO "Are
stress contours crystals?", versão
preliminar (15p.), 1999.
Além de seu interesse matemático intrínsico, os artigos 1,
2, 4 e 6 têm como motivação a obtenção de ferramentas para a modelagem
gibbsiana de contornos prosódicos que é uma das idéias básicas do Projeto.
Em particular o artigo 4 é uma etapa preliminar na construção de uma
ferramenta para medição em tempo real da entropia de uma fonte ergódica e,
em particular, de uma longa sequência de contornos prosódicos. A motivação
linguística dessa pesquisa é dada pelo artigo ``Maximum likelihod and
minimum entropy identification of grammars'', de Pierre Collet, Antonio Galves e Artur
Lopes, ( Random and Computational
Dynamics, vol.3, 241-256, 1995.)
Os artigos 3 e 5 retomam e desenvolvem o conjunto de questões
matemáticas sugeridas atualmente pelo Projeto.
Além desses artigos, foram feitas duas versões, uma preliminar feita por Pierre Collet
e Antonio Galves em linguagem C, e
uma segunda em linguagem Perl, por Arnaldo Mandel, de um programa para
calcular contornos acentuais de custo mínimo, dentro do modelo sugerido pelo
artigo 4, acima citado, e pelo artigo de M. B. Abaurre e C. Galves As diferenças rítmicas entre o português
europeu e brasileiro: uma abordagem otimalista e minimalista, ( D.E.L.T.A., vol.14, 377-423, 1998). Este programa está atualmente disponível na
página do Projeto.
No segundo ano do Projeto, além de continuar a pesquisa sobre as questões formuladas em a) e b), teremos que trabalhar em :
c) classificação automática dos dados, em algoritmos
estocásticos, tendo em vista, em particular, a elaboração de um analisador
sintático para o Corpus Tycho Brahe;
d) descrição
estatística dos dados sintáticos já disponíveis no Corpus Tycho Brahe.
Uma reflexão preliminar na direção de c) encontra-se no
projeto Classification and decision schemes based on probabilistic techniques
escrito por Roberto Fernandéz e Antonio Galves, cujo texto segue em anexo.
Uma reflexão preliminar na direção de d) encontra-se no Relatório Técnico do Centro de Estatística Aplicada do
IME/USP, Evolução temporal da
variação próclise/ênclise no Português Clássico, por A. Galves, G.
Paula e M. Goebbels, cujo texto segue em anexo (cf. Produção Bibliográfica
[13]).