Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

2º Relatório
1999-2000

 

 


Sintaxe

Fonologia e Modelagem Matemática


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

2º Relatório 

 

 

O Corpus Tycho Brahe

 

 

No final do segundo ano de vigência do projeto, o Corpus Tycho Brahe se encontra com 22 textos ortograficamente transcritos, num total de 1.003.772 palavras.

Desses textos, 10 já estão com a etiquetagem morfológica corrigida.

 

Segue em anexo a lista dos arquivos disponíveis no site  (cf. www.ime.usp.br/~tycho/corpus)

 

A atual versão do etiquetador morfológico automático tem um desempenho muito mais satisfatório do que a primeira, passando de 78,28 % de acerto para 95,45% (cf. o artigo de Marcelo Finger, em anexo). Mesmo assim, a tarefa de correção manual ainda ocupa um longo tempo. Temos agora a nossa disposição uma ferramenta automática de correção, elaborada por Anthony Kroch e sua equipe no âmbito do Penn-Helsinki Corpus of Middle English Project, rodando em Linux, que foi adaptada ao sistema de etiquetagem do nosso corpus por Anthony Kroch na ocasião da sua visita em agosto passado (cf. Seção II.5). Além de tornar o trabalho mais rápido, permite evitar erros na digitação das novas etiquetas, uma vez que isso é feito automaticamente.

 

Este ano, enfrentamos o problema complexo da ortografia não modernizada de certos textos. Como descrito pela bolsista Tais Menegatti (cf. Anexo V), tivemos que fazer um levantamento das variantes ortográficas em cada texto, para incluir essas informações no refinador do etiquetador. O trabalho ainda está em andamento, mas já conseguimos resolver todos os casos sistemáticos como as consoantes redobradas, a grafia ae em lugar de ai, as grafias ph, th, a colocação do til no o em lugar do a. Outros casos são mais difíceis por ocorrerem de maneira mais isolada, ou serem ambíguos (como a grafia ão que pode ser do futuro ou do passado em verbos cujo radica termina por r). A solução computacional para esses problemas interessa certamente todos os pesquisadores envolvidos em elaboração de corpora históricos anotados. Além disso, constitui um trabalho relevante também para o estudo da história da ortografia em português.

 

O outro aspecto fundamental do trabalho deste ano foi a construção do analisador sintático automático (parser). No Anexo II, Helena Britto descreve o trabalho que vem realizando na adaptação ao português da ferramenta usada no projeto do Corpus do inglês médio coordenado por Anthony Kroch. Dois momentos foram importantes para a discussão da elaboração dessa ferramenta. O primeiro foi o encontro de Lisboa (cf. Seção II.3), onde tivemos a oportunidade de interagir longamente com a equipe de linguistas portugueses trabalhando no Projeto CordialSin (Corpus Dialetal Sintático do português europeu) coordenado por Ana Maria Martins (cf. abaixo), e também com Eckard Bick, autor de um analisador sintático para o português brasileiro baseado em regras.  O segundo foi a visita de Anthony Kroch em agosto, quando foram tomadas as decisões que constam do manual em anexo (cf. também o Anexo II.). Para a anotação sintática manual dos textos, contamos agora com uma ferramenta trazida por Anthony Kroch. O primeiro texto de 50 000 palavras a receber essa anotação manual é o de Matias Aires, a partir do que submeteremos os dados o analisador do projeto Penn-Helsinki, como base à elaboração, por Marcelo Finger, do analisador para o português.

 

O corpus já está sendo tomado como fonte de dados para análises da história do português europeu no âmbito do projeto (cf. Seção I.2). Temos recebido também muitos pedidos de senha para acesso ao corpus por parte de pesquisadores tanto do Brasil quanto do exterior (cf. Anexo VI.), mostrando que já constitui uma ferramenta de trabalho para muitos estudiosos do português. 

 

Ressalta-se também a orientação dada ao projeto português CordialSin de Ana Maria Martins. Em janeiro de 2000, uma bolsista do projeto, Ernestina Carrilho, fez um estágio de 15 dias com nossa equipe para aprender a usar o etiquetador do corpus Tycho Brahe, que passou a ser usado na anotação do corpus do projeto CordialSin.

 

No terceiro ano do projeto, serão as seguintes as prioridades do projeto:

 

-    a construção do analisador sintático, a cargo da pós-doutoranda Helena Britto para a parte linguística e de Marcelo Finger para a parte computacional.

-         a correção dos 10 arquivos etiquetados restantes, a cargo de Charlotte Galves e da mestranda Maria Clara Paixão. Note-se que a partir do momento em que o analisador for disponível, a correção será feita numa só etapa, depois dos arquivos terem sido submetidos aos dois anotadores automáticos.

-         a inclusão de mais 10 textos no Corpus, privilegiando os períodos menos representados como a segunda metade do séc.17, a segunda metade do séc.18, e séc. 19. Note-se que no que diz respeito aos dois primeiros, encontramos uma certa dificuldade em achar edições não originais que sejam comprovadamente confiáveis. O trabalho com edições originais implica um trabalho de edição que não estava previsto originalmente no projeto, mas que talvez tenhamos que enfrentar. É o caso por exemplo com o texto de Manuel Galhegos, previsto para este ano mas que acabamos deixando de lado por priorizarmos outras tarefas. O trabalho de preparação dos textos, desde o scaneamento até a rodagem do tagger e a inserção do arquivo na ferramenta de correção, passando pela instalação do texto ortograficamente transcrito no site será a cargo das bolsistas de TT Tais Menegatti e Vanessa Vinha.

 

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

2º Relatório 

 

 

 

O Corpus Tycho Brahe

 

 

No final do segundo ano de vigência do projeto, o Corpus Tycho Brahe se encontra com 22 textos ortograficamente transcritos, num total de 1.003.772 palavras.

Desses textos, 10 já estão com a etiquetagem morfológica corrigida.

 

Segue em anexo a lista dos arquivos disponíveis no site  (cf. www.ime.usp.br/~tycho/corpus)

 

A atual versão do etiquetador morfológico automático tem um desempenho muito mais satisfatório do que a primeira, passando de 78,28 % de acerto para 95,45% (cf. o artigo de Marcelo Finger, em anexo). Mesmo assim, a tarefa de correção manual ainda ocupa um longo tempo. Temos agora a nossa disposição uma ferramenta automática de correção, elaborada por Anthony Kroch e sua equipe no âmbito do Penn-Helsinki Corpus of Middle English Project, rodando em Linux, que foi adaptada ao sistema de etiquetagem do nosso corpus por Anthony Kroch na ocasião da sua visita em agosto passado (cf. Seção II.5). Além de tornar o trabalho mais rápido, permite evitar erros na digitação das novas etiquetas, uma vez que isso é feito automaticamente.

 

Este ano, enfrentamos o problema complexo da ortografia não modernizada de certos textos. Como descrito pela bolsista Tais Menegatti (cf. Anexo V), tivemos que fazer um levantamento das variantes ortográficas em cada texto, para incluir essas informações no refinador do etiquetador. O trabalho ainda está em andamento, mas já conseguimos resolver todos os casos sistemáticos como as consoantes redobradas, a grafia ae em lugar de ai, as grafias ph, th, a colocação do til no o em lugar do a. Outros casos são mais difíceis por ocorrerem de maneira mais isolada, ou serem ambíguos (como a grafia ão que pode ser do futuro ou do passado em verbos cujo radica termina por r). A solução computacional para esses problemas interessa certamente todos os pesquisadores envolvidos em elaboração de corpora históricos anotados. Além disso, constitui um trabalho relevante também para o estudo da história da ortografia em português.

 

O outro aspecto fundamental do trabalho deste ano foi a construção do analisador sintático automático (parser). No Anexo II, Helena Britto descreve o trabalho que vem realizando na adaptação ao português da ferramenta usada no projeto do Corpus do inglês médio coordenado por Anthony Kroch. Dois momentos foram importantes para a discussão da elaboração dessa ferramenta. O primeiro foi o encontro de Lisboa (cf. Seção II.3), onde tivemos a oportunidade de interagir longamente com a equipe de linguistas portugueses trabalhando no Projeto CordialSin (Corpus Dialetal Sintático do português europeu) coordenado por Ana Maria Martins (cf. abaixo), e também com Eckard Bick, autor de um analisador sintático para o português brasileiro baseado em regras.  O segundo foi a visita de Anthony Kroch em agosto, quando foram tomadas as decisões que constam do manual em anexo (cf. também o Anexo II.). Para a anotação sintática manual dos textos, contamos agora com uma ferramenta trazida por Anthony Kroch. O primeiro texto de 50 000 palavras a receber essa anotação manual é o de Matias Aires, a partir do que submeteremos os dados o analisador do projeto Penn-Helsinki, como base à elaboração, por Marcelo Finger, do analisador para o português.

 

O corpus já está sendo tomado como fonte de dados para análises da história do português europeu no âmbito do projeto (cf. Seção I.2). Temos recebido também muitos pedidos de senha para acesso ao corpus por parte de pesquisadores tanto do Brasil quanto do exterior (cf. Anexo VI.), mostrando que já constitui uma ferramenta de trabalho para muitos estudiosos do português. 

 

Ressalta-se também a orientação dada ao projeto português CordialSin de Ana Maria Martins. Em janeiro de 2000, uma bolsista do projeto, Ernestina Carrilho, fez um estágio de 15 dias com nossa equipe para aprender a usar o etiquetador do corpus Tycho Brahe, que passou a ser usado na anotação do corpus do projeto CordialSin.

 

No terceiro ano do projeto, serão as seguintes as prioridades do projeto:

 

-    a construção do analisador sintático, a cargo da pós-doutoranda Helena Britto para a parte linguística e de Marcelo Finger para a parte computacional.

-         a correção dos 10 arquivos etiquetados restantes, a cargo de Charlotte Galves e da mestranda Maria Clara Paixão. Note-se que a partir do momento em que o analisador for disponível, a correção será feita numa só etapa, depois dos arquivos terem sido submetidos aos dois anotadores automáticos.

-         a inclusão de mais 10 textos no Corpus, privilegiando os períodos menos representados como a segunda metade do séc.17, a segunda metade do séc.18, e séc. 19. Note-se que no que diz respeito aos dois primeiros, encontramos uma certa dificuldade em achar edições não originais que sejam comprovadamente confiáveis. O trabalho com edições originais implica um trabalho de edição que não estava previsto originalmente no projeto, mas que talvez tenhamos que enfrentar. É o caso por exemplo com o texto de Manuel Galhegos, previsto para este ano mas que acabamos deixando de lado por priorizarmos outras tarefas. O trabalho de preparação dos textos, desde o scaneamento até a rodagem do tagger e a inserção do arquivo na ferramenta de correção, passando pela instalação do texto ortograficamente transcrito no site será a cargo das bolsistas de TT Tais Menegatti e Vanessa Vinha.

 

 

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

2º Relatório 

 

 

 

 

Descrição e análise dos padrões prosódicos do Português Europeu e Brasileiro

 

 

 

 

Na sequência dos trabalhos do primeiro ano do projeto, a descrição e análise dos padrões prosódicos do Português Europeu e Brasileiro se organizou em torno dos seguintes temas:

 

-                     a classificação rítmica do PE e do PB

-                     a análise contrastiva dos padrões prosódicos do PE e do PB no quadro da teoria da otimalidade, com o auxílio da ferramenta computacional Sotaq

-                     a análise da entoação no PB

 

A maior preocupação do período foi a obtenção de dados confiáveis que pudessem ser submetidos a análises estatísticas e constituirem a base de modelagens satisfatórias. Os trabalhos de iniciação científica das alunas Flaviane Fernandes e Janaísa Viscardi (cf. anexos I e II ) foram concebidos para atender essa necessidade básica do projeto. A constituição do corpus fonético e sua análise estão sendo coordenados por Antonio Galves.

Esses dados constituem um prerequisito essencial tanto para a discussão da classificação rítmica do PE e do PB no quadro da análise de Ramus quanto para a formalização dos padrões prosódicos na teoria da Otimalidade. A localização do português brasileiro e europeu no espaço das línguas definido por Ramus é uma tarefa complexa como mostram os trabalhos de Duarte (anexo III) e de Frota e Vigário (anexo IV). A interação permanente entre os linguistas encarregados das medições e os estatísticos é uma condição para o sucesso da pesquisa, e isso foi consolidado durante este período. Diversas reuniões foram organizadas : o terceiro workshop de dezembro (cf. Seção II.2), o encontro de Lisboa, e diversas reuniões ao longo do ano, além de uma comunicação permanente via correio eletrônico permitiram que começassemos a colher os primeiros resultados robustos desse longo trabalho de obtenção de dados.

O texto de Filomena Sandalo (anexo V.) mostra a importância desses dados também para a análise otimalista. Com uma ampliação das restrições inicialmente propostas por Abaurre e Galves (1998), e com o auxílio do programa Sotaq (cf. anexo VI e VII) para a avaliação das hipóteses, chegamos agora a uma formulação bastante satisfatória da diferença entre PB e PE (cf. Anexo V., p.5), que confirma, precisando-a, a hipótese inicial de Abaurre e Galves. Ressalta-se também nesse caso a importância da interação dos linguistas do projeto com Arnaldo Mandel, autor da versão atual de Sotaq, bem como da discussão do próprio Sotaq com matemáticos e estatísticos, como aconteceu no 3o workshop do projeto (cf. Seção II.2), e no Encontro de Lisboa (cf. Seção II.3).

O trabalho sobre a entoação do PB proposto no anexo V. nasceu da discussão, no workshop de Lisboa, dos dados obtidos em 1999 e analisados por Frota e Vigário (1999) – cf. também o relatório no 1 do projeto -.  A partir desses dados, chegou-se à conclusão de que o domínio da entoação é a frase entoacional (IP) no PE e o sintagma fonológico (phi) no PB. O objetivo é aumentar o número de informantes e inserir os enunciados em contextos discursivos que permitam observar os efeitos da focalização, a fim de verificar se a conclusão da pesquisa se mantém uma vez que as variáveis informante e contexto discursivo são melhor controladas.

 

A partir de uma conjectura levantada no workshop de dezembro, começamos a trabalhar este ano sobre um dos objetivos mais ambiciosos do projeto: a determinação do ritmo subjacente aos textos escritos. O anexo VIII mostra os primeiros resultados de uma pesquisa realizada no quadro de uma iniciação científica orientada por Claudia Peixoto. Considerando a estrutura silábica das palavras dos textos e a localização dos seus acentos principais, observam-se diferenças sistemáticas e estatísticamente confiáveis na proporção de monosílabos não acentuados (PE>PB), da soma dos monosílabos acentuados, dos dissílabos e dos trissílabos (PB>PE), palavras oxítonas (PB>PE), distâncias curtas (0 e 1) entre acentos (PB>PE).  O próximo passo é aplicar essa análise a textos históricos para verificar se se comportam de maneira esperada nas duas pontas do período contemplado, ou seja no início como o PB e no fim como o PE. Se essas medidas se revelam significativas, elas podem constituir um instrumento valioso de datação de mudança prosódica, e consequentemente de mudança sintática.

 

A modelagem de padrões prosódicos está na origem de um novo projeto reunindo linguistas e matemáticos, coordenado por Antonio Galves, pesquisador principal e coordenador de matemática do projeto: o Projeto TIPAL: Técnicas Probabilísticas de Identificação de Padrões, com Aplicação à Linguística  (cf. Anexo VII). Esse projeto foi contemplado na Edital 2000 do CNPq, sendo o único projeto em matemática, estatística ou linguística, a ser aprovado na faixa A de financiamento, com 95 000 reais.

 

 

 

 

 Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

 

 

MODELAGEM MATEMÁTICA

 

 

 

Os principais objetivos matemáticos  no primeiro ano do Projeto foram:

 

a)   modelar matematicamente a relação entre sintaxe e fonologia, durante a aquisição

b) desenvolver ferramentas matemáticas, estatísticas e computacionais para a identificação de padrões rítmicos em contornos prosódicos.

 

Para tratar esses pontos no primeiro ano de atividade do Projeto os seguintes artigos foram produzidos:

 

1) BRESSAUD, X., R. FERNANDEZ, A.GALVES “Speed of d-convergence for Markov Approximations of Chains with Complete Connections. A coupling approach”. Stochastic Processes and Applications, no prelo.

 

2) BRESSAUD, X., R. FERNANDEZ, A.GALVES “Decay of correlations for non-holderian dynamics. A coupling approach.” Electronic Journal of Probability, vol.4, paper 3: 1-19, 1999.

 

 3) CASSANDRO, M., P. COLLET, A. GALVES, C. GALVES  "A Statistical-Physics approach  to language acquisition and language change",  Physica A, vol. 263, 1999, pp. 427-437.

 

4) COLLET, P., A. GALVES, B. SCHMIDT  “Lognormal versus exponential approximation for repetition times of Gibbsian sources and their large deviations”,  1999

 

5) FERNANDEZ, R. & A. GALVES “Identifying features in the presence of competing evidence, the case of first language acquisition”, submitted to World Scientific.

 

6) FERNANDEZ, R., A. GALVES, C. PEIXOTO "Are stress contours crystals?",  versão preliminar (15p.), 1999.

 

Além de seu interesse matemático intrínsico, os artigos 1, 2, 4 e 6 têm como motivação a obtenção de ferramentas para a modelagem gibbsiana de contornos prosódicos que é uma das idéias básicas do Projeto. Em particular o artigo 4 é uma etapa preliminar na construção de uma ferramenta para medição em tempo real da entropia de uma fonte ergódica e, em particular, de uma longa sequência de contornos prosódicos. A motivação linguística dessa pesquisa é dada pelo artigo ``Maximum likelihod and minimum entropy identification of grammars'', de  Pierre Collet, Antonio Galves e Artur Lopes, ( Random and Computational Dynamics, vol.3, 241-256, 1995.)

Os artigos 3 e 5 retomam e desenvolvem o conjunto de questões matemáticas sugeridas atualmente pelo Projeto. 

Além desses artigos, foram feitas duas versões,  uma preliminar feita por Pierre Collet e Antonio Galves em linguagem C,  e uma segunda em linguagem Perl, por Arnaldo Mandel, de um programa para calcular contornos acentuais de custo mínimo, dentro do modelo sugerido pelo artigo 4, acima citado, e pelo artigo de M. B. Abaurre e C. Galves As diferenças rítmicas entre o português europeu e brasileiro: uma abordagem otimalista e minimalista,  ( D.E.L.T.A., vol.14, 377-423, 1998).  Este programa  está atualmente disponível na página do Projeto.

 

No segundo ano do Projeto, além de continuar a pesquisa sobre  as questões formuladas  em a) e b), teremos que trabalhar em :

 

c) classificação automática dos dados, em algoritmos estocásticos, tendo em vista, em particular, a elaboração de um analisador sintático para o Corpus Tycho Brahe;

d)  descrição estatística dos dados sintáticos já disponíveis no Corpus Tycho Brahe.

 

Uma reflexão preliminar na direção de c) encontra-se no projeto Classification and decision schemes based on probabilistic techniques escrito por Roberto Fernandéz e Antonio Galves, cujo texto segue em anexo.

Uma reflexão preliminar na direção de d) encontra-se no  Relatório Técnico do Centro de Estatística Aplicada do IME/USP, Evolução temporal da variação próclise/ênclise no Português Clássico, por A. Galves, G. Paula e M. Goebbels, cujo texto segue em anexo (cf. Produção Bibliográfica [13]).