Padrões Rítmicos, Fixação de Parâmetros & Mudança Lingüística


Balanço da Fase I (1998-2003)

I.  Os avanços da  pesquisa.
II. Corpora e ferramentas computacionais
III. Formação de recursos humanos
IV. Índices de impacto e desdobramentos

Ao longo dos quatro anos e meio do projeto, apresentamos 5 relatórios parciais com uma lista detalhada das diversas atividades realizadas pela equipe. O objetivo deste texto é fazer um balanço do caminho percorrido durante esse período, e apontar para as direções nas quais a pesquisa continua.

Neste balanço, contemplaremos os três aspectos básicos do projeto: atividades de pesquisa propriamente dita, atividades de construção de corpora eletrônicos e ferramentas computacionais para a análise, e atividades de formação de recursos humanos. Finalmente, apresentaremos alguns indicadores do impacto do projeto na comunidade científica internacional.

I.Os avanços da pesquisa.

No sumário do nosso projeto, dizíamos que para desenvolver a pesquisa proposta, deveríamos:

  • Fazer uma descrição detalhada da mudança da sintaxe de colocação de clíticos em textos escritos por autores portugueses nascidos entre 1550 e 1850, descrevendo as gramáticas envolvidas.
  • Fazer uma descrição detalhada dos aspectos fonéticos relevantes para a identificação dos padrões rítmicos do Português Europeu Moderno e do Português Brasileiro.
  • Desenvolver um modelo linguístico-matemático para a noção de padrão rítmico.
  • Fazer um modelo formal de aquisição, relacionando prosódia e sintaxe na interface da gramática com o sistema Articulatório-Perceptual.
  • Desenvolver uma metodologia permitindo encontrar nos textos escritos os traços característicos do padrão rítmico da língua falada.

O primeiro ponto foi amplamente desenvolvido e levou a uma descrição detalhada da mudança da colocação de clíticos em textos de autores portugueses nascidos entre 1542 (Diogo do Couto) e 1836 (Ramalho Ortigão). Os dados nos quais se baseiam essa descrição estão coletados numa base de dados que contém 24.575 orações representando a totalidade das ocorrências de orações com clíticos em 20 textos do Corpus Tycho Brahe, num total de 941.031 palavras. Os resultados da pesquisa com a descrição da evolução da colocação dos clíticos no período considerado se encontra sintetizada no artigo "

The Change in Clitic Placement from Classical to Modern European Portuguese: Results from the Tycho Brahe Corpus" (Galves, Britto e Paixão de Sousa 2003).

Nesse trabalho se encontra uma ampla lista de referências aos diversos trabalhos sobre o assunto produzidos pela equipe do projeto. Essa pesquisa lançou uma nova luz sobre a história do Português, trazendo claras evidências de que a mudança na colocação de clíticos se deu na virada do século 17 para o século 18, e não no início do século 17, como defendido por Martins (1994), ou na segunda metade do século 18, como proposto na nossa hipótese inicial. O rico material colhido ainda está sendo aproveitado para vários outros enfoques, complementares com a análise da colocação de clíticos, que vão constituindo uma verdadeira radiografia da língua portuguesa num período até agora muito pouco conhecido desse ponto de vista.

Em relação à questão dos padrões rítmicos colocada no ponto 2., houve dois encaminhamentos paralelos potencialmente convergentes. O primeiro deles redundou numa abordagem otimalista da atribuição de acentos secundários e redução vocálica no PE e PB. Os resultados dessa pesquisa são apresentados no artigo "The Sotaq optimality based computer program and secondary stress in two varieties of Portuguese" (Abaurre, Galves, Mandel e Sândalo 2002). Um desdobramento computacional dessa atividade foi a elaboração do programa Sotaq que será apresentado na segunda parte desta síntese.

A segunda vertente trabalhou com a noção de correlatos acústicos do ritmo, seguindo a pista sugerida por um conjunto de pesquisas recentes na área iniciadas por Ramus, Nespor e Mehler (1999). Esse esforço levou a propor uma medida de sonoridade como base para distinguir as classes rítmicas. Esse ponto de vista se encontra apresentado no artigo "Sonority as a basis for rhythmic class discrimination" (Galves, Garcia, Duarte e Galves, 2002). Um desdobramento computacional dessa atividade foi a elaboração dos programasPiccolo e Vocale que serão apresentados na segunda parte desta síntese.

Essas duas vertentes, apesar de fundadas em metodologias e quadros teóricos distintos convergiram para a mesma conclusão, á proposta na literatura anterior, mas só agora consolidada em fatos e análises mais sistemáticas: o PE e o PB instanciam ritmos de natureza fundamentalmente diferente. O trabalho desenvolvido contribuiu substancialmente em caracterizar cada um desses ritmos.

Em relação ao terceiro ponto, o modelo lingüístico-matemático da noção de padrão rítmico, as duas vertentes acima descritas redundaram em propostas potencialmente convergentes. O modelo otimalista dá evidências de que as unidades rítmicas são constituídas diferentemente em Português Europeu e em Português Brasileiro. Como conseqüência, sugere que o processo estocástico constituído pelas palavras sucessivas de um texto codificadas segundo a posição dos seus acentos principais, número de sílabas, posição em relação aos sintagmas fonológicos e palavras prosódicas às quais pertencem, tem leis diferentes. Mais precisamente, sugere que se modelarmos este processo através de uma cadeia de Markov de alcance variável, as funções contexto correspondentes ao PE e ao PB são distintas: no caso do primeiro, elas esquecem o passado sempre que encontram uma fronteira de palavra prosódica, e no segundo, sempre que encontram uma fronteira de sintagma fonológico. Isso permitirá potencialmente a identificação das características rítmicas subjacentes aos textos históricos do Corpus Tycho Brahe. Esse trabalho está em andamento. A segunda vertente apresentada no item 2. também propõe uma resposta para o item 3. Com efeito, há evidências empíricas de que a sonoridade pode ser bem modelada por uma cadeia quantificada com dois estados subjacentes. Essas cadeias têm a característica seguinte. As cadeias discretas subjacentes à sonoridade de cada língua têm leis que diferem de língua para língua. No entanto, as duas distribuições correspondentes aos dois estados subjacentes são universais. Isso permite identificar estatísticamente o ponto de corte separando as duas zonas de sonoridade, e em seguida, codificar a sonoridade através de uma cadeia de ordem infinita assumindo dois valores. São essas cadeias que carregariam todas as informações rítmicas de cada língua. A metodologia estatística necessária para levar à frente este programa está atualmente sendo desenvolvida. Os primeiros resultados estão na tese de Denise Duarte defendida em 2003, "Aproximações markovianas e reamostragem em cadeias de ordem infinita com aplicação à linguística", e nos artigos "Markov approximations and the bootstrap for chains of infinite order" (Collet, Duarte e Galves, em andamento), e "Stochastic modelling of the speech sonority: quantization and cross language estimation of the Cut Point" (Cassandro, Collet, Duarte, Galves e Garcia, em andamento). Uma versão preliminar resumida do segundo artigo se encontra no texto "An universal linear relation among acoustic correlates of rhythm" .

O quarto ponto está na origem mesmo deste projeto temático.

O modelo proposto se encontra resumido nos artigos "A Statistical-Physics approach to language acquisition and language change" (Cassandro, Collet, Galves e Galves 1999) e "Identifying features in the presence of competing evidence, the case of first language acquisition" (Fernández e Galves 2000).

O modelo matemático apresentado nesses artigos é a base de toda a modelagem estocástica dos dados do projeto. O grande desafio, que foi iniciado neste projeto mas deverá ser colocado como cerne do próximo, é alimentar e validar empiricamente esse modelo com os dados quantitativos que têm sido produzidos nas diversas linhas de pesquisa que compuseram este temático. A tarefa de obtenção de grandes quantidades de dados devidamente categorizados foi a prioridade do período que se encerra agora. Além dos dados em si, isso produziu metodologias e ferramentas de grande valia para futuras pesquisas. Esses dados constituirão a base da próxima fase do projeto proporcionando condições para que a modelagem atinja todo o seu potencial explicativo.

O trabalho sobre o quinto ponto, que constituí um dos aspectos mais originais, e certamente o mais ambicioso do projeto, deu resultados preliminares auspiciosos, apresentados no relatório "Modelagem de contornos acentuais do Português através de cadeias de Markov de alcance variável" e no artigo "Correlates of rhythm in written texts of Brazilian and Modern European Portuguese" (A. Galves, C. Galves, N. Garcia e C.Peixoto em andamento - a ser submetido à revista JASA). O avanço mais espectacular é o desenvolvimento de uma metodologia de identificação de padrões rítmicos nos textos escritos que articula a noção probabilística de Cadeias de Markov de alcance variável, com os resultados recentes de várias pesquisas sobre as diferenças prosódicas do PE e do PB, várias delas produzidos no próprio projeto. No estado atual da pesquisa, aínda não foi possível confirmar uma das hipóteses centrais do projeto, a saber que o ritmo da língua muda antes da sintaxe, o que suportaria a hipótese de que a mudança rítmica desencadeou a mudança sintática. Com a metodologia desenvolvida, obtém-se uma clara separação do PE e do PB, o que constituí um avanço importante, mas é impossível detectar nos autores do Corpus Tycho Brahe um ponto em que o ritmo muda (segundo a nossa hipótese, de um ritmo idêntico ao PB para o ritmo do PE). Os autores do Corpus Tycho Brahe ao contrário do esperado, mantêm um comportamento bastante homogêneo. Isso não significa que devamos abandonar a nossa hipótese, uma vez que há índices fortes da existência de uma mudança acontecida na prosódia da língua portuguesa entre o século 16 e o século 18. Mostra que não dispomos ainda das ferramentas necessárias, ou da plena capacidade para usá-las e interpretá-las. Traços extremamente interessantes emergem porém do que já obtivemos, apontando para o fato de que, diferentemente da nossa hipótese inicial, os padrões rítmicos não podem ser detectados independentemente mas vêm "borrados" por outros fenômenos, sintáticos e estilísticos. A continuação desta pesquisa, o refinamento das ferramentas e das interpretações, continuam fortemente na ordem do dia.

II. Corpora e ferramentas computacionais

O principal produto eletrônico do projeto é o Corpus Anotado do Português Histórico Tycho Brahe, livremente acessível à comunidade acadêmica através do endereço http://www.ime.usp.br/~tycho/corpus. Nossa previsão inicial era que tivesse 1.000.000 de palavras. Essa previsão foi ultrapassada, já que totaliza 1.851.619 palavras, das quais 1.019.191 já se encontram em versão morfologicamente etiquetada. A construção do Corpus envolveu a elaboração de ferramentas computacionais de anotação, das quais as principais são o etiquetador automático desenvolvido por Marcelo Finger, e o analisador automático para o Português obtido a partir do treinamento de um analisador universal desenvolvido na Universidade de Pensilvânia por Dan Bickel. O treinamento desse analisador foi possível graças ao desenvolvimento de um sistema de anotação sintática, nos moldes do sistema proposto por Taylor e Kroch (1998), para o Inglês Médio, e da anotação manual, conforme esse sistema, de um texto de 50 000 palavras por Helena Britto, pós-doutoranda do projeto.

O estudo dos padrões rítmicos envolveu a elaboração de vários programas computacionais de grande potencialidade para a pesquisa do ritmo da fala em geral. O programa Sotaq foi desenvolvido por Arnaldo Mandel, retomando e aperfeiçoando um protótipo feito inicialmente por Pierre Collet e Antonio Galves. Maiores detalhes sobre o programa Sotaq, sobre o modelo otimalista que estamos utilizando e sobre a própria Teoria da Otimalidade podem ser encontrados na página http://www.ime.usp.br/~tycho/prosody/sotaq . Dois outros programas foram desenvolvidos no âmbito da pesquisa sobre as classes rítmicas. Vocale http://www.ime.usp.br/~tycho/prosody/vocale é uma ferramenta para a anotação automática de intervalos vocálicos e consonantais que toma como input os arquivos sonoros sem nenhuma anotação manual. Piccolo, http://www.ime.usp.br/~tycho/prosody/sonority , é uma versão mais simples de Vocale que permite medir a sonoridade de intervalos sucessivos de fala.

III. Formação de recursos humanos

6 doutorados, dos quais 3 já defendidos
10 mestrados, dos quais 4 já defendidos
20 projetos de Iniciação Científica dos quais 14 já concluídos
7 projetos de Treinamento Técnico
4 projetos de Pós-Doutorado.

IV. Índices de impacto e desdobramentos.

O impacto do Corpus Tycho Brahe e da metodologia de anotação usada na sua elaboração pode ser medida por vários indicadores:

- até o presente dia, cerca de 300 pesquisadores do mundo inteiro pediram senha para acessar os textos (cf. lista em anexo)

- os sistemas de anotação morfológica e sintática que desenvolvemos foram adotados pelo Projeto português de Corpus Dialetal Sintático (Cordial Sin), coordenado por Ana Maria Martins no Centro de Lingüística da Universidade de Lisboa. Uma bolsista do CordialSin visitou o nosso projeto durante o mês de janeiro de 2000 para aprender a usar o nosso sistema de anotação morfológica e nossas ferramentas de correção. Em maio de 2002, Helena Britto foi convidada a passar 1 mês em Lisboa para apresentar e discutir o sistema sintático que ela desenvolveu no âmbito do projeto. O reconhecimento do interesse de trabalhar com grandes corpora anotados vem crescendo no Brasil, a partir da divulgação do nosso trabalho. Temos interagido com vários grupos de pesquisa que trabalham com a descrição diacrônica e sincrônica do português do Brasil, com vistas a futuras parcerias e trocas.

- Fomos convidados junto com outros projetos de vários países europeus para entrar como colaboradores externos num projeto canadense de Corpus anotado de textos franceses do séc. 9 ao séc. 17 (cf. carta em anexo do Prof. Paul Hirschbuhler da Universidade de Ottawa).

O sucesso da pesquisa em modelagem estocástica da fala pode ser medida pelos seguintes fatos:

- António Galves foi convidado para apresentar os aspectos matemáticos do projeto como conferência plenária do mais importante congresso internacional da área de Física-Estatística (StatPhys 1998, Paris). O texto da conferência foi publicado no artigo "A Statistical-Physics approach to language acquisition and language change", na prestigiosa revista Physica.

- O projeto Técnicas probabilísticas de identificação de padrões com aplicações à lingüística (TIPAL), oriundo deste projeto, foi contemplado no nível mais alto de financiamento, aproximadamente 100.000 reais, no Edital 2000 do CNPq. Este foi o único projeto contemplado nesse nível nas áreas de Matemática/Estatística e Lingüística.

- O artigo "Sonority as a basis for rhythmic class discrimination", foi escolhido num dos Congresso internacionais mais importantes da área Speech Prosody 2002, como uma das 4 comunicações selecionadas para a sessão plenária "Prosody and Linguistic Typology".  

Enfim, o impacto e o reconhecimento da validade da nossa proposta interdisciplinar podem ser  avaliados a partir dos seguintes fatos:

- O Instituto do Milênio para o Avanço Global Integrado da Matemática no Brasil incorporou o projeto como uma das suas áreas de atuação.

- Fomos convidados para organizar sessões de trabalho de um mês cada uma, no Complexo Inter-disciplinar da Universidade de Lisboa (fevereiro de 2000), e no Zentrum fur Interdisziplinare Forschung - ZiF-, da Universidade de Bielefeld (julho de 2001), no âmbito do Ano da Complexidade. Em ambos os casos, os eventos foram amplamente financiados com recursos das instituições hospedeiras, com auxílios complementares de outras instituições europeias e americanas.

- O Projeto está na base da criação do "Núcleo de Modelagem Estocástica e Complexidade" (NUMEC) da USP, já constituído, e do "Núcleo de Estatística e Identificação de Padrões em Grandes Corpora de Língua" (NEIPACL), em fase de implantação, na UNICAMP.

tycho home Contato | ©2008 PPFF (©2005 MCPS)
[principal]  [novidades]  [resumo do projeto]  [projeto completo]  [relatórios]  [participantes]  [publicações]  [corpus histórico]  [corpus de fala]  [1998-2003]