Técnicas Probabilísticas de Identificação de Padrões, com Aplicações à Linguística

Este projeto interdisciplinar tem dois objetivos principais interligados. Do lado da Teoria das Probabilidades, queremos desenvolver o ferramental necessário à identificação de padrões em trajetórias de processos estocásticos. Do lado da Lingüística, queremos utilizar essas ferramentas para identificar os padrões rítmicos característicos e distintivos do Português Brasileiro e do Português Europeu Moderno, doravante citados como PB e PE, respectivamente.

Do ponto de vista da Teoria das Probabilidades, esta pesquisa se inscreve no quadro do estudo de processos estocásticos com memória de longo alcance, as chamadas Cadeias com Conexões Completas. Introduzidas na literatura probabilística na década de 30, pelos artigos de Onicescu e Mihoc, o tema teve recentemente um desenvolvimento notável, com participação de membros do presente projeto (cf. Bressaud, Galves e Fernandez 1999a e 1999b, Ferrari e Galves 2000, Ferrari, Maass, Martinez e Ney (2000)). Estes trabalhos apresentam o estado da arte e contêm uma ampla bibliografia sobre o assunto.

As ferramentas em cujo desenvolvimento temos trabalhado, isto é, aproximações markovianas e esquemas de renovação, tem um objetivo aplicado explícito, a saber, a realização de simulações perfeitas e o desenvolvimento de estimadores para a entropia do processo. Trata-se agora de consolidar os resultados já obtidos, desenvolvendo as ferramentas estatístisticas necessárias à modelagem dos padrões rítmicos em PB e PE.

A modelagem dos padrões rítmicos em línguas naturais é uma questão na fronteira da pesquisa em lingüística. A própria hipótese da existência de classes rítmicas separando as línguas naturais em grandes grupos, embora corroborada por evidências de caráter psico-lingüístico, não encontrava até recentemente suporte nos dados fonético-acústicos. Uma primeira evidência acústica foi trazida em 1998 pelo artigo de Ramus, Nespor, Mehler (1999), sendo o segundo autora membro colaborador da equipe do projeto. Este artigo mostrou evidências que medidas empíricas do tempo relativo ocupado pelas vogais e a variância dos comprimentos dos grupos consonantais separavam um conjunto piloto de línguas em três grandes grupos. O local exato ocupado pelo PB e pelo PE nessa separação é uma questão aberta que está sendo atualmente atacada pela equipe do projeto, inclusive com a constituição de um corpus anotado manualmente de frases gravadas de PB e PE, para servir de base a nosso estudo estatístico. Uma análise preliminar da questão se encontra em Dorea, Galves, Kira, E. e A. Pereira Alencar (1997).

Uma questão técnica da maior importância aparece neste ponto: a identificação automática das vogais e consoantes, e posteriormente das sílabas acentuadas em PB e PE. Essa questão, de importância científica e tecnológica evidente, apresenta de imediato uma dificuldade que torna inviável sua abordagem por técnicas tradicionais de análise no domínio da freqüência, correntes na Teoria das Séries Temporais. Com efeito,o sinal acústico produzido por um falante de uma língua natural não é estacionário, e aqui usamos a noção de estacionário corrente em Séries Temporais, a saber seu espectograma muda ao longo do tempo, mais precisamente muda de uma vogal a outra. A extração automática das informações necessárias, a partir do sinal acústico exigirá outras ferramentas (ondaletas, modelos bayesianos de identificação de padrões, cf. Ferrari, Frigessi, Gonzaga de Sá 1995, cadeias de Markov ocultas).

As características básicas de uma classe rítmica deveriam ser codificadas na distribuição "a priori" orientando a fixação dos parâmetros da Gramática Universal, durante a aquisição da língua materna por uma criança. Em diversos artigos (Collet, Galves e Lopes 1995, Cassandro, Collet, Galves e Galves 1999 Fernández e Galves 1999), membros da equipe do presente projeto tem sugerido que estados de Gibbs poderiam ser utilizados como medidas de probabilidade governando a escolha de sentenças satisfazendo simultaneamente as restrições da sintaxe e dos padrões prosódicos, em particular rítmicos da língua do falante. A Teoria da Otimalidade, introduzida em Lingüística por Prince e Smolensky, propõe um modelo claramente inspirado pela Mecânica Estatística e que convém perfeitamente a esta proposta. Em Sândalo, Abaurre e Galves (1999) é proposto um conjunto de restrições e de pesos para descrever as funções "energia" associadas ao PB e ao PE. O cálculo de soluções de "energia mínima" envolve uma combinatória computacionalmente pesada. Para enfrentar esta questão, Arnaldo Mandel desenvolveu o programa Sotaq, retomando e aperfeiçoando um prótotipo feito inicialmente por Pierre Collet e Antonio Galves. Maiores detalhes sobre o programa Sotaq, sobre o modelo otimalista que estamos utilizando e sobre a própria Teoria da Otimalidade podem ser encontrados na página http://www.ime.usp.br/~tycho/prosody/.

O modelo otimalista suscita várias questões matemáticas, computacionais, estatísticas e lingüísticas. Em primeiro lugar, que condições devem satisfazer as restrições definindo a função "energia", para assegurar a unicidade ou ao menos a cardinalidade baixa do conjunto de soluções, o que em Mecânica Estatística se chamaria "estados fundamentais" do sistema? O que assegura que um tal sistema tenha propriedades de periodicidade, em algum sentido a ser definido (cf. Van Enter, A.C.D. e J.Miçekisz (1992) como sugerido recentemente por Antonio Galves e Roberto Fernández e que corresponde à noção intuitiva de ritmo?

Estatisticamente, tem-se o problema maior de ajustar o modelo aos dados. recentemente, Marzio Cassandro, Antonio Galves, Charlotte Galves e Renato Assunção sugeriram que um critério de "mínima dispersão" poderia ser adequado para discriminar entre diversos valores dos parâmetros envolvidos. Este critério é coerente com o "critério de mínima entropia" sugerido no artigo de Collet, Galves e Lopes (1995) já citado. Trata-se, agora, por um lado de desenvolver a Teoria Estatística necessária para a implementação dessa proposta e, por outro lado, de constituir o corpus de dados fonético-acústicos, necessário para testar a hipótese.

Lingüisticamente trata-se de entender o ajuste entre uma descrição otimalista e a descrição das classes rítmicas feita no artigo de Ramus, Nespor e Mehler (1999) já citado. Uma questão de interface entre a Lingüística e a Mecânica Estatística é encontrar um conjunto mínimo de restrições definindo a função energia.

Trata-se de um projeto interdisciplinar, envolvendo pesquisadores atuando nas áreas de Probabilidade e Estatística (Renato Assunção, Francisco Cribari, Pablo Ferrari (vice-coordenador do projeto), Luis Renato Fontes, Antonio Galves (coordenador do projeto), Cláudio Landim, Nancy Lopes Garcia e André Toom), Lingüística (Charlotte Galves) e Ciência da Computação (Arnaldo Mandel). Essa equipe principal é completada por uma equipe de colaboradores externos, com pesquisadores atuando nas áreas de Lingüística (Anthony Kroch, Marina Nespor e Jean-Roger Vergnaud), Probabilidade, Física-Estatística e Sistemas Dinâmicos (Xavier Bressaud, Marzio Cassandro, Pierre Collet e Roberto Fernández). Francisco Cribari acaba de entrar para a equipe, completando-a. Todos os demais membros da equipe já mantêm uma colaboração científica estável em torno de questões diretamente relacionadas ao presente projeto e no quadro do Projeto Temático FAPESP "Padrões rítmicos, fixação de parâmetros e mudança lingüística" (http://www.ime.usp.br/~tycho) e do Núcleo de Excelência "Fenômenos críticos em probabilidades e processos estocásticos" (http://www.ime.usp.br/~gprob).

 

Referências

  1. Bressaud, X., Galves, A. e R. Fernández (1999). Speed of d-convergence for Markov approximations of chains with complete connections. A coupling approach. Stochastic Process. Appl., vol. 83 , no.1, 127-138.
  2. Bressaud, X., Galves, A. e R. Fernández (1999). Decay of correlations for non Holderian dynamics. A coupling approach. Electron. J. Probab., vol. 4, Paper no.3, 1-19, 1999.
  3. Cassandro, M., Collet, P., Galves, A. e Ch. Galves (1999). A Statistical-Physics Approach to Language Acquisition and Language Change. Physica A, vol. 263, 427-437.
  4. Collet, P., Galves, A. e A. Lopes (1995). Maximum likelihood and minimum entropy identification of grammars. Random and Computational Dynamics, vol. 3, 241-256.
  5. Dorea, C., Galves, A., Kira, E. e A. Pereira Alencar (1997). Markovian modeling of the stress contours of Brazilian and European Portuguese. REBRAPE, vol. 11, 161-173.
  6. Fernández, R. e A. Galves (2000). Identifying features in the presence of competing evidence. The case of first-language acquisition. WSSIAA, no prelo.
  7. Ferrari, P. e A. Galves (2000). Constructions of stochastic processes, coupling and regeneration, no prelo, acessível no endereço http://www.ime.usp.br/~pablo/book
  8. Ferrari, P. Maass, A., Martinez, S. e P. Ney (2000). Cesaro mean distribution of group automata starting from measures with summable decay.Ergodic Theory and Dynamical Systems , no prelo.
  9. Ramus, F., Nespor, M. e J. Mehler (1999). Correlates of linguistic rhythm in the speech signal. Cognition, 73(3), 265-292.
  10. Sândalo, F., Abaurre, M. B, e Ch. Galves (1999). Otimizando o ritmo do Português, Relatório Técnico, IEL-UNICAMP.


Página inicial