Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

 

Quinto Relatório

 

 

 

 

I. Progressos do projeto durante o período

 

Apresento a seguir  as atividades e os progressos do Projeto  durante o período de setembro de 2002 a abril de 2003. Maiores considerações sobre o resultados do projeto como um todo se encontram no Relatório final. Todos os resultados da pesquisa encontram-se no CD em anexo.

O Corpus Tycho Brahe

1.         Mais um texto, as  Cartas  do Abade Antonio da Costa, de 27.096 palavras, foi disponibilizado em versão etiquetada. As Regras da Língua Portugueza, Espelho da Língua Latina de Jerônimo Contador de Argote, bem como a Correspondência de Diogo Inácio de Pina Manique estão em fase final de revisão.  

Com esses  três textos, perfazemos um total de 23 textos etiquetados, num total de 1.048.166 palavras.

2.         O texto inteiro Reflexões sobre a Vaidade de Matias Aires, bem como parte das Cartas do Cavaleiro de Oliveira, foram disponibilizados em versão sintaticamente analisada, perfazendo um total de  68.958 palavras.

            3.         Uma versão do Corpus contendo os textos em versão ortograficamente transcrita foi criada em formato XML, em resultado da colaboração com Jan-Torsten Milde da Universidade de Bielefeld (convênio CAPES-DAAD). Esse formato deverá ser trabalhado  mais e adotado nos desenvolvimentos futuros do Corpus.

A base de dados Tycho Brahe 

A base de dados de orações com clíticos foi inteiramente revisada pelas doutorandas Maria Clara Paixão de Sousa e Sílvia de Oliveira Cavalcante, e reorganizada de maneira a integrar novas marcações, possibilitando uma descrição exaustiva do fenômeno da colocação de clíticos nas suas relações com outros fenômenos como a posição do sujeito, e trazendo o máximo de elementos para a caracterização das gramáticas envolvidas.  Os dados das Cartas do Abade Antonio da Costa foram acrescentados, perfazendo um total de 20 textos analisados ( 941.031 palavras).

A nova versão da base de dados não só nos permite justificar melhor as hipóteses apresentadas em Galves, Britto e Paixão de Sousa (2001), e Galves (no prelo), em respostas à questões essenciais do projeto.  Ela será também a fonte de muitos outros trabalhos, citando-se em particular a tese de doutorado de Maria Clara Paixão de Sousa. Ela contém uma quantidade de informações nunca antes  reunidas sobre o português dos séculos 16 a 19.

A evolução da sintaxe dos clíticos: Galves, Britto e Paixão de Sousa 2003

Com base na nova base de dados, uma análise quantitativa e qualitativa mais apurada está sendo apresentada no texto "Change in Clitic Placement  from Classical to Modern European Portuguese:Results from the Tycho Brahe Corpus", em fase final de redação, a ser submetido à revista Language Change and Variation. A pesquisa central desse artigo se vale também dos progressos de trabalhos realizados nos projetos de iniciação científica de Lucianne Chociay - sobre o efeito do tipo de clítico na colocação- e de Gilcélia Menezes -sobre a colocação de clíticos em coordenadas V1.

O Corpus de fala Babel

Uma das extensões do projeto temático foi a elaboração de um projeto conjunto com uma equipe do Departamento de Lingüística da Universidade de Bielefeld, no âmbito do acordo CAPES-DAAD, intitulado "Mineração de dados em grandes corpora de fala" (vigência 2003-2004). No quadro desse projeto recebemos a visita dos pesquisadores Ulrike Gut e Jan-Torsten Milde no Departamento de Lingüística da Unicamp de 16 de março a 6 de abril. Durante a estadia deles, o Corpus de fala do português europeu e brasileiro constituído ao longo do projeto foi  organizado no formato XML junto com os corpora de Thierry Nazzi, recebendo o nome de Corpus Babel. Esse corpus deve ser integrado aos corpora desenvolvidos em Bielefeld,  recebendo uma anotação idêntica. Junto em anexo o relatório da visita, que contém a descrição do Corpus. 

Da mudança fonológica à mudança sintática

A questão da relação da mudança sintática com a mudança fonológica está na origem do projeto desde o texto pioneiro de Galves e Galves (1995). Foi necessário trabalhar cada um desses tópicos independentemente para poder enfrentar a questão complexa da relação da fonologia com a sintaxe na mudança do Português Clássico para o Português europeu moderno. No texto "Clitic-placement in the History of Portuguese and the Syntax-Phonology Interface", apresentado no 27o Penn Linguistics Colloquium, proponho uma análise que relaciona a posição enclítica básica do clítico no PE com a proeminência inicial da palavra fonológica, incompatível com a próclise. Desse ponto de vista, a questão que surge é porque a ênclise não é o único padrão possível. No mesmo texto, sugiro que a ênclise é barrada sempre que a categoria na qual se encontra o verbo tem um especificador. A idéia crucial da análise é que a morfologização do verbo decorrente da ênclise bloqueia todo processo de verificação de traços. Tal análise supõe uma precedência da sintaxe sobre a fonologia e tem consequências interessantes para a arquitetura da gramática.

O ritmo dos textos escritos

No que diz respeito a esse assunto que constituí o objetivo mais ambicioso do projeto, obtivemos resultados preliminares auspiciosos,  apresentados no relatório "Modelagem de contornos acentuais do Português através de cadeias de Markov de alcance variável"  (em anexo) e no artigo "Correlates of rhythm in written texts of Brazilian and Modern European Portuguese" (A. Galves, C. Galves, N. Garcia e C.Peixoto em andamento - a ser submetido à revista JASA).   Trata-se de delinear uma metodologia de identificação de padrões rítmicos nos textos escritos  que articula a noção probabilística de Cadeias de Markov de alcance variável, com os resultados recentes de várias pesquisas sobre as diferenças prosódicas do PE e do PB, várias delas produzidos no próprio projeto. Com a metodologia  desenvolvida,  obtém-se uma clara separação do PE e do PB, o que constituí um avanço importante, mas é impossível detectar nos autores do Corpus Tycho Brahe um ponto em que o ritmo muda (segundo a nossa hipótese, de um ritmo idêntico ao PB para o ritmo do PE). Os autores do Corpus Tycho Brahe ao contrário do esperado, mantêm um comportamento bastante homogêneo. Isso não significa que devamos abandonar a nossa hipótese, uma vez que há índices fortes da existência de uma mudança acontecida na prosódia da língua portuguesa entre o século 16 e o século 18. Mostra que não dispomos ainda das ferramentas necessárias, ou da plena capacidade para usá-las e interpretá-las. Traços extremamente interessantes emergem porém do que já obtivemos, apontando para o fato de que, diferentemente da nossa hipótese inicial, os padrões rítmicos não podem ser detectados independentemente  mas vêm "borrados" por outros fenômenos, sintáticos e estilísticos. A continuação desta pesquisa, o refinamento das ferramentas e das interpretações, continuam fortemente na ordem do dia.

 

II.        Divulgação dos resultados da  pesquisa

 

Uma atividade importante de divulgação da pesquisa realizada no âmbito do projeto foi realizada durante esse período.

 

2º Seminário Integrado de Pesquisa em Língua Portuguesa, Instituto de Letras da UERJ, Rio de Janeiro,  outubro de 2002.

 

Nesse evento, realizado de 23 a 25 de outubro de 2002, fui convidada para dar a conferência inaugural, para a qual propus o título: "Novos rumos para a pesquisa lingüística no Brasil". O texto será publicado no livro resultante do Encontro, intitulado Língua, Conhecimento e Aplicação.

Os organizadores do Encontro também me pediram para coordenar uma sessão sobre o projeto com 2 participantes do meu grupo. Participaram dessa sessão Helena Britto e Maria Clara Paixão de Sousa. Nessas duas ocasiões, divulgamos amplamente o Corpus e os resultados da pesquisa que ele possibilitou, insistindo sobre os aspectos inderdisciplinares desta pesquisa, e sobre as vantagens da construção de grandes corpora de língua anotados e disponíveis para todos os estudiosos da área.

 

Penn Linguistics Speaker Series, Departamento de Lingüística, Universidade da Pensilvânia,  fevereiro de 2003

Na ocasião da minha viagem ao Departamento de Lingüística da Universidade da Pensilvânia, a convite de Anthony Kroch, apresentei no dia 27 de fevereiro uma conferência intitulada "The change in clitic placement from Classical to Modern European Portuguese: Results from the Tycho Brahe Corpus" nos Colóquios do Departamento. O trabalho foi muito bem recebido pela audiência composta de docentes,  (Anthony Kroch, Gillian Sankoff, Robin Clark, Donald Ringe e David Embick, entre outros)  e alunos de pós-graduação do Departamento.

 

Instituto e Congresso internacional da ABRALIN, Rio de Janeiro, março de 2003

No Instituto da Abralin, de 10 a 15 de março de 2003, Anthony Kroch e eu oferecemos um curso intitulado Quantitative Historical Syntax. Tratava-se de ilustrar e defender uma abordagem da lingüística histórica que articulasse a concepção gerativista de gramática ao trabalho com a quantificação de grandes quantidades de dados fornecidas por Corpora anotados morfologica e sintaticamente. Ilustrei a minha parte do curso com análises baseadas em dados do Corpus Tycho Brahe.

No Congresso, o grupo do Corpus ofereceu uma Sessão coordenada, coordenada por mim, da qual participaram Maria Clara Paixão de Sousa, Sílvia Regina de Oliveira Cavalcante e Cristiane Namiuti Temponi, cada uma apresentando a sua pesquisa de doutorado ou mestrado baseada no Corpus. Também propusemos  um conjunto de  comunicações  sobre a construção do Corpus e da base de dados. Todas essas atividades tiveram um público grande  e extremamente interessado.

 

Encontro de Matemática e Estatística, Universidade Federal de  Goiânia, outubro de 2002,  e 1ª  Bienal de Matemática, organizada pela Sociedade Brasileira de Matemática na Universidade Federal de Minas Gerais, novembro de 2002.

Nesses dois eventos, Antonio Galves ofereceu um curso intitulado "Modelagem Estocástica do Ritmo da Fala" que faz uma apresentação  da pesquisa sobre o assunto no âmbito do projeto (cf. texto em anexo). Uma versão revisada das notas do curso será publicada na Revista de divulgação  científica da SBM Matemática Universitária. 

 

 Instituto de Matemática da Universidade da Borgonha, em Dijon,  abril de 2003.

Nos dias 28 e 29 de abril de 2003, Antonio Galves deu na Universidade da Bourgogne uma versão mais avançada desse curso intitulado "Modélisation stocastique du rythme de la parole".

 

Seminários do Departamento de Filologia e Língua Portuguesa da Universidade de São .Paulo,  maio de 2003.

A última apresentação do projeto durante a vigência do Temático aconteceu na USP, em 28 de maio, num seminário a convite dos colegas do Departamento de  Filologia e Língua Portuguesa, com o título: "Sintaxe diacrônica baseada em grandes corpora: o Corpus Tycho Brahe e a história da colocação dos clíticos no português europeu".  Como testemunho da recepção da minha fala, permito-me juntar cópia da mensagem mandada à CVL pelo Prof. Artaxerxes Modesto no dia seguinte. Acrescento que o público foi em grande parte constituído de alunos, que manifestaram o desejo de aprender a usar a metodologia de busca de dados no Corpus, sendo previsto um workshop com essa finalidade para um futuro próximo.

 

 

 

III.      Projetos de Iniciação Científica, dissertações e teses.

 

Durante o período, foram defendidas as seguintes dissertações e teses, todas de grande relevância para o projeto:

- Ester Tenani, "Domínios prosódicos no Português do Brasil: implicações para a prosódia e para a aplicação de processos fonológicos", doutorado, orientadora: Maria Bernadete Abaurre, IEL-UNICAMP, 23/08/2002.

- Denise Duarte, "Aproximações markovianas e reamostragem em cadeias de ordem infinita  com aplicação à linguística", doutorado, orientador: Antonio Galves, IME-USP, 18/02/2003.

- Alba Verona Brito Gibrail, "O acusativo preposicionado no português clássico: uma abordagem diacrônica e teórica", mestrado, orientadora: Charlotte Galves, IEL-UNICAMP, 18/02/2003.

- Archias Alves de Almeida Filho, "Aprendizado Computacional por Maximização da Entropia e seu Emprego à Lingüistica Computacional", mestrado,  orientador Marcelo Finger, IME-USP, 20/03/2003.

- Brenda Silva Veloso, "A elisão de monomorfemas em casos de sândi vocálico externo em três variedades de português", Maria Bernadete Abaurre, IEL-UNICAMP, 31/03/2003.

 

Vários projetos de iniciação científica e monografias foram concluídos, e outros apresentaram relatórios evidenciando uma pesquisa já consolidada:

- Ana Ruth Bittencourt, "Entendendo o sotaque através da teoria da otimalidade. Iniciaçao cientifica", FAPESP, orientadora Filomena Sândalo, concluído em 2002.

- Emilio de Camargo Francesquini, "Sistema Fonético de aproximação ortográfica de palavras do português, monografia de curso, orientador: Marcelo Finger, concluído em 2002.

- Luiza Pagliari, "Análise estatística e identificação de classes rítmicas em grandes corpora de fala", CNPq/PIBIC, orientador Antonio Galves.

- Lucianne Chociay,   "O papel do tipo de clítico na colocação enclítica ou proclítica no Português clássico",  FAPESP, orientadora Charlotte Galves.

- Gilcélia Menezes,  "A Colocação de Clíticos nas Orações Coordenadas do Português Clássico",  FAPESP, orientadora Charlotte Galves.  

 

Enfim, 5 novos projetos foram apresentados ou em fase de preparação, evidenciando a dinâmica do projeto, em todas as áreas concernidas:

- André Antonelli,  "Sintagma Preposicional e Topicalização na História da Colocação de Clíticos do Português Clássico ao Português Europeu Moderno", FAPESP, orientadora Charlotte Galves.

- Carlos Yassunori Kobayashi, "Editor de etiquetas XML para a confecção de cabeçalhos em Texto de Corpora", orientador: Marcelo Finger.

-  Giseli Tordin, "Correlatos acústicos do ritmo em português europeu e português brasileiro, submetido à FAPESP, orientador: Antonio Galves.

- Thais Giannico, "Entoação e a Formação de Sintagma Fonológico no PB", submetido à FAPESP, orientadora: Filomena Sandalo. 

- Angela Satomi, "Elisão e Epêntese vocálica na história do português: um estudo rítmico",  submetido ao PIBIC/CNPq, orientadora: Filomena Sandalo. 

 

 

III. Uso dos recursos e da reserva técnica

 

Equipamentos informáticos

Com a verba remanescente do projeto foi adquirida uma nova servidora, de marca DELL, para a sub-rede do projeto, que sofreu um pouco nos últimos tempos com o desgaste dos equipamentos adquiridos logo no início do projeto, e a rapidez com que eles se tornam insuficientes. Um dos dois primeiros computadores perdeu seu HD, que se fragmentou, e o outro está com um problema ainda não identificado. O HD será substituído pelo Setor de Informática do IEL. Esperamos que o problema do outro computador seja sanável. Ressalto o fato de que a máquina DELL recentemente adquirida consiste sómente de uma CPU de grande porte (40 GB de disco e 1.4 GHertz de velocidade de processamento), e  sem gastos   para sistema operacional, nem monitor.   Rodará em sistema Linux, de domínio público,  com um monitor providenciado pelo Setor de Informática do IEL.

 

Visita a Pensilvânia

A convite do Prof. Anthony Kroch, visitei o Departamento de Lingüística da Universidade da Pensilvânia de 20 de fevereiro a 4 de março de 2003. A viagem foi paga pelo Departamento. Durante esse período, além de participar do 27o Penn Linguistics Colloquium, e falar na Penn Linguistics Speaker Series, como mencionado acima,  fiz uma pesquisa preliminar com Anthony Kroch sobre  a correlação da posição do sujeito e a colocação de clíticos no texto já parseado do nosso Corpus (Matias Aires), usando a ferramenta Corpus Search desenvolvida no âmbito do projeto coordenado por ele. Também preparamos o curso que demos em conjunto na ABRALIN. Enfim, foi a ocasião de discutir de maneira detalhada o trabalho apresentado no Colóquio com  o Prof. David Embick, um dos jovens pesquisadores com pesquisa mais promissora no âmbito da chamada Morfologia Distribuída.

 

Reserva Técnica

Com a Reserva Técnica, adquiriu-se o sistema MacOS X.2 para instalação no I-Mac G3 do Projeto. Esse sistema, baseado no sistema operacional UNIX,  providencia compatibilidade total com os sistemas Windows e Linux, e permite  fazer com que os três sistemas  compartilhem a mesma rede, otimizando os nossos recursos. Também adquirimos a licença para universitários da última versão do Office da Microsoft.

Durante a minha estadia na Pensilvânia, adquiri um "mini-drive" USB de 256 MB. Trata-se de um dispositivo do tamanho de um chaveiro que tem a capacidade de memória de 200 disquetes e pode ser ligado em qualquer computador que tenha tomada USB. Tem sido de grande valia para o transporte rápido e seguro de grandes arquivos no interior do projeto.

Nessa fase final do projeto, uma verba importante da RT foi usada para consertar problemas com o material já mais antigo, permitindo que eles possam ser usados ainda um bom tempo pelos pesquisadores e alunos do projeto e do IEL.  Também se instalou uma placa de rede num dos lap-tops mais antigos, que não tinha esse recurso, indispensável agora. Enfim,  fora o material de consumo e os convites a pesquisadores de fora da Unicamp que relatarei abaixo, a RT também foi utilizada para comprar os livros cuja lista segue em anexo.

 

Visitas de pesquisadores visitantes

Foram os seguintes os pesquisadores que visitaram a equipe com recursos da Reserva Técnica, durante o período considerado:

Marzio Cassandro visitou  o Departamento de Estatística da USP de 25 de outubro a 1º de novembro de 2002. Durante esse período, trabalhou com Antonio Galves, Jesus Garcia e Denise Duarte no texto "An universal linear relation among acoustic correlates of rhythm", em anexo, que constituí a versão inicial de um artigo maior em andamento.

Dante Lucchesi, da Universidade Federal da Bahia,  esteve no Departamento de Lingüística da Unicamp de 19 a 22 de novembro de 2002. Durante esse período, ele se familiarizou com as ferramentas de anotação usadas no Corpus Tycho Brahe, com o objetivo de usá-las no Corpus de língua falada por comunidades rurais na Bahia que ele  vem construindo. Ele  assistiu também a um colóquio do Departamento de Lingüística apresentado por Helena Britto, pós-doutoranda do projeto, e proferiu uma conferência na qual ele relatou sua própria pesquisa.

 A colaboração com o Prof. Dante é bastante importante  em dois sentidos. Primeiro ela proporciona  a oportunidade de discutir os nossos resultados e nossas análises com  um pesquisador que tem um horizonte teórico distinto, de orientação fortemente socio-lingüística, o que tem se revelado muito produtivo. Segundo, trabalhamos no sentido de homogeneizar os procedimentos de construção de corpora do português, usando as ferramentas de anotação desenvolvidas no âmbito do nosso projeto.  Tal homogeneização é um passo importante para a  implantação de uma rede de grupos de pesquisa com o objetivo comum é a descrição sincrônica e diacrônica do português, nas suas variantes portuguesas e brasileiras, com base em grandes corpora anotados. Outros contatos nesse sentido estão em fase bastante avançada. Citarei entre outros projetos já bastante definidos de intercâmbio com Américo Venâncio e Tânia Lobo, ambos da UFBa,   Afrânio Barbosa e Carlota Rosa do Amaral, da UFRJ, e Lorenzo Vitral da UFMG.    

No mês de março de 2003, aproveitamos a presença da pesquisadora Shana Poplack no Congresso Internacional da Abralin no Rio de Janeiro, e sua vinda a São Paulo para realizar pesquisa de campo, para convidá-la a vir apresentar a sua pesquisa recente no âmbito do nosso projeto. No dia 20 de março, ela proferiu a palestra "Prescrição e praxis na evolução da gramática", que foi a ocasião de discutir amplamente as nossas respectivas abordagens da variação lingüística.

Enfim, a recém-doutora do projeto Denise Duarte  visitou a USP nos dias  19, 20 e 21 de maio. Nesse período, ela trabalhou no artigo "Stochastic modelling of the speech sonority: quantization and cross language estimation of the Cut Point" (Cassandro, Collet, Duarte, Galves e Garcia, em andamento). Uma versão preliminar resumida do segundo artigo se encontra no texto "An universal linear relation among acoustic correlates of rhythm" .

 

                                                                                 

Campinas, 30 de maio de 2003

 

 

Charlotte Marie Chambelland Galves