Padrões Rítmicos, Fixação de Parâmetros & Mudança Lingüística

Projeto Completo

Objetivos  

Este projeto situa-se na continuação do projeto homônimo, processo 1998/03382-0, cujo balanço final segue na Seção Resultados de Auxílios anteriores .

O primeiro objetivo do presente projeto é a extensão e consolidação do Corpus Tycho Brahe ( http://www.ime.usp.br/~tycho/corpus ), elaborado na fase anterior, tanto no que diz respeito aos textos que o compõem quanto à sua anotação morfológica e sintática.

O segundo objetivo é usar o Corpus para estudar a história do português a partir das seguintes questões:

•  Quais são as características da gramática intermediária entre a do português arcaico e do português europeu moderno?

•  Qual é a trajetória no tempo dessa gramática?

•  Como se dá a emergência do português europeu moderno?

De uma maneira mais geral, este projeto se insere em duas grandes problemáticas da teoria da linguagem:

•  O que provoca a mudança lingüística?

•  Como essa mudança se dá ao longo do tempo?

Enfim, o projeto enfrenta a questão metodológica da detecção da mudança nos textos escritos. Para isso pretende articular análise qualitativa - no âmbito da teoria da gramática gerativa - e análise quantitativa, lançando mão da estatística descritiva e da modelagem estocástica.

[topo]

Justificativa

A história das línguas românicas em geral, e do português em particular, carece de estudos aprofundados que focalizem os períodos posteriores ao século 16, uma vez que esse século é considerado como o marco inicial das línguas modernas (cf. Mattos e Silva 1992 para uma síntese dos estudos sobre periodização do português). No caso da língua portuguesa, essa concepção é particularmente inadequada, porque além do surgimento posterior do português brasileiro, o próprio português europeu sofre mudanças notáveis depois do séc. 16. O Projeto anterior veio assim preencher uma lacuna importante com a construção do Corpus Tycho Brahe que abrange autores nascidos entre os últimos anos do séc. 15 e meados do séc. 19, e a análise detalhada de um dos fenômenos em mudança nesse período mais notável, a colocação de clíticos. Baseado no Corpus Tycho Brahe, e expandindo-o da maneira que será descrita abaixo, o presente projeto propõe-se a aperfeiçoar o estudo dessa fase do português europeu, ampliando os fenômenos estudados, de maneira a fundamentar melhor a caracterização das gramáticas envolvidas e a localização dos seus limites no tempo. O melhor conhecimento dessa fase intermediária do português tem conseqüências para a compreensão de toda a história da língua, inclusive para o português brasileiro, nascido no período contemplado pelo projeto.

A elaboração de grandes corpora anotados de língua vem se afirmando como um recurso imprescindível para fazer lingüística histórica hoje. Fora do Brasil, vários grandes projetos com essa finalidade estão em andamento, como o projeto pioneiro do Penn Helsinki Parsed Corpus of Middle English , coordenado por Anthony Kroch na Universidade da Pensilvânia, atualmente com 1.800.000 palavras morfologicamente anotadas e sintaticamente analisadas, e os seus afiliados o York Helsinki Parsed Corpus of Old English Poetry , coordenado por Susan Pintzuk e Leendert Plug, o York Toronto Helsinki Parsed Corpus of Old English Prose, coordenado por Ann Taylor, Anthony Warner, Susan Pintzuk, Frank Beths, ambos na Universidade de York, o Penn Helsinki Parsed Corpus of Early Middle English coordenado por Anthony Kroch e Beatriz Santorini na Universidade da Pensilvânia, e enfim o Parsed Corpus of Early English Correspondence coordenado por Ann Taylor, Anthony Warner, Susan Pintzuk na Universidade de York, e por Terttu Nevalainen e Arja Nurmi na Universidade de Helsinki. Todos esses corpora têm em comum o fato de serem disponíveis na teia mundial de computadores, e de serem anotados morfologicamente e sintaticamente, o que permite a recuperação rápida e confiável de grandes quantidades de informação. Vale citar também o projeto de Corpus annoté syntaxiquement de textes de français (9è au 17è siècle) coordenado por France Martineau e Paul Hirschbuhler na Universidade de Ottawa, e o projeto Corpus Dialetal Sintático (CordialSin), coordenado por Ana Maria Martins na Universidade de Lisboa.

Para o português histórico, o Corpus Tycho Brahe é o único, já disponível, a seguir os mesmos sistemas de divulgação e anotação. Na primeira fase, alcançou 1.851.619 palavras ortograficamente transcritas, das quais 1.040.666 já estão morfologicamente etiquetadas, e 56.479 sintaticamente analisadas. Até hoje, centenas de pesquisadores do mundo inteiro pediram acesso ao Corpus. Para que ele atinja plenamente seus objetivos, é preciso aumentar o número de palavras sintaticamente analisadas, desenvolvendo plenamente o atual protótipo de analisador que foi desenvolvido no âmbito do projeto em colaboração com a Universidade da Pensilvânia. A questão dos analisadores automáticos transcende a questão histórica, e se afirma hoje como um dos desafios mais importantes do tratamento automático da linguagem.

Enfim, na linha do anterior, o presente projeto se situa numa área pioneira dos estudos da linguagem, onde se articulam modelos teóricos lingüísticos - nomeadamente a Teoria da Gramática Gerativa - e abordagens quantitativas que não se limitam à estatística descritiva, mas enveredam por novos caminhos de modelagem estocástica.

[topo]

Estado da arte  

1. Quanto aos corpora anotados

A questão mais complexa envolvida na construção de grandes corpora anotados são as ferramentas de anotação automática. No projeto anterior, Marcelo Finger (IME-USP) desenvolveu um etiquetador automático para o português baseado em parte no etiquetador de Eric Brill para o inglês (cf. Finger 1998, 2000). Esse etiquetador alcançou uma precisão de 97% para os textos modernizados. Começamos também a trabalhar na elaboração de um analisador sintático, seguindo o sistema de anotação desenvolvido para o inglês no projeto de Anthony Kroch na Universidade da Pensilvânia (cf. http://www.ling.upenn.edu/mideng ). O texto Reflexões sobre a vaidade dos homens , de 56.479 palavras, foi anotado manualmente por Helena Britto, pós-doutoranda do projeto anterior, , seguindo o esquema elaborado por ela e descrito no manual de anotação sintática disponível em http://www.ime.usp.br/~tycho/corpus/manual .

Esse texto, disponível no Corpus Tycho Brahe, serviu de base para treinar para o português um analisador sintático ( parser ) multilingue desenvolvido por Dan Bikel na Universidade da Pensilvânia, posto à nossa disposição graças à mediação de Anthony Kroch. O resultado desse treinamento foi aplicado a um novo texto (as Cartas do Cavaleiro de Oliveira - 51, 080 palavras) com um razoável sucesso. Parte do resultado da análise automática foi corrigida durante a vigência do projeto anterior. O analisador deverá passar por uma segunda etapa de treinamento quando tivermos 100.000 palavras corrigidas, com um novo texto que será em seguida corrigido manualmente.

A seqüência treinamento/correção é própria da metodologia dos analisadores probabilísticos. Esses nos parecem mais adequados que os analisadores baseados em regras (como o de Eckard Bick), por serem mais flexíveis e evolutivos. Seguimos nisso a opção metodológica seguida pelos Corpora citados acima. Para a correção, tanto da anotação morfológica quanto da análise sintática, temos à nossa disposição ferramentas desenvolvidas por Anthony Kroch e seus colaboradores na Universidade da Pensilvânia. Isso torna a correção mais eficiente, mais rápida, e menos sujeita a erros. Ainda assim, trata-se de uma etapa que concentra parte importante dos trabalhos, além de requerer uma boa competência gramatical e um conhecimento apurado dos sistemas de anotação. Por isso, e para evitar problemas na consistência da anotação, os projetos referidos acima, bem como o nosso na sua fase anterior, têm preferido confiar a tarefa de correção a poucas pessoas, de comprovada competência. A correção da análise sintática, a mais complexa, tem sido realizada por pós-doutores. Na Pensilvânia, para citar o caso mais emblemático, tem estado sucessivamente a cargo de Ann Taylor, co-autora do sistema de anotação com Anthony Kroch, e de Beatriz Santorini.

A ampla variação na grafia observada na história do português tem sido um problema para o uso de ferramentas automáticas de anotação. De um acerto de 97% em textos modernizados, o nosso etiquetador cai para em torno de 75% em textos com as grafias mais antigas. Essa questão foi enfrentada no projeto anterior com um certo sucesso, tanto de um ponto de vista lingüístico (cf. o projeto de iniciação científica de Thais Menegatti orientado por Helena Britto - Menegatti 2002 -), quanto computacional, pela integração ao etiquetador de um módulo de modernização de palavras, a partir das regras produzidas pela pesquisa lingüística (cf. a monografia de Emílio de Camargo Francesquini orientada por Marcelo Finger - Francesquini 2002-).

[topo]

2. Quanto ao estudo da história das línguas

A lingüística histórica, muito marginalizada até os anos 90 do século 20, está passando por um processo de renovação e está atualmente em plena expansão. A tecnologia de grandes corpora eletrônicos é certamente um fator essencial para essa renovação. Mas o desenvolvimento da teoria lingüística também desempenhou nela um papel crucial. No final dos anos 80, Marianne Adams pôde afirmar na sua tese de doutorado que a teoria gerativa era suficientemente madura para possibilitar a análise de dados de linguagem para os quais o recurso à intuição dos falantes nativos fosse impossível. O modelo de Princípios e Parâmetros, construído com base da comparação das línguas, permitia de fato interpretar os fatos encontrados e lhes atribuir uma gramática subjacente. A mudança sintática passou então a ser interpretada como a mudança na fixação de um ou mais parâmetros. Nesse sentido, dada a hipótese de que os parâmetros são fixados no processo de aquisição natural de uma língua materna pelas crianças, o trabalho com a diacronia se tornou um laboratório para o estudo da aquisição. Com efeito, do ponto de vista gerativista, a mudança se dá quando uma criança fixa um ou mais parâmetros diferentemente dos seus pais, ou seja, a mudança não é senão uma "aquisição imperfeita" (Kroch 2001). O estudo da mudança propicia então uma janela sobre a aquisição (cf. Lightfoot 1991, 1999, e Clark e Roberts 1993).

Contudo, apesar de haver consenso sobre a estreita relação entre mudança e aquisição, há divergências entre os estudiosos da área sobre a interpretação dos dados. Como interpretar a mudança visível nos textos? Essa mudança é a maior parte das vezes gradual, enquanto a mudança paramétrica é por definição abrupta. Duas hipóteses surgem então. A primeira é que a mudança é gradual nos textos porque a mudança paramétrica é o fim de um processo que envolve sucessivamente mudança de freqüência de uma determinada construção, reanálise dessa construção, e enfim mudança gramatical (cf. Roberts 1993, ou Lightfoot 1999, com ênfase na questão da frequência). A segunda hipótese é que o que vemos nos textos não é a mudança em si, mas suas conseqüências: a tensão, no desempenho escrito dos falantes, entre a gramática nova e a gramática antiga. Aquilo que Kroch (1994, 2001) denomina "Competição de gramáticas". Essa interpretação é reforçada pelo Efeito da Taxa Constante (Kroch 1989, cf. mais abaixo), que mostra que o que observamos não é a mudança no uso de certas opções estilísticas, ou no sentido de determinadas expressões e que finalmente provocam a mudança devida à modificação dos dados lingüísticos primários, mas a substituição da antiga gramática pela nova, a partir da situação de diglossia criada pela nova fixação de determinado parâmetro.

Para ilustrar esse ponto no que diz respeito à localização da mudança, observe-se o seguinte gráfico da evolução da ênclise em construções com verbo não inicial na história do português (tirado de Galves, Britto e Paixão de Sousa 2003). No gráfico, cada ponto corresponde à freqüência de ênclise nas construções com variação ênclise/próclise em um determinado autor (ou obra desse autor). As datas na linha do tempo correspondem à data de nascimento desse autor.

Gráfico 1: proporção de ênclises X próclises em sentenças V2 - sécs 16 a 19

 

Do ponto de vista da primeira hipótese, a mudança paramétrica teria acontecido no século 19, quando a forma proclítica desaparece (quase) por completo. Mas do ponto de vista da segunda hipótese, a mudança teria se dado na virada do século. 18 (lembrando que a variação observada no início do séc. 17 é de natureza estilística, cf. Galves 2001b.).

O grande desafio da lingüística histórica é assim resumido por Pintzuck, Soulas e Warner (2000): " How is the E-language of historical texts to be interpreted with respect to the I-language of its speakers ?", onde lingua-E significa "ocorrências", e Língua-I significa "gramática". Essa questão se coloca em dois níveis. Um é mais propriamente o desafio que se põe ao lingüista gerativista histórico: nós só temos acesso às produções escritas dos falantes dos tempos passados, e queremos entender, a partir disso, suas gramáticas. O outro nível diz respeito à relação da aquisição com a mudança. O que desencadeia a aquisição imperfeita? Qual é a mudança na língua-E que leva novas gerações a chegar a uma nova fixação paramétrica?

Deve se ressaltar que o papel da mudança rítmica na "aquisição imperfeita" (ou seja, na mudança gramatical), fortemente assumido na tese pioneira de Marianne Adams - e que desempenha um papel explicativo não desprezível em Roberts (1993) a respeito da história do francês, bem como no modelo de Clark e Roberts (1993) como motor da modificação das freqüências associadas a certas formas - foi em seguida ignorado pela maior parte dos trabalhos gerativistas sobre a mudança, com exceção do projeto anterior a este, que lhe deu um papel central. Tal fato se deve mais a dificuldades inerentes à teoria lingüística do que à ausência de exemplos históricos em que tradicionalmente se apontou para uma relação causal entre mudanças fonéticas e mudanças gramaticais bem descritas, como a evolução do latim clássico para o latim vulgar, e a perda do fenômeno V2 em francês antigo, para citar os mais populares.

Independentemente das escolhas interpretativas, às quais voltaremos abaixo, uma idéia tornou-se cada vez mais dominante: quanto mais dados tivermos, mais fundamentação teremos para nossas análises. Os grandes corpora se tornam então um instrumento imprescindível, e a abordagem quantitativa uma necessidade.

[topo]

3. Quanto ao estudo da história do português

No quadro da gramática gerativa, como nos estudos clássicos, com a exceção dos estudos produzidos no âmbito do projeto Padrões rítmicos, Fixação de parâmetros e Mudança lingüística , e de Torres Moraes (1995), o período mais focalizado da história do português europeu, inclusive nos estudos recentes, tem sido o período arcaico até o séc. 16 (cf. Fiéis 1996, Martins 1994, 2002, Parcero 1999, Ribeiro 1995 a,b. para o quadro gerativista, e Maia 1986 e Mattos e Silva 1989 para outras abordagens).

Com base no Corpus Tycho Brahe , e através do estudo da colocação de clíticos, foi possível mostrar que existe uma gramática intermediária entre o português arcaico e o português europeu moderno, contrariamente à análise de Martins (1994) (cf. em particular Galves 2001, Galves, Britto e Paixão de Sousa, 2003 e Namiuti 2003). O limite final da instanciação no tempo dessa gramática também foi localizado. Adotando a visão de competição de gramáticas proposta por Kroch, o gráfico 1 acima mostra que a gramática do português moderno emerge nos autores nascidos na virada do século 17 para o 18.

O assunto mais estudado na história do português é certamente a colocação de clíticos, um dos fenômenos mais claramente variáveis ao longo dos séculos. Temos agora uma descrição bastante detalhada da distribuição da ênclise e da próclise ao longo dos séculos. O projeto anterior produziu uma ampla base de dados, com 29.974 instâncias selecionadas em textos escritos por autores nascidos entre o início do séc. 16 e metade do séc. 19. Faz-se necessário ainda, contudo, controlar melhor os dados do ponto de vista dos gêneros textuais, e dos dialetos geográficos e sócio-culturais (cf. Paixão de Sousa 2004a para uma tematização detalhada dessa questão). O fenômeno da interpolação tem sido bastante estudado, destacando-se o trabalho minucioso de Martins (1994) com base em textos notariais do séc. 13 ao séc. 16, e o de Namiuti (2003); mas, também neste caso, falta controlar melhor o gênero. Quanto aos outros fenômenos de ordem em mudança, além de estudos essencialmente qualitativos como Martins (2002) sobre Scrambling , existem alguns estudos quantitativos, como por exemplo Martins (1994) sobre a colocação de clíticos, Ribeiro (1995 a e b.) sobre a ordem V2 , Torres Moraes (1995) também sobre V2, Parcero (1999) sobre fronteamento de constituintes, Paixão de Sousa (2003) sobre a posição do sujeito. Desses estudos, apenas o de Paixão de Sousa se baseia num grande Corpus anotado; mas na ausência de anotação sintática, se limita às sentenças com clíticos. Com efeito, o Corpus Tycho Brahe , na sua versão atual, permite levantar rapidamente todas as orações com clíticos dos textos e mesmo realizar parte do trabalho de classificação automaticamente. Mas, sem a anotação sintática, é impossível recuperar automaticamente os dados relevantes para estudos sobre a ordem dos constituintes, uma vez que os limites de sintagmas e suas funções não estão indicados.

De um ponto de vista gerativista, o que importa é desvendar as gramáticas subjacentes aos fenômenos, e em se tratando de estudos diacrônicos, as gramáticas em presença nos textos. Para isso, é insuficiente ter à disposição a descrição de um só fenômeno, seja qual for a quantidade de dados em que ela se fundamente. Toda análise faz predições que é essencial poder verificar. Essas predições podem dizer respeito a qualquer área da sintaxe. Para que os textos desempenhem sua função de informante a contento, a anotação sintática é uma condição sine qua non .

Um bom exemplo da estreita correlação entre os fenômenos, quando analisados do ponto de vista gerativista, é dado pela colocação de clíticos, assunto central do projeto anterior. As hipóteses sobre a natureza da ênclise nas frases com tempo têm implicações para a posição do verbo e dos constituintes pré-verbais, uma vez que é geralmente considerada um fenômeno de verbo em primeira posição, ligado à aplicação da Lei de Tobler-Mussafia, que bane um clítico em posição inicial (cf. Barbosa 1996, 2000; Benincà 1995; Galves 2001, Galves, Britto e Paixão de Sousa 2003, Salvi 1991, entre outros). O projeto anterior trouxe evidência de que a ênclise é um fenômeno V1 no português clássico, mas deixa de sê-lo na mudança para o português europeu moderno. Isso obviamente faz predições sobre a evolução do comportamento de sujeitos, tópicos e outros sintagmas deslocados para a periferia inicial da sentença, as quais precisam ser confrontadas a uma descrição exaustiva do comportamento desses elementos nos textos.

Voltando à relação complexa entre Língua-E e língua-I, uma das hipóteses de trabalho do projeto anterior era a de que a mudança fonética sofrida pelo português e atestada por testemunhos como o do foneticista do século 19 Gonçalves Vianna (mas que, conforme Teyssier 1981 já podem ser encontrados numa Petite Grammaire Portugaise de 1671) teria desencadeado a mudança sintática que afetou a posição dos clíticos - e em última análise, toda a gramática. A aquisição imperfeita que levou à mudança seria devida assim à adoção, pelos falantes, de um novo padrão rítmico, responsável pelas mudanças fonéticas, bem como pelas mudanças sintáticas. Um modelo para essa relação na aquisição e na mudança, no quadro do formalismo termodinâmico, se encontra em Galves e Galves (1995). O projeto anterior permitiu dar a essa hipótese uma formulação lingüística mais precisa, ao explicitar as diferenças envolvidas entre os padrões rítmicos do português clássico (identificado, desse ponto de vista, ao português brasileiro) e do português europeu moderno (cf. Abaurre et al. 2003 e Galves e Sândalo 2004). Lançou, também, as bases de uma metodologia para a deteção dos padrões rítmicos em textos escritos (cf. Galves, Galves, Garcia e Peixoto 2003).

[topo]

4. Quanto à relação ritmo/sintaxe na mudança gramatical

O projeto anterior nasceu em grande parte da necessidade de dar uma base empírica mais sólida e uma formulação lingüística mais adequada ao trabalho inicial de Galves e Galves (1995). Galves e Galves propõem um modelo no qual o papel da mudança de padrão rítmico na mudança sintática se dá em dois níveis e momentos distintos. O primeiro nível diz respeito ao aumento da freqüência de uma determinada construção em detrimento de outra porque ela é favorecida pelo novo padrão, sem que isso envolva uma mudança gramatical, ou seja, sem que afete a estrutura subjacente ao enunciado. O segundo aspecto corresponde à mudança gramatical propriamente dita. É quando as crianças são levadas pela sua percepção do novo padrão rítmico a escolher uma gramática diferente da dos seus pais. A idéia é que a escolha entre duas gramáticas depende crucialmente de uma correspondência entre estrutura prosódica e estrutura sintática. Dada uma amostra de sentenças, a criança atribui estruturas às expressões morfológicas presentes nessa amostra. Ela realiza essa tarefa procurando as estruturas que se conformam melhor ao padrão prosódico dos pais. A gramática escolhida é a que gera essas estruturas.

Além de conferir a esse modelo uma base empírica mais sólida e uma formulação lingüística mais adequada, o projeto anterior refinou a modelagem proposta inicialmente, adequando-a ao conceito de competição de gramáticas de Kroch (1994). Os trabalhos se concentraram em duas linhas de pesquisa complementares. Por um lado, com base na hipótese de que o português clássico é, no que diz respeito à prosódia, próximo do português brasileiro, procurou-se caracterizar rigorosamente a diferença entre este e o português europeu moderno, a fim de entender a natureza da mudança. Estudos descritivos no quadro da fonologia de laboratório (Frota e Vigário 2000, Tenani 2002), bem como análises na teoria da otimalidade (Abaurre, Mandel, Sândalo e Galves 2003), ou modelagens estatísticas (Galves, Galves, Garcia e Peixoto 2003), convergiram para uma conclusão robusta: o português brasileiro e o português europeu instanciam prosódias radicalmente distintas, apontando em última análise para uma diferença nos domínios relevantes para a aplicação das restrições e processos fonéticos. Isso tornou possível um modelo de articulação mudança prosódica/mudança sintática compatível com a hipótese inicial de que a mudança sintática teria sido desencadeada pela mudança prosódica (cf. Galves e Sândalo 2004).

Por outro lado, procurou-se localizar essa mudança prosódica no tempo, de maneira a sustentar empiricamente a hipótese de que essa mudança teria precedido imediatamente a mudança sintática. A modelagem da mudança prosódica e a análise da mudança sintática afetando a colocação de clíticos (cf. Galves 2001 e Galves, Britto e Paixão de Sousa 2003) nos permitiram interpretar certos dados estranhos do ponto de vista sintático, como por exemplo o comportamento inesperado da interpolação a partir do fim do século 17 (cf. Namiuti 2004), como reflexos da mudança prosódica. O projeto produziu, assim, várias evidências convergentes de que a mudança prosódica teria ocorrido na segunda metade do século 17.

[topo]

5. Quanto ao desenvolvimento da modelagem estocástica

Para atingir a Língua-I, é preciso modelar adequadamente a língua-E, a nossa matéria bruta. O primeiro passo é uma estatística descritiva robusta, baseada num conjunto apropriado de dados. Mas pode-se ir além. Apresentarei aqui duas direções de pesquisa nesse sentido.

Usando um modelo de regressão logística, Kroch (1989) mostrou que a taxa de mudança em diferentes contextos superficiais refletindo uma única mudança paramétrica é a mesma, contrariamente à teoria segundo a qual as mudanças se propagam mais rapidamente em certos contextos do que outros (Bailey 1973). Ele pôs em evidência que mudanças afetando fenômenos distintos, mas associados na sincronia a uma mesma fixação paramétrica, (como o uso de do perifrástico e a posição dos advérbios em inglês) seguem uma taxa constante de evolução. Esse Efeito da Taxa Constante ( Constant Rate Effect ), uma vez solidamente fundamentado no plano empírico, se torna um teste valiosíssimo para avaliar se duas mudanças são o efeito de uma única re-fixação paramétrica.

Uma outra ferramenta está emergindo dos trabalhos ligados ao projeto anterior, e deve nos auxiliar a detectar os padrões rítmicos nos textos escritos. Trata-se de modelar as sentenças dos textos como Cadeias de Markov de alcance variável (cf. Galves, Galves, Garcia e Peixoto 2003). Os símbolos das cadeias são os elementos rítmicos recuperáveis na escrita: sílabas acentuadas, sílabas não acentuadas, início de palavras fonológicas ( ie. uma palavra lexical mais todas as palavras não acentuadas que a precedem). A marcação dos textos é feita automaticamente, e um programa implementado em R calcula os contextos (ou seja, os símbolos ou seqüências de símbolos a partir dos quais uma decisão é tomada quanto ao símbolo seguinte), bem como as probabilidades de transição para determinados símbolos. Os trabalhos preliminares sobre textos modernos do português europeu (PE) e do português brasileiro (PB) mostraram que eles se distinguem em relação às sílabas acentuadas, que são contexto no primeiro, mas não no segundo. Ou seja, no PE, mas não no PB, a presença de uma sílaba acentuada é suficiente para que seja tomada uma decisão sobre o próximo passo, sem informação sobre o que precede essa sílaba. Essa relevância da sílaba acentuada nos textos do PE vai ao encontro de outros resultados, obtidos com métodos inteiramente distintos, que mostram o papel preponderante do troqueu no ritmo dessa língua (cf. Abaurre, Mandel, Sândalo e Galves 2003). Parece então que a hipótese de trabalho subjacente a essa pesquisa é bem fundada: os textos escritos refletem de alguma maneira o ritmo da língua oral. Esse resultado é muito importante para a continuação da indagação sobre a relação do ritmo e da sintaxe na história do português europeu, porque nos proporciona um instrumento de análise aplicável a grandes corpora de textos históricos, com o intuito de datar a mudança dos padrões rítmicos.

[topo]  



Detalhamento do projeto

 

O Corpus Tycho Brahe, Fase II

•  Desenvolvimento do analisador sintático automático para o português

Este projeto tem como marco inicial a constatação de que não se pode progredir na compreensão da história das línguas, aqui o português, se não estiverem disponíveis grandes quantidades de dados que permitam responder a qualquer tipo de pergunta sintática de maneira rápida e confiável. Assim se justifica a afirmação de que nossa tarefa prioritária é a construção de um grande corpus anotado sintaticamente. Esse corpus já existe parcialmente, mas precisa agora chegar à forma final que permitirá seu pleno aproveitamento. Propõe-se, portanto, concentrar os dois primeiros anos nessa tarefa, reservando para o segundo biênio as análises sintáticas que dependem da disponibilidade dos dados.

O objetivo total é atingir 2.000.000 de palavras sintaticamente analisadas ao final da vigência do projeto. Temos atualmente cerca de 50.000 palavras analisadas. No primeiro biênio, pretende-se chegar a 1.000.000 de palavras, sendo 350.000 no primeiro ano (uma vez que o analisador ainda então estará pouco performante), e 600.000 no segundo. O parser a ser usado continuará sendo o de Dan Bickel, e o trabalho de correção deverá ser realizado em tempo integral por uma pós-doutoranda, Sílvia de Oliveira Cavalcante, que tem familiaridade com o Corpus do Inglês Médio da Pensilvânia. Com base no trabalho já realizado por Helena Britto, ela iniciará o trabalho com a correção do arquivo já marcado pelo analisador automático, completando um total de 100.000 palavras anotadas. Este conjunto servirá para treinar novamente o parser; em seguida, o parser re-treinado marcará mais um texto - e assim sucessivamente, até atingir seu desempenho máximo (Para uma descrição pormenorizada do trabalho de anotação sintática cf. o manual em http://www.ime.usp.br/~tycho/corpus/manual , bem o arquivo analisado de Aires http://www.ime.usp.br/~tycho/corpus/aires.psd , ambos disponíveis no CD-rom em anexo). Os textos corrigidos serão disponibilizados imediatamente.

Os textos a serem anotados são os textos já morfologicamente etiquetados, fonte da base de dados de orações com clíticos, aos quais se acrescentarão novos textos (conforme descrito na próxima seção). Esses novos textos serão submetidos ao etiquetador e corrigidos manualmente como na primeira fase do projeto, até que o desempenho do analisador seja suficientemente satisfatório para que as duas correções possam ser realizadas conjuntamente na mesma etapa.

•  A variação ortográfica

Paralelamente, trabalharemos na melhoria do etiquetador para os textos de ortografia antiga. Essa questão já foi enfrentada na etapa anterior com um certo sucesso, mas resta ainda um longo caminho a ser percorrido até que consigamos resultados tão bons quanto os obtidos como os textos modernizados. Essa questão tem duas vertentes: uma vertente lingüística que diz respeito à descrição da enorme variação de grafias encontrada ao longo do tempo, e uma vertente computacional. Para a primeira, trabalharemos em colaboração com o pesquisador Afrânio Barbosa, da UFRJ. Para a segunda, com o cientista da computação Marcelo Finger, da USP, autor do etiquetador Tycho Brahe, e com a equipe do Núcleo Interinstitucional de Lingüística Computacional (NILC), responsável pelo Projeto Lácio-Web ( http://www.nilc.icmc.usp.br/lacioweb/ ), que é coordenado pela Profa Sandra Aluísio, do ICMC-USP, São Carlos.

 

•  Extensão do Corpus

Além de reforçar com textos novos o período que os trabalhos anteriores apontam como aquele em que se deu a mudança para o português europeu moderno (entre 1650 e 1725), pretende-se estender o Corpus nas três direções apresentadas a seguir.

•  Recuando no tempo

Na fase I, o texto mais antigo disponível no Corpus era de um autor nascido nos últimos anos do século 15. Neste projeto, estenderemos o período contemplado para os séculos 15 e 14. A justificativa para isso é detalhada na seção 2.1.

Uma primeira lista de autores, sujeita a modificações, é a seguinte:

•  Fernão Lopes , 1380-1460 Crônica de D. João I (pesquisa preliminar: edição diplomática por Anselmo Braamcamp Freire, Lisboa, 1945. (A 1 ª edição é de Lisboa, 1644.)

•  Dom Duarte , 1391-1438 Leal Conselheiro, Livro da ensinança de cavalgar bem toda sela (edição a ser escolhida)

•  Rui de Pina , 1440-1522 Crónica de D. Dinis (pesquisa preliminar: edição da Liv. Da Civilização, Porto, 1945)

•  Gil Vicente (c. 1465-?), Obras completas (pesquisa preliminar: edição da Liv. Sá da Costa, 1951)

•  Bernardim Ribeiro (1482-1552), Menina e Moça ( pesquisa preliminar: edição quinhentista impressa por André de Burgos, Évora, 1557-58).

•  Pero de Magalhães de Gândavo (?-1576) História da Provínvia Santa Cruz, a que vulgarmente chamamos Brasil (pesquisa preliminar: 1 a edição Lisboa, Antonio Gonçalves, 1576; edição da Academia Real das Ciências, 1858, disponível na Biblioteca Central, Unicamp).

Para o período anterior ao século 16, torna-se mais difícil usar sistematicamente a metodologia que tem sido a nossa na primeira fase do projeto, ou seja situar a cronologia em relação às datas de nascimento dos autores. Faz-se necessário incluir textos cuja autoria é desconhecida, incerta ou plural. É o caso dos Diálogos de São Gregório , tradução do latim, ou de certas Crônicas. Dada a escassez da documentação nos períodos mais recuados da história do português, e a importância desses textos (que já foram objetos de vários estudos) para a compreensão da língua da época, eles não podem ser descartados. Isso nos obrigará entretanto a investigar a melhor maneira de integrá-los às seqüências temporais nas quais se baseiam nossas análises (para a discussão do problema de trabalhar com a data dos textos e não dos autores, cf. Paixão de Sousa 2004a).

Na categoria "sem autor", faz-se necessário incluir outros tipos de textos, que podem ser caracterizados como não literários, e que serão definidos a seguir.

•  Textos não literários

Essa denominação recobre dois grandes conjuntos de textos: textos legais ou notariais, como aqueles que constituem o Corpus de Martins (1994) para o período arcaico; e textos escritos por não letrados. A comparação desses textos com os textos literários já mostrou importantes diferenças (cf. Paixão de Sousa 2004a). A composição inicial do primeiro grupo não foi ainda definida; para o segundo, já encontramos dois corpora.

•  Corpus de documentos anexos aos autos da Inquisição - séc. 17 (Corpus de Rita Marquilhas, cf. Marquilhas 2001)

•  Cartas de mercadores - séc. 18 (Corpus de Afrânio Barbosa, cf. Barbosa 2001)

Esse tipo de textos é crucial para uma compreensão maior da língua da época, uma vez que eles são por hipótese mais próximos da língua falada. O estudo preliminar do Corpus da Inquisição de Marquilhas, realizado por Maria Clara Paixão de Sousa, revela uma freqüência mais alta de ênclises do que os textos literários da mesma época, sugerindo um uso popular maior dessa construção; de outro lado, a existência de construções típicas do português clássico nesses textos - como sentenças V2 com sujeito pós-verbal - mostra que esse tipo de frases não era de uso exclusivo dos letrados.

•  Textos "brasileiros"

Entende-se aqui por "brasileiros" os textos escritos no Brasil por autores nascidos e/ou radicados no Brasil. Esse terceiro eixo de extensão do Corpus Tycho Brahe está relacionado ao fato de que existe atualmente no Brasil um movimento importante no sentido de escrever a história do português no/do Brasil (cf. a coleção de volumes do Projeto para a história do Português brasileiro : Castilho 1998, Mattos e Silva 2001, Duarte e Callou 2002). Nesse âmbito, tem-se editado uma grande quantidade de documentos escritos no país desde os primórdios da colonização. Até o final do séc. 18, quando começa a aparecer claramente a mudança sintática característica do português brasileiro nos textos (cf. Tarallo 1993), esses documentos, em particular se escritos por pessoas letradas, são dificilmente definíveis como refletindo o português brasileiro, dada a força da norma portuguesa. Como diz Barbosa (2001) na sua introdução, esses textos podem contar ao mesmo tempo a história do português europeu e do português brasileiro. O Corpus de Cartas de mercadores de Afrânio Barbosa faz parte dessa categoria; outros serão posteriormente acrescentados.

Note-se que os textos podem ser classificados em mais de uma categoria. Os textos brasileiros serão muitas vezes não literários, por exemplo. Por isso, não se trata de categorias estanques. Para a classificação dos textos no Corpus, precisamos de um sistema de organização e codificação que será apresentado a seguir.

•  Codificação do Corpus em linguagem XML

Na primeira fase da elaboração do Corpus Tycho Brahe, todos os esforços foram concentrados na anotação morfossintática, e nas condições para a sua implementação automática. O sistema de codificação extra-linguística elaborado para os textos ortograficamente transcritos (cf. Britto e Finger 1999) tem como objetivo permitir a aplicação do etiquetador automático. Em certos textos, particularmente os não modernizados, esta codificação redunda numa poluição visual pesada que dificulta a leitura (cf. entre outros a Gazeta de Manuel Galhegos). Além disso, esse sistema não permite recuperar automaticamente as informações contidas nas anotações, uma vez que só o item original está marcado, mas não a porção de texto modificada. Isso se explica uma vez que, como mencionado acima, o objetivo inicial dessa codificação era poder retirar do arquivo a ser submetido ao etiquetador as seqüências que ele não é capaz de reconhecer. Perdemos assim a oportunidade de aproveitar essa codificação para outros fins. Ela poderia em particular servir de base para a geração de listas de modernizações, de abreviaturas e suas interpretações, etc. - interessantes em si de um ponto de vista lingüístico, e reaproveitáveis na melhoria das ferramentas computacionais. Por outro lado, a poluição gerada por esse sistema constitui um empecilho para a leitura dos textos. Ora, verificamos que os pedidos de acesso ao corpus vêm freqüentemente de estudiosos interessados primeiramente na leitura dos textos ortograficamente transcritos, ou seja, que não têm interesse na anotação lingüística, mas em aspectos literários ou históricos dos textos. Por fim, verificamos que ao longo da elaboração do Corpus, produzimos uma certa variação nas codificações, que as torna difíceis de serem sistematicamente repertoriadas, e portanto, regularizadas.

Todos esses problemas podem ser resolvidos de maneira bastante satisfatória se codificarmos o Corpus em linguagem XML. (Extended Markup Language), linguagem de anotação que possibilita modelar o texto em conteúdos eletronicamente legíveis (cf. http://www.ucc.ie/xml/ ) . O XML pode codificar um grande volume de informações estruturais, documentais e linguísticas no texto, e fazer uso delas de maneira flexível a partir de um documento principal que pode ser desmembrado em diferentes níveis. A introdução de XML não será trazida em substituição de nenhum dos componentes computacionais já implementados no Corpus , mas operará em um outro nível estrutural, codificando informações complementares àquelas codificadas pelas anotações morfológica e sintática, como mostram as figuras a seguir, numa representação em árvore cujos diferentes níveis contêm atributos definidos para o conjunto dos textos e extensíveis (as figuras e a apresentação a seguir são baseadas numa apresentação de Maria Clara Paixão de Sousa no seminário do projeto em outubro de 2003, cf. também Paixão de Sousa 2004b, em anexo.).

 

Em uma fase preliminar de testes, a anotação XML foi aplicada nos textos já preparados com o primeiro sistema Tycho Brahe. Foi desenvolvida uma gramática inicial, com as categorias mais gerais, e com base nela os textos ortograficamente transcritos foram re-anotados, substituindo as anotações antigas. Por exemplo, a anotação "uma <original>u~a</original>" é substituída por

<variant>
<original>u~a</original>
<edited>uma</edited>
</variant>

Com isso, tanto o item original como o modernizado encontram-se codificados, o que torna possível o controle sistemático das edições realizadas no preparo dos textos, otimizando o trabalho de possíveis alterações, permitindo que se criem léxicos e dicionários do Corpus , tornando mais ágeis as etapas posteriores de anotação morfosintática e, por fim, favorecendo a geração de documentos confortáveis para a leitura humana.

Os documentos .xml podem ser transformados via "xslt" através da aplicação de folhas de estilo (.xsl) em arquivos de texto (.txt), de hipertexto (.html), portáteis (.pdf), e outros (inclusive outros .xml). A transformação é extremamente flexível, pois possibilita escolher quais estruturas de um documento serão exportadas para o novo arquivo de texto. Trata-se de um processo rápido, que pode ser refeito sempre que se queira modificar/corrigir os documentos. Nas sucessivas transformações, o documento .xml de origem permanece inalterado.

Resumindo, as vantagens desse sistema para o Corpus são:

1. um melhor gerenciamento de arquivos do corpus, prevendo sua ampliação no futuro próximo;
2. a otimização dos processos que levam às anotações morfológica e sintática;
3. a ampliação da finalidade do corpus, explorando as potencialidades dos textos ortograficamente transcritos;
4. a padronizacão do corpus de modo a poder inserí-lo em catálogos internacionais.

O trabalho de codificação do Corpus atual em linguagem XML, bem como a posterior inserção de textos já nesse formato deverá ser coordenado por um pós-doutor. No âmbito do projeto anterior, e de um convênio CAPES/DAAD com o Departamento de Lingüística da Universidade de Bielefeld, dois especialistas alemães dessa linguagem visitaram o projeto em 2003, Jan-Torsten Milde, e Thorsten Trippel. Na segunda visita, Maria Clara Paixão de Sousa, que está terminando seu projeto de doutorado no âmbito do projeto, trabalhou muito ativamente nas questões levantadas pela formatação do Corpus nessa linguagem, tendo inclusive redigido um artigo sobre esse tema em co-autoria com Thorsten Trippel (cf. Paixão de Sousa e Trippel 2004). Ela será portanto a pessoa indicada para continuar esse trabalho na segunda fase do projeto, tanto no que diz respeito à definição e implementação de um dtd completo para o Corpus, quanto à formação dos bolsistas encarregados da preparação dos textos (cf. projeto de pós-doutorado em anexo) . Para esse trabalho, também se prevê colaboração com o NILC, em particular a Profa Sandra Maria Aluísio.

[topo]


A história do português europeu: ritmo e gramática

•  Definição do português médio

Passaremos a chamar a fase gramatical do português que precede o português europeu moderno de português médio (para distinguí-la do português clássico , termo que faz referência a um período definido de um ponto de vista cultural e literário). O termo português médio aparece em certos estudiosos da língua para fazer referência à uma fase de transição entre o primeiro período do português arcaico (registrado nos primeiros textos em prosa e na poesia lírica) e os séculos 16 e 17 (época do português clássico ) - cf. entre outros Castro 1991, Mattos e Silva 1992, Teyssier 1981. Entretanto, do nosso ponto de vista, o português vernacular registrado no segundo período do chamado português arcaico é produzido pela mesma gramática que a língua instanciada nos textos até a segunda metade do séc. 17. Assim, para nós, o termo português médio descreveria a língua entre os séculos 14 e 17. Se em sua fase inicial esta língua se apresenta mais próxima do português arcaico que do português clássico, isto pode ser interpretado como o resultado de uma competição entre duas gramáticas, no sentido de Kroch (1994).

O português descrito no projeto anterior, antes da mudança que surge na virada do séc. 17 para o 18, tem assim as suas raízes num passado mais remoto. É esse passado que o presente projeto propõe integrar à pesquisa já iniciada, com a hipótese de que os cinco séculos centrais da história gramatical do português - séc. 14 a 18 - correspondem à emergência, estabilidade e decadência nos textos de uma gramática, pouco descrita e reconhecida como tal até bem recentemente, que chamamos aqui o português médio. O primeiro período corresponde à sua emergência, e à sua competição com o português arcaico. No segundo período, essa gramática é dominante nos textos. O terceiro período corresponde à emergência do português europeu moderno, expressa por uma nova situação de competição de gramáticas. Obviamente (e procuraremos tematizar essa questão no projeto), os limites de nascimento e morte do português médio não podem ser definidos de maneira categórica porque as gramáticas são instanciadas por falantes, e esses falantes não são homogêneos numa população dada. O novo projeto levantará portanto questões dialetais, tanto do ponto de vista geográfico quanto sócio-cultural.

•  A evolução sintática do português: fenômenos em mudança

2.2.1 A posição do sujeito

Vários estudos já enfatizaram a relação entre a posição sujeito e a colocação dos pronomes clíticos ou fracos nas línguas (cf. para o português, Barbosa 1996, 2000, Galves 2000, 2001a). Na sua tese, Maria Clara Paixão de Sousa descreve e analisa os diversos padrões de sintaxe do sujeito nas orações enclíticas e proclíticas. Graças à anotação sintática poderemos estender esse estudo a todas as frases do corpus, para chegar a uma descrição completa da evolução da posição do sujeito ao longo do período considerado, focalizando os seguintes aspectos:

  • posição do sujeito relativa ao verbo, pré-verbal ou pós-verbal
  • contigüidade do sujeito e do verbo nas duas ordens
  • sujeito nulo

A hipótese com a qual iniciaremos esse estudo, baseada nos resultados de Paixão de Sousa, é a de que a ordem sujeito-verbo vai se fixando na passagem do português médio para o português europeu moderno, ao mesmo tempo em que o sujeito se encontra cada vez mais na posição contígua ao verbo nessa ordem (cf. também Galves e Paixão de Sousa 2003). Uma questão de grande relevância para a história do português é também a natureza da inversão sujeito-verbo nessa língua, se de tipo V2 ou de tipo românico, e os detalhes, pouco conhecidos até agora, da sua evolução ao longo do tempo (para um estudo pioneiro deste problema, cf. Ribeiro 1994 e para um estudo aprofundado do problema no PE, Ambar 1992). A questão da posição do sujeito é essencial para a determinação das gramáticas subjacentes aos enunciados e se constitui num problema particularmente complexo no caso do português e sua história. Com efeito, desde a análise pioneira de Rouveret (1987) sobre a estrutura da oração em português europeu moderno, existe uma grande polêmica a respeito da posição externa ou interna do sujeito pré-verbal. (cf. entre outros, Barbosa 1995, 1996, 2000; Costa 1998; Costa e Duarte 2002, Costa e Galves 2001). Galves e Paixão de Sousa (2003) argumentam que a história da língua, e em particular o estudo do português clássico (aqui chamado português médio) pode esclarecer sobremaneira essa questão ao permitir uma comparação da língua moderna com uma fase anterior em que a questão da externalidade pode ser discutida à luz de dados empíricos mais transparentes. Por fim, deve se ressaltar novamente que o estudo da evolução da posição do sujeito na história do português europeu é de grande valia para o estudo da história do português brasileiro, na medida em que fornece um ponto de partida para o estudo diacrônico da sintaxe do sujeito nessa língua (cf. a pergunta de Ribeiro 1998: "A mudança sintática do PB é mudança em relação a que gramática?")

2.2.3 A sintaxe de topicalização

A sintaxe de topicalização é um complemento indispensável à sintaxe do sujeito, dada a proximidade dessas duas noções. Nas línguas V2, sujeitos e tópicos têm em parte o mesmo tratamento. Parece ser esse, até um certo ponto, o caso do português médio. De novo, o projeto anterior teve que limitar o tratamento dessa questão às orações com clíticos, estudando a relação da topicalização com a colocação de clíticos. Resta fazer uma descrição muito mais ampla dessa questão na língua, abrangendo as orações sem clíticos, e estudando as diversas estratégias de topicalização: com ou sem retomada pronominal, e no segundo caso, de tipo V2 ou não. O português europeu moderno, como descrito por Duarte (1987), tem várias estratégias de topicalização, com e sem retomada pronominal, mas não de tipo V2. O PE se distingue das outras línguas românicas pelo fato de ter topicalização com objeto nulo (cf. também Raposo 1986). Essa topicalização, associada à ordem não V2, é por hipótese uma inovação da gramática moderna, e constitui assim um aspecto essencial da mudança em relação à gramática anterior. É portanto do maior interesse para a história da língua em Portugal descrever o percurso dessa mudança. De novo, essa descrição será também de grande valia para a história do português brasileiro, onde a topicalização tem um papel central na gramática (cf. entre outros, Galves 1984, 1987, 2001a; Negrão 1999).

Os diferentes tipos de topicalização têm sido associados a padrões rítmicos distintos. Isso confere a essa questão um interesse suplementar para esse projeto, que focaliza a interface sintaxe/fonologia na análise diacrônica. A respeito da história do francês, Kroch (1989) afirma que nas construções com retomada pronominal, o tópico é fonologicamente interpretado como uma frase entoacional distinta, contrariamente ao que acontece nas construções de tipo V2, onde o tópico está integrado à frase entoacional associada à frase sintática, onde ele recebe uma proeminência rítmica. Segundo Adams (1988), é a perda dessa proeminência inicial que desencadeia a mudança sintática no francês, em particular a perda de V2 (a respeito da relação sintaxe/ritmo na história do francês, ver também Dufresne 1993). Uma descrição apurada da evolução dos diversos tipos de topicalização ao longo do período abrangido pelo projeto deverá auxiliar na compreensão da evolução dos padrões rítmicos do português e sua relação com a evolução gramatical.

2.2.4 A posição do verbo

Não se trata aqui de uma questão essencialmente distinta das duas anteriores, mas de um enfoque diferente, e complementar, que envolve em particular uma pergunta abstrata que vai além da descrição da ordem relativa do verbo com os outros constituintes da oração: em que categoria funcional se encontram o verbo e os constituintes que o precedem e seguem ?

A questão da posição do verbo na oração e em particular da ordem V2 foi longamente tratada na literatura para a história de outras línguas que a perderam, como o francês (cf. Adams 1988, Roberts 1993) ou o inglês (Kroch e Taylor 1997). Foi também objeto de estudo na história do português (cf. Ribeiro 1995 a,b; Torres Moraes 1995; e no quadro do projeto RFM , cf. em particular Galves, Britto e Paixão de Sousa 2003; Paixão de Sousa 2004a). Descritivamente, o português clássico tem fortes características V2, mas a questão da natureza exata desse V2, que co-existe fortemente com a ordem V1, em decorrência da propriedade de sujeito nulo, ainda permanece misteriosa. A sua ocorrência nas orações encaixadas, pouco estudadas no projeto anterior porque apresentam pouquíssima variação na colocação de clíticos, tem que ser descrita detalhadamente, bem como a natureza dos verbos envolvidos. Qual é a extensão da (as)simetria principais/subordinadas ao longo do tempo? Qual é a incidência do tipo de verbo sobre a ordem? Qual é a natureza dos constituintes fronteados, e a sua evolução ao longo do tempo? Todas essas questões têm que ser levantadas para poder responder à questão que norteia a pesquisa de tipo gerativista: qual é (quais são) a(s) gramática(s) subjacente(s) aos fenômenos observados?

A questão da posição do verbo surge também a respeito de um assunto já trabalhado no projeto anterior, que deverá ser aprofundado agora, na sua relação com processos que vão além da colocação de clíticos. Trata-se do fenômeno da interpolação (cf. Namiuti 2003) e sua relação com o fronteamento de constituintes em orações subordinadas ou introduzidas por constituintes focalizados. A relação entre os dois fenômenos foi estudada por Parcero (1999) e será retomada num dos projetos de doutorado associado ao projeto (Namiuti 2004). O fenômeno da interpolação, pelo menos na sua fase de maior produtividade, está associado a uma posição "baixa" do verbo na oração encaixada. A natureza exata dessa posição, bem como dos constituintes fronteados, é também objeto de debate (cf. Martins 1994, 2002), e será retomada nessa tese em articulação com as grandes questões sobre a história gramatical do português europeu que norteiam o presente projeto.

2.2.5 Outros fenômenos

Outros fenômenos, ligados a áreas distintas da sintaxe, mas susceptíveis de trazerem luzes sobre as grandes questões levantas, serão também estudados no decorrer do projeto. Pode se mencionar desde já um aspecto freqüentemente citado (mas pouco estudado em detalhe) da mudança do português clássico para o português europeu moderno, que permaneceu inalterado em português brasileiro (cf. Oliveira e Silva 1982): o uso variável do determinante na frente dos possessivos. Num estudo preliminar, Vianna (2003) mostra que a evolução do uso do artigo no português europeu aponta para conclusões compatíveis com a história da cliticização, trazendo portanto evidência suplementar para a datação da mudança. Por ser um fenômeno que tem também aspectos rítmicos envolvidos (cf. Callou 1997), é de máximo interesse para o projeto. Um projeto de tese de doutorado está sendo elaborado sobre o assunto.

[topo]

 

Os padrões rítmicos do português ao longo do tempo e sua identificação em textos escritos

A questão do papel da mudança rítmica em relação à mudança sintática é central neste projeto como no anterior. Como mencionei acima, esse tema, apesar de bastante referido nos estudos diacrônicos clássicos, e integrado em análises recentes como fonte de modificação dos dados lingüísticos primários, nunca foi objeto de uma investigação aprofundada na lingüística moderna - com a exceção dos trabalhos pioneiros de Adams (1987), e Dufresne (1993).

Referi-me acima aos avanços conseguidos na primeira fase. A partir de agora, a pesquisa será dividida em duas vertentes - correspondendo a dois projetos distintos, porem fortemente interligados: a primeira vertente se encontra no projeto Comportamento estocástico, fenômenos críticos e identificação de padrões rítmicos nas línguas naturais (cf. Galves et al. 2003), que propõe uma abordagem probabilística para a fonologia do ritmo, com base em dados de fala e escrita de diversas línguas. Situa-se na continuação dos trabalhos sobre a classificação das línguas em grupos rítmicos, a modelagem da sonoridade (cf. Duarte, Galves, Garcia e Maronna 2001, Galves, Duarte, Garcia e Galves 2002, e Cassandro, Collet, Duarte, Galves e Garcia 2004), a implementação computacional da análise otimalista do ritmo (cf. Abaurre, Mandel, Sândalo e Galves 2003), e a modelagem estocástica do ritmo da escrita (cf. Galves, Galves, Garcia e Peixoto 2003).

O presente projeto concentra-se no papel do ritmo na mudança, focalizando a mudança na história do português europeu. Propõe cruzar uma abordagem lingüística situada na interface da sintaxe e da fonologia (cf. Galves e Sândalo 2004) com a modelagem estocástica da escrita iniciada em Galves, Galves, Garcia & Peixoto (2003), já descrita acima, baseada em Cadeias de Markov de alcance variável . Aplicaremos a mesma metodologia aos textos do Corpus Tycho Brahe, e procuraremos interpretar os dados obtidos à luz dos resultados obtidos com textos modernos brasileiros e portugueses. Esperamos que essa metodologia nos permita ver aparecer em alguns textos, no período que antecede a mudança sintática, o padrão característico do português europeu moderno. Os textos mais próximos da oralidade serão de grande valia para esse estudo, uma vez que são menos sensíveis à norma.

Paralelamente, estudaremos vários dos fenômenos sintáticos mencionados acima na sua relação com a prosódia. Já mencionamos o fato de que questões como a topicalização ou o uso de artigo antes do possessivo envolvem um aspecto prosódico. Os diversos tipos de topicalização estão associados a diversos tipos de estruturas entoacionais ou rítmicas nas línguas (cf. Adams 1987, Kroch 1989, Lemieux 1993 para a história do francês). A sua história pode portanto nos fornecer pistas para a história prosódica da língua, e a maneira como esta se relaciona com a história sintática. Para os aspectos prosódicos será essencial a comparação com as línguas modernas, em particular o português europeu moderno e o português brasileiro moderno, que apresentam uma prosódia e um ritmo radicalmente diferentes entre si, como amplamente mostrado pelos trabalhos comparativos realizados no âmbito do projeto anterior (cf. Abaurre, Mandel, Sândalo e Galves 2003, Fernandes 2003, Frota e Vigário 2000, Galves, Galves, Garcia e Peixoto 2003), ou como pode ser inferido a partir de trabalhos descrevendo e analisando cada uma das duas línguas (Frota 2000, Tenani 2002, Vigário 2001)

Com as duas abordagens, trata-se de projetar o que sabemos do presente das línguas para extrair do seu passado escrito informações sobre a sua realização fonética, sempre com a hipótese de trabalho de que, no que diz respeito à sua prosódia, o português doravante denominado "médio" se aproxima fortemente do português brasileiro moderno. A partir da ampliação do corpus, poderemos confrontar os resultados da primeira fase a um maior volume de dados, mais amplamente analisados, de maneira a consolidar esses resultados e refinar e fortalecer os modelos propostos.

[topo]


Referências bibliográficas

Vigário, Marina 2001 The prosodic Word in European Portuguese, tese de doutorado, Universidade de Lisboa.

[topo]

tycho home Contato | ©2008 PPFF (©2005 MCPS)
[principal]  [novidades]  [resumo do projeto]  [projeto completo]  [relatórios]  [participantes]  [publicações]  [corpus histórico]  [corpus de fala]  [1998-2003]