Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

 

3º Relatório
2000-2001

 

 


Sintaxe

Fonologia e Modelagem Matemática


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

3º Relatório 

 

 

I.1          O corpus Tycho Brahe e  os dados históricos

 

 

             

1.                  Estado atual do corpus

 

O corpus

O corpus Tycho Brahe contém agora 30 textos ortograficamente transcritos (cf. http://www.ime.usp.br/~tycho/corpus/show-texts.html), num total de 1.371.858 palavras.

Neste ano, acrescentamos os seguintes textos em versão ortograficamente transcrita:

 

Séc. 16

-           D. JOÃO III. Letters of John III - King of Portugal 1521-1557 (The portuguese text edited with an introduction by J. D. M. Ford). Cambridge, Massachusetts. Harvard University Press, 1931.

-           JOÃO de BARROS Gramática da língua portuguesa. Cartinha, gramática, diálogo em louvor da nossa linguagem e diálogo da viciosa vergonha. (edição de M. L. C. Buescu). Lisboa, Faculdade de Letras da Universidade de Lisboa, 1971.

Séc. 17

-           GALHEGOS, Manuel de. Gazeta, em que relatam as novas todas, que ouve nesta corte, e que vieram de varias partes no mês de novembro de 1641. Lisboa, Officina de Lourenço de Anueres.

-                      Manuel Pires de Almeida, Poesia e Pintura ou Pintura e Poesia, edição de Adma Fadul Muhana, no prelo,

Séc. 18

-           Cavaleiro de Oliveira. Cartas. (selecção, prefácio e notas de Aquilino Ribeiro). Lisboa, Livraria Sá da Costa Editora, 1982.

-           GUSMÃO, Alexandre de. Cartas. (introdução e atualização de texto por Andrée Rocha). Lisboa, Imprensa Nacional - Casa da Moeda, 1982.

Séc. 19

-           GARRETT, Almeida. Cartas de Garrett. (apresentação e edição por Segismundo Spina). São Paulo, Humanitas Publicações FFLCH/USP, 1997.

-                      EÇA de QUEIROZ e OLIVEIRA MARTINS, Correspondência, edição de Beatriz Berrini e Paulo Franchetti, Editora da Unicamp, 2000.

 

 

Note-se que houve uma extensão do período considerado, para a primeira metade do século 16. Isso corresponde por um lado à necessidade de ter dados desse período para compreender melhor a evolução da variação ênclise/próclise, e por outro lado de contemplar outros projetos de pesquisa que se inscrevem no projeto, como o projeto de Cristiane Namiuti sobre a perda da interpolação (cf. Seção III).

 

As edições

 

Alguns comentários devem ser feitos também a respeito das edições utilizadas.

-           O texto de Manuel Galhegos foi transcrito a partir da Edição Princeps de 1742. Isso representa um longo e minucioso trabalho, feito primeiro por Helena Britto e por mim, e depois pelas bolsistas Tais Menegatti e Vanessa Vinha. Esse tipo de trabalho será cada vez mais necessário, dada a escassez de edições modernas, e confiáveis, de textos da época que nos interessa. Por outro lado, uma vez que nossas ferramentas computacionais estão se adequando à ortografia antiga,  a tendência do corpus será cada vez mais em inserir edições originais, que trazem informações preciosas sobre a ortografia e a pontuação, que podem constituir um auxílio valioso na nossa pesquisa sobre a prosódia dos séculos 16 a 18.

-           O texto de Manuel Pires de Oliveira nos foi gentilmente cedido pela Profa Adma Muhana, do Departamento de Teoria Literária do IEL, antes mesmo da publicação da edição que ela acaba de realizar.

-           O texto da correspondência entre Eça de Queiroz e Oliveira Martins também nos foi cedido pelo seu editor, o Prof. Paulo Franchetti,  também colega do IEL. Essa colaboração com os colegas  responsáveis por edições de textos inéditos é um desdobramento muito interessante do projeto.

 

A etiquetagem

 

Dos 30  textos ortograficamente transcritos, 15 já estão disponíveis na versão etiquetada. A lentidão em disponibilizar essas versões se deve à necessidade de corrigir os 5% de erros deixados pelo etiquetador automática. Esse trabalho, que exige re-leitura integral e minuciosa dos textos, tem sido feita este ano com o auxílio de ferramenta desenvolvida por Tony Kroch e sua equipe na Universidade da Pennsylvania. O uso dessa ferramenta, além de agilizar o trabalho, permite evitar erros na digitação das etiquetas. Mas continua sendo uma tarefa longa e requerendo bom conhecimento gramatical em geral, e do sistema de anotação em particular. Ela tem sido realizada por mim, e pela doutoranda Maria Clara Paixão.

 

As grafias antigas

 

Este ano, enfrentamos o problema das grafias antigas. A existência de textos com grafia não modernizada, e apresentando uma grande variação nas formas, cria obviamente problemas para a etiquetagem automática e requer que seja feita uma nova versão do etiquetador capaz de levar em consideração as diversas grafias encontradas. Um primeiro passo foi feito a partir da geração de um léxico de 350 000 palavras contendo um grande número dessas variações. Esse trabalho ocupou dois meses de duas bolsistas de treinamento técnico.  A partir desse léxico, Marcelo Finger desenvolveu uma nova versão que foi em seguida testada na etiquetagem do texto de Maria do Céu. O relatório de erros gerado pela ferramenta de correção permitira melhorar substancialmente essa versão. Em breve, devemos obter  portanto um novo etiquetador, tão performante com grafias antigas quanto com as modernas, facilitando a tarefa de correção.

 

As abreviaturas

 

Outro problema encontrado na preparação dos textos, é o das abreviaturas, extremamente frequentes e diversificadas nos textos manuscritos. Está prevista a visita da Profa Maria Helena Flexor, especialista do assunto, ao projeto. Essa questão é também assunto de um projeto de iniciação científica, recentemente submetido à Fapesp (cf. seção III).

 

Novo manual 

 

Nesta fase, estamos consolidando definitivamente o nosso sistema de anotação morfológica. Uma nova versão do manual pode ser consultada na página do projeto (http://www.ime.usp.br/~tycho/corpus/manual/tags.html), e segue em anexo, bem como no CD-ROM..

Por outro lado, um dos grandes avanços do trabalho deste ano é o desenvolvimento do sistema de anotação sintática, desenvolvido por Helena Britto.

 

2.                  O desenvolvimento do analisador sintático

 

O sistema de anotação sintática do Corpus Tycho Brahe é baseado no Penn-Helsinki Parsed Corpus of Middle English. Obviamente, o trabalho de adaptação passa pela solução de numerosos problemas de análise de construções típicas das línguas românicas de sujeito nulo, inexistentes no inglês médio. Essa longa tarefa foi feita este ano a partir da anotação manual, por Helena Britto, pós-doutoranda do projeto, de um texto de 56 479 palavras: Reflexões sobre a vaidade, do autor setecentista Matias Aires. A partir desse trabalho, a Helena redigiu o manual de anotação sintática disponível na página (http://www.ime.usp.br/~tycho/corpus/manual/syntax.html) –cf. em anexo, uma amostra do texto anotado – e no CD-ROM  30 000 palavras do texto anotado Esse trabalho está sendo realizado em colaboração com a equipe do Corpus Dialetal Sintático do Português  CordialSin, coordenado no Centro de Linguística da Universidade de Lisboa por Ana Maria Martins, uma vez que eles estão usando lá as ferramentas computacionais desenvolvidas no nosso projeto.

A implementação do analisador será realizada em varias fases, a primeira  sendo integrada a um projeto de elaboração de analisador multilíngue, na Universidade da Pennsilvania, a partir de uma proposta de Tony Kroch. A primeira versão para o português, baseada no texto referido acima, anotado manualmente, será em seguida testada com um novo texto, que será corrigido manualmente, e servirá para novo treinamento. No Brasil, contaremos com a colaboração do cientista da computação Marcelo Finger,   que tem implementado as sucessivas versões do nosso etiquetador automático.

 

3.                  A história da colocação de clíticos no Português europeu: primeiros resultados a partir do corpus Tycho Brahe

 

Este ano, em função da quantidade de dados já disponível,  pudemos iniciar o nosso trabalho de descrição exaustiva da evolução da colocação de clíticos no período coberto pelo corpus Tycho Brahe. O texto “First Results from the Tycho Brahe Corpus” em anexo relata essa pesquisa. O nosso primeiro universo de dados se compõe de 11 textos :

 

Padre Manuel da Costa (1601-1667) A arte de furtar  - 52 867 palavras

Padre Antonio Vieira (1608-1697)      Letters - 57,088 palavras

                                                   Sermons -  53855 palavras

Francisco Manuel de Mello (1608-1666) Letters - 58,070 palavras

Frei Francisco das Chagas (1631-1682) Cartas espirituais – 54445 palavras

Maria do Céu (1658-1753) – Rellaçaõ da Vida e Morte da Serva de Deos a Venerável Madre Elenna da Crus 27410 palavras

Matias Aires (1705-1763) Reflexões sobre a vaidade - 56,479 palavras

Correia Garção (1724-1772)  Dissertações  - 24, 924 palavras

Marquesa de Alorna (1750-1839) Letters - 49,512 palavras

Almeida Garrett (1799-1854) Viagens à minha terra – 51784 palavras

Ramalho Ortigão (1836-1915) Letters – 32441 palavras

 

Esse corpus de 538.875 palavras cobre um período que vai de 1631, data da Arte de Furtar, a 1915, data das últimas cartas de Ramalho Ortigão.

 

Metodologia

 

Nessa primeira fase da pesquisa, tivemos que apurar a metodologia de organização e classificação dos dados. A grande questão que se levantou foi o que considerar como dados de variação, uma vez que existem em português contextos categóricos de ênclise e próclise que não mudaram ao longo dos tempos. A ênclise não é problemática uma vez que os contextos que a requerem são os contextos com o verbo em primeira posição absoluta (V1). O caso da próclise é mais delicado uma vez que não dispomos a priori de uma descrição de todos os contextos em que nunca houve variação. Nos casos duvidosos se encontram certos advérbios e certos quantificadores. Além disso, sempre paira na colocação proclítica o fantasma da focalizacão... Em relação a essas questões, as decisões tomadas no texto que apresentamos agora se aproveitaram muito da discussão com os colegas sintaticistas portugueses presentes na sessão de trabalho do ZiF, Ana Maria Britto, João Costa e Gabriela Mattos (cf. seção II e relatório de Helena Britto). Por outro lado, tivemos que tomar também decisões quanto à maneira de computar as orações coordenadas. A partir de um estudo piloto, chegamos à conclusão que só as coordenadas V1 deviam ser computadas independentemente, as coordenadas em que algum sintagma precede o verbo (coordenadas V2), tendo exatamente o mesmo comportamento que as não coordenadas.

 

O retrato da mudança

 

Os primeiros resultados quantitativos, articulados à análise quantitativa apresentada no artigo,  apontam nitidamente para a existência de mudança a partir  da Marquesa de Alorna (nascida em 1750). Contudo, o início dessa mudança continua difícil de localizar exatamente, dada a variação encontrada entre os autores em todo o período que precede. Na sessão de trabalho do ZiF, Tony Kroch chamou a nossa atenção para o fato de que o gráfico da evolução da variação ênclise/próclise com sujeitos pre-verbais indicava  uma mudança com início mais longínquo no tempo do que hipotetizamos no início do projeto. Nos empenharemos agora em trazer o máximo possível de dados novos, com ênfase na segunda metade do séc. 16, na segunda metade do séc. 17, e no comecinho do séc. 18, com o intuíto de  retratar detalhadamente o curso dessa mudança, e localizar definitivamente no tempo o seu início.

 

O “místério” dos sermões

 

Deve-se enfatizar enfim um resultado importante trazido nesse primeiro estudo. Trata-se de uma explicação para o alto índice de ênclise encontrado nos sermões de Vieira, já notado por Ana Maria Martins na sua tese, e confirmado no nosso estudo. Esse índice contrasta fortemente com o que se encontra nos contemporâneos de Vieira, e na correspondência do próprio Vieira. A análise qualitativa do uso das construções enclíticas mostra que elas desempenham um papel estilístico fundamental no texto. Aparecem sempre que o  termo precedendo o verbo contrasta com um outro termo,  nos efeitos de estilo constitutivos da retórica barroca:

 

            <71>Diz o Senhor, que o dia do Juiso ha-de vir, e que já é; porque ainda que o dia do Juiso ha-de            ser depois, e muito depois; o dia da morte é já agora: e o que se ha-de cumprir em todos no dia do    Juiso, cumpre-se em cada um no dia da morte: Singulis in die mortis completur. Notae o Completur.       As outras prophecias cumprem-se a seu tempo, esta do dia do Juiso tem o seu cumprimento antes de tempo; porque aquillo mesmo que se faz agora, é o que se diz que ha-de ser então.

            As outras prophecias/ esta do dia do Juiso

<74> Não diz o Apostolo, que passa o mundo, senão as figuras; porque as figuras vão-se, e o theatro fica.

            As figuras /o theatro (o mundo)

<97> Comparada, porém, qualquer revelação não canonica, com as boas obras, eu antes quizera a certeza das obras, que a da revelação; porque a revelação não me póde salvar sem boas obras; e as boas obras pódem-me salvar sem revelação.

            As boas obras/ a revelação

             <125> Elles conheciam-se, como homens, Christo conhecia-os, como Deus.

Elles/Christo

<170> Deus julga-nos a nós por nós; os homens julgam-nos a nós por si.

<87> ha se de esperar o tempo que basta para os fructos verdes amadurecerem: não se espera por fructos maduros, nem ainda verdes, porque se cortam as flores ainda antes

            lá/cá

<90> Assim como n'esta vida ha grande differença dos grandes e poderosos, aos que o não são, assim a ha-de haver no dia do Juiso. Elles teem hoje a mão direita; mas como o mundo então ha-de dar uma tão grande volta, muito é de temer que fiquem muitos á esquerda. Dos outros salvar-se-ha  ametade; e dos grandes e poderosos quantos?

Dos poderosos/dos outros

<91> O Juiso com que Deus ha-de julgar aos que mandam e governam, ha-de ser um Juiso durissimo; porque aos pequenos conceder-se-ha misericordia; porém os grandes e poderosos serão poderosamente atormentados: Potentes potenter tormenta patientur

            aos pequenos/aos grandes

<133> Entre as feras tomava-se com os leões, e entre os homens com os gigantes

            entre as feras/entre os homens

<156> Eis aqui porque David queria que o julgasse Deus, e não os homens: no Juiso de Deus     perdoam-se os peccados como fraquezas: no juiso dos homens castigam-se as valentias como peccados.

 

Essa análise dos sermões  suporta por outro lado a hipótese de que no português clássico a ênclise corresponde a uma estrutura em que o sintagma pre-verbal está fora da oração.   Isso é uma estrutura marcada,  associada a interpretações marcadas. Espera-se portanto que depois da mudança, a ênclise, além de tender a aumentar, não tenha mais esse estatuto marcado. Isso nos fornece uma outra pista para detectar a mudança.

 

4.                  Conclusões e perspectivas

 

Neste momento do projeto, pode-se portanto afirmar que:

 

-                      A ferramenta de etiquetagem morfológica está consolidada, tanto linguisticamente quanto computacionalmente.

-                      A base linguística da ferramenta de análise sintática está pronta, e sua implementação computacional está para ser iniciada. A primeira versão do analisador deverá estar rodando em breve.

-           O quadro metodológico da  descrição da mudança da colocação de clíticos está consolidado, e já temos primeiros resultados robustos, apresentando uma imagem até então desconhecida da evolução da variação ênclise/próclise, e uma interpretação do uso da ênclise em Vieira.

-                      O corpus Tycho Brahe está se tornando uma referência para os estudiosos da história do português. Cf. em anexo a lista dos seus usuários.

 

No próximo, e último, ano do projeto, introduziremos mais 10 textos, para perfazer o total de 40 previstos inicialmente. Procuraremos preencher as lacunas no tempo, em particular a segunda metade do séc.17 e a segunda metade do séc. 18.   Introduziremos cada vez mais edições baseadas em manuscritos ou edições princeps. Aliás, será uma necessidade, uma vez que estão se esgotando as edições modernas confiáveis. Nesse sentido continuaremos a procurar colaborar com grupos de pesquisa envolvidos na edição de textos daquelas épocas. A etiquetagem dos textos de ortografia antiga deverá ser tornada mais fácil graças à nova versão do etiquetador. É preciso contudo notar que esses textos são mais difíceis de transcrever e corrigir do que os textos modernizados, em função do fato de não poderem ser escaneados, e de a revisão envolver muito mais anotação e comentários.

 

A partir do quadro de análise elaborado este ano, completaremos o retrato da evolução da colocação de clíticos nos contextos de variação. Enquanto o analisador sintático não for muito performante, a extração dos dados terá que ser feita manualmente, como temos feito (com o auxílio de uma bolsista de iniciação científica), exceto para o passo inicial – separação das construções enclíticas e proclíticas – que requer somente a anotação morfológica. Isso obviamente torna o trabalho mais longo, mas deve-se notar contudo que se trata de um trabalho muito formador para os alunos.

O próximo passo consiste também em refinar a análise estatística, lançando mão de modelos que nos permitam interpretar os dados quantitativos para a localização do início da mudança, questão básica do projeto.

 

Anexos

 

1.       Cópia do novo manual de anotação morfológica

2.       Índice do manual sintático

3.       Ilustração da anotação sintática

4.       Texto: “First Results from the Tycho Brahe Corpus”

5.       Lista dos usuários do Corpus Tycho Brahe

6.       Texto: “Computational and Linguistic Aspects of the Construction of the Tycho Brahe Parsed Corpus of Historical Portuguese”

 

O corpus na sua última versão, bem como os novos manuais, e o texto analisado sintaticamente se encontram no CD-ROM.

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

3º Relatório 

 

 

I.2          A análise  comparativa dos padrões rítmicos do PE e do PB

 

O trabalho deste ano sobre a comparação dos padrões rítmicos do PE e do PB foram marcados por um esforço sistemático de produção e análise de dados.

Por outro lado, um resultado importante deste terceiro ano, é a elaboração de ferramentas computacionais de análise automática.

Enfim, o modelo matemático para os contornos prosódicos está delineado no livro Coupling, Renewal, and Perfect Simulation of Chains of Infinite Order, de Roberto Fernández , Pablo Ferrari, e Antonio Galves.

 

 

1.                  Estado atual do corpus

 

Corpora orais segmentados, com base na segmentação de Ramus et al. (1999), e anotados quanto à marcação de acentos:

 

20 frases (corpus elaborado pelas pesquisadoras do projeto temático Sónia Frota, Marina Vigário e Charlotte Galves):

Todos os arquivos de PE e PB já foram segmentados e anotados no que se refere à marcação de acentos, correspondendo a um total de 240 enunciados.

 

54 frases (corpus traduzido e adaptado para o Português Europeu, com base no trabalho de Ramus et al. (1999), pela pesquisadora Sónia Frota):

PB: 108 enunciados dos 216 constantes do corpus de PB foram segmentados e anotados quanto à marcação de acentos, correspondentes às duas primeiras repetições dos dois informantes de PB, Lu e Cris;

PE: 42 enunciados dos 216 constantes do corpus de PE foram segmentados, correspondentes aos enunciados 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 da segunda repetição dos dois informantes de PE, Sónia e Marina.

 

54 frases (corpus traduzido e adaptado para o Português Brasileiro, com base no trabalho de Ramus et al. (1999), por Flaviane Romani Fernandes, sob a supervisão da pesquisadora de Charlotte Galves):

Quanto à marcação dos acentos, foram marcados 60 enunciados da segunda repetição realizada por cada informante dos 216 constantes do corpus de PB correspondentes às sentenças 2, 4, 6, 7, 10, 11, 14, 16, 17, 19, 20, 21, 22, 25, 27 produzidas pelos 4 informantes de PB (Fran, Gabi, Marília e Patrícia).

Foram segmentados 92 enunciados dos 216 constantes do corpus de PB, correspondentes às sentenças: 2, 4, 6, 7, 10, 11, 14, 16, 17, 19, 20, 21, 22, 25, 27, 28, 33, 34, 35, 36, 37, 38 e 42 produzidas pelos quatro informantes de PB já referidos (Fran, Gabi, Marília e Patrícia).

 

Leitura probabilidades:

Foram segmentados todos os enunciados, produzidos por um falante de PB (Galvão) e um falante de PE (Daniel).

 

 Corpus de Luciani Tenani:

 

Corpus elicitado composto de 240 frases, com 1440 realizações,   baseado nas sentenças construídas por Sonia Frota para o português europeu, com o objetivo de encontrar evidência segmental e entoacional da estrutura prosódica em PB e compará-la com  o PE.

 

 

2.         Ritmo, domínios prosódicos, e processos segmentais  no PE e no PB

 

Os resultados advindos de várias abordagens convergiram para as seguintes conclusões:

 

-                     Os trabalhos recentes reforçam a conclusão apresentada em relatórios anteriores de que domínios prosódicos  salientes são em PE a palavra fonológica e a frase entoacional, e para o PB o pé e o sintagma fonológico.

-                     Na sua tese de doutorado, Luciani Tenani mostra que os processos de juntura não trazem evidência de domínios prosódicos no PB, contrariamente ao PE.  A hipótese trabalhada por ela é de que os processos segmentais no PB otimizam a sílaba.

-                     A análise otimalista desenvolvida  com o auxílio do programa Sotaq aponta para o fato de que a redução vocálica no PB está relacionada com a implementação do ritmo, ou seja, acontece para favorecer o padrão binário. No PE, a redução vocálica já está inscrita no léxico.

-                     Isso  é coerente com a afirmação de que o PB é uma língua de ritmo  silábico, e o PB uma língua de ritmo acentual. O trabalho de Ramus et al., que mostra a existência de um correlato entre as classes rítmicas e propriedades  dos intervalos consonantais e  vocálicos, traz evidências nesse sentido. A discussão desse modelo tem sido  o objeto de muita análise e modelagem estatística este ano.

 

 

3.         A análise estatística das classes rítmicas

 

O texto de Ramus et al. (1999) já referido no relatório anterior, trouxe ao projeto um quadro interessantíssimo de análise comparativa do ritmo no PE e no PB. O trabalho inicial de Frota e Vigário (cf. Relatório no1, e Frota e Vigário 1999) indicava que, nesse quadro, era possível mostrar que o PE e o PB não fazem parte do mesmo grupo. Uma grande variação individual, e a relativa escassez de dados analisados  impedia porém que a análise ganhasse a robustez desejável. Procurou-se este ano estender o volume de dados segmentados e proceder a uma análise estatística robusta desses dados. O texto “The statistical analysis of acoustic correlates of speech rhythm”, em anexo,  apresenta os resultados desse trabalho.

 

 

4.      O algoritmo Vocale

 

O algoritmo Vocale, implementado por Jesus Garcia, identifica automaticamente as fronteiras de intervalos vocálicos e consonantais no sinal de fala. Para realizar essa tarefa, o algoritmo mede as regularidades de cada coluna do espectograma via  um procedimento hierárquico que avalia primeiro as entropias relativas dos coeficientes normalizados de colunas adjacentes. Isso identifica a maior parte dos padrões regulares apresentados pelos intervalos vocálicos. As consoantes sonoras e os glides são identificados num segundo momento, usando critérios diferentes.

Graças a esse algoritmo, será possível realizar análises estatísticas em grandes quantidades de dados acústicos. Isso é altamente desejável dada a variação encontrada de falante a falante.

O algoritmo está disponível em http://www.ime.usp.br/~jesusg/seg/, e no CD-ROM em anexo.

 

5.      O programa Sotaq  e uma análise otimalista do ritmo em PE e PB

 

O programa Sotaq, desenvolvido por Arnaldo Mandel, foi consideravelmente modificada durante este ano,  com base numa análise mais satisfatória das restrições atuando sobre o ritmo e sua hierarquização no PE e no PB.  A atual versão do texto , em anexo,  foi mandada para o Arquivo de Otimalidade de Rutgers (ROA), e está sendo submetido à revista Language.

Na Teoria da Otimalidade também, Filomena Sândalo e Hubert Truckenbrot propuseram uma análise da construção do  sintagma fonológico que será integrada à análise da atribuição do acento secundário em desenvolvimento futuros de Sotaq. O texto “Some notes on phonological phrasing in Brazilian Portuguese” segue em anexo. O programa Sotaq está disponível em http://www.ime.usp.br/~tycho/prosody/sotaq/index.html, e no CD-ROM em anexo.

 

6.      As marcas do ritmo nos textos escritos

 

A tentativa de detectar as marcas do ritmo nos textos escritos por algum procedimento estatístico é um dos pontos mais ambiciosos deste projeto. Uma pesquisa preliminar realizada por Cláudia Peixoto no ano anterior tinha dado primeiros resultados altamente encorajadores ao apontar para uma diferença sistemática entre PE e PB na distribuição de palavras nos textos  considerando, por um lado, o número de sílabas e a localização dos acentos primários, e por outro lado, os intervalos entre acentos primários, num corpus composto de artigos de vulgarização científica (cf. o relatório de Iniciação científica de Vânia T. Kawamoto em anexo). Procuramos então automatizar a  marcação das palavras, com a ajuda de um programa capaz de etiquetar cada palavra quanto ao número de sílabas e o lugar do acento primário. Em seguida,  a análise foi aplicada de novo, a um corpus muito maior, consistindo de textos literários contemporâneos, portugueses e brasileiros. A análise estatística também foi refinada (cf. relatório o técnico da pesquisa - anexo 4). Os resultados apontaram de novo para  a possibilidade de discriminar corretamente textos brasileiros e portugueses usando as mesmas variáveis.  

A primeira aplicação dessa análise aos textos históricos deu  resultados interessantes, porem difíceis de serem interpretados. Dos 16 textos analisados, 12 se classificam como PE, e 4 como PB. Esses quatro são todos do século 17, sendo que um deles é de um autor que tem um outro texto classificado como sendo do PE. Frente a esses resultados, aparece que o fator ‘estilo’ é certamente relevante, mas como? Vamos integrar agora o resto dos textos disponíveis à pesquisa, e tentar entender melhor esses resultados.

 

 

7.      Conclusões e perspectivas

 

Em conclusão, podemos afirmar que a análise comparativa dos padrões rítmicos no PB e no PE está bastante consolidada, e ferramentas permitindo testar hipóteses, como é o caso de Sotaq, ou ampliar consideravelmente o quadro descritivo, como é o caso de Vocale, estão agora à nossa disposição.

Por outro lado, como mencionei na introdução, o modelo matemático para os contornos prosódicos está delineado no livro Coupling, Renewal, and Perfect Simulation of Chains of Infinite Order, de Roberto Fernández , Pablo Ferrari, e Antonio Galves.

O desafio agora é articular esses resultados à questão central do projeto: a interação entre mudança rítmica e mudança sintática na história do português. A localização das duas mudanças continua uma questão aberta, mas já dispomos de pistas robustas para a segunda. A metodologia permitindo detectar a primeira ainda não está consolidada, e continua sendo uma tarefa prioritária.

Para a questão da interação revisaremos o modelo inicialmente proposto por Galves e Galves (1995),  com base nos dados estatísticos de que dispomos agora, e uma modelagem da prosódia mais fundamentada na descrição  acurada da diferença entre PE e PB que temos agora à nossa disposição.

 

 

Referências bibliográficas

 

Frota, S. e M. Vigário (1999) “Aspectos de prosódia comparada: Ritmo e entação no PE e no PB” comunicação apresentada no XV Encontro da Associação Portuguesa de Linguística.

Galves, A. e C. Galves (1995) “A case study of prosody driven language change “, mimeo, USP/UNICAMP (http://www.ime.usp.br/~tycho/papers/lang_chang.ps)

Ramus F., M. Nespor, and J. Mehler (1999) “Correlates of Linguistic Rhythm in Speech”, Cognition 73, pp. 265-292.

 

Anexos

 

1.      Texto:  “The statistical analysis of acoustic correlates of speech rhythm”.

2.      Texto: “The Sotaq optimality based computer program and secondary stress in two varieties of Portuguese”.

3.      Texto: “Some notes on phonological phrasing in Brazilian Portuguese” 

4.        Texto: “Statistical Analysis of Written Texts: Modern European Portuguese vs. Brazilian Portuguese”

5.      Texto: Coupling, Renewal, and Perfect Simulation of Chains of Infinite order.

6.      Relatório de Iniciação Científica: “Análise estatística de textos escritos brasileiros e portugueses quanto ao acento principal”