Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística
3º Relatório
2000-2001
Fonologia e Modelagem Matemática
I.1
O corpus Tycho Brahe e os dados históricos
1.
Estado atual do corpus
O
corpus Tycho Brahe contém agora 30 textos ortograficamente transcritos (cf. http://www.ime.usp.br/~tycho/corpus/show-texts.html),
num total de 1.371.858
palavras.
Neste ano, acrescentamos os seguintes textos em versão
ortograficamente transcrita:
-
D. JOÃO III. Letters of John III - King of Portugal
1521-1557 (The portuguese text edited with an introduction by J. D. M.
Ford). Cambridge, Massachusetts. Harvard University Press,
1931.
-
JOÃO de BARROS Gramática da língua portuguesa.
Cartinha, gramática, diálogo em louvor da nossa linguagem e diálogo da
viciosa vergonha. (edição
de M. L. C. Buescu). Lisboa, Faculdade de Letras da Universidade de Lisboa,
1971.
-
GALHEGOS, Manuel de. Gazeta, em que relatam as novas todas, que
ouve nesta corte, e que vieram de varias partes no mês de novembro de 1641. Lisboa, Officina de Lourenço de
Anueres.
-
Manuel Pires de Almeida, Poesia
e Pintura ou Pintura e Poesia, edição de Adma Fadul Muhana, no
prelo,
- Cavaleiro de Oliveira. Cartas. (selecção, prefácio e notas de Aquilino Ribeiro).
Lisboa, Livraria Sá da Costa Editora, 1982.
-
GUSMÃO, Alexandre de. Cartas. (introdução e
atualização de texto por Andrée Rocha). Lisboa, Imprensa Nacional - Casa da
Moeda, 1982.
- GARRETT,
Almeida. Cartas de Garrett. (apresentação
e edição por Segismundo Spina). São Paulo, Humanitas Publicações
FFLCH/USP, 1997.
-
EÇA de QUEIROZ e OLIVEIRA MARTINS, Correspondência,
edição de Beatriz Berrini e Paulo Franchetti, Editora da Unicamp, 2000.
Note-se que houve uma extensão do período considerado, para
a primeira metade do século 16. Isso corresponde por um lado à necessidade
de ter dados desse período para compreender melhor a evolução da variação
ênclise/próclise, e por outro lado de contemplar outros projetos de pesquisa
que se inscrevem no projeto, como o projeto de Cristiane Namiuti sobre a perda
da interpolação (cf. Seção III).
Alguns comentários devem ser feitos também a respeito das
edições utilizadas.
-
O texto de Manuel Galhegos foi transcrito a partir da Edição Princeps
de 1742. Isso representa um longo e minucioso trabalho, feito primeiro por
Helena Britto e por mim, e depois pelas bolsistas Tais Menegatti e Vanessa
Vinha. Esse tipo de trabalho será cada vez mais necessário, dada a escassez
de edições modernas, e confiáveis, de textos da época que nos interessa.
Por outro lado, uma vez que nossas ferramentas computacionais estão se
adequando à ortografia antiga, a
tendência do corpus será cada vez mais em inserir edições originais, que
trazem informações preciosas sobre a ortografia e a pontuação, que podem
constituir um auxílio valioso na nossa pesquisa sobre a prosódia dos
séculos 16 a 18.
-
O texto de Manuel Pires de Oliveira nos foi gentilmente cedido pela
Profa Adma Muhana, do Departamento de Teoria Literária do IEL, antes mesmo da
publicação da edição que ela acaba de realizar.
-
O texto da correspondência entre Eça de Queiroz e Oliveira Martins
também nos foi cedido pelo seu editor, o Prof. Paulo Franchetti, também colega do IEL. Essa
colaboração com os colegas responsáveis
por edições de textos inéditos é um desdobramento muito interessante do
projeto.
Dos 30 textos
ortograficamente transcritos, 15 já estão disponíveis na versão
etiquetada. A lentidão em disponibilizar essas versões se deve à
necessidade de corrigir os 5% de erros deixados pelo etiquetador automática.
Esse trabalho, que exige re-leitura integral e minuciosa dos textos, tem sido
feita este ano com o auxílio de ferramenta desenvolvida por Tony Kroch e sua
equipe na Universidade da Pennsylvania. O uso dessa ferramenta, além de
agilizar o trabalho, permite evitar erros na digitação das etiquetas. Mas
continua sendo uma tarefa longa e requerendo bom conhecimento gramatical em
geral, e do sistema de anotação em particular. Ela tem sido realizada por
mim, e pela doutoranda Maria Clara Paixão.
Este ano, enfrentamos o problema das grafias antigas. A
existência de textos com grafia não modernizada, e apresentando uma grande
variação nas formas, cria obviamente problemas para a etiquetagem
automática e requer que seja feita uma nova versão do etiquetador capaz de
levar em consideração as diversas grafias encontradas. Um primeiro passo foi
feito a partir da geração de um léxico de 350 000 palavras contendo um
grande número dessas variações. Esse trabalho ocupou dois meses de duas
bolsistas de treinamento técnico. A
partir desse léxico, Marcelo Finger desenvolveu uma nova versão que foi em
seguida testada na etiquetagem do texto de Maria do Céu. O relatório de
erros gerado pela ferramenta de correção permitira melhorar substancialmente
essa versão. Em breve, devemos obter portanto
um novo etiquetador, tão performante com grafias antigas quanto com as
modernas, facilitando a tarefa de correção.
Outro problema encontrado na preparação dos textos, é o das
abreviaturas, extremamente frequentes e diversificadas nos textos manuscritos.
Está prevista a visita da Profa Maria Helena Flexor, especialista do assunto,
ao projeto. Essa questão é também assunto de um projeto de iniciação
científica, recentemente submetido à Fapesp (cf. seção III).
Nesta fase, estamos consolidando definitivamente o
nosso sistema de anotação morfológica. Uma nova versão do manual pode ser
consultada na página do projeto (http://www.ime.usp.br/~tycho/corpus/manual/tags.html),
e segue em anexo, bem como no CD-ROM..
Por outro lado, um dos grandes avanços do trabalho
deste ano é o desenvolvimento do sistema de anotação sintática,
desenvolvido por Helena Britto.
2.
O desenvolvimento do analisador sintático
O sistema de anotação sintática do Corpus Tycho
Brahe é baseado no Penn-Helsinki Parsed Corpus of Middle English. Obviamente,
o trabalho de adaptação passa pela solução de numerosos problemas de
análise de construções típicas das línguas românicas de sujeito nulo,
inexistentes no inglês médio. Essa longa tarefa foi feita este ano a partir
da anotação manual, por Helena Britto, pós-doutoranda do projeto, de um
texto de 56 479 palavras: Reflexões
sobre a vaidade, do autor setecentista Matias Aires. A partir desse
trabalho, a Helena redigiu o manual de anotação sintática disponível na
página (http://www.ime.usp.br/~tycho/corpus/manual/syntax.html)
–cf. em anexo, uma amostra do
texto anotado – e no CD-ROM 30
000 palavras do texto anotado Esse trabalho está sendo realizado em
colaboração com a equipe do Corpus Dialetal Sintático do Português CordialSin,
coordenado no Centro de Linguística da Universidade de Lisboa por Ana Maria
Martins, uma vez que eles estão usando lá as ferramentas computacionais
desenvolvidas no nosso projeto.
A implementação do analisador será realizada em
varias fases, a primeira sendo
integrada a um projeto de elaboração de analisador multilíngue, na
Universidade da Pennsilvania, a partir de uma proposta de Tony Kroch. A
primeira versão para o português, baseada no texto referido acima, anotado
manualmente, será em seguida testada com um novo texto, que será corrigido
manualmente, e servirá para novo treinamento. No Brasil, contaremos com a
colaboração do cientista da computação Marcelo Finger, que tem implementado as
sucessivas versões do nosso etiquetador automático.
3.
A história da colocação
de clíticos no Português europeu: primeiros resultados a partir do corpus
Tycho Brahe
Este ano, em função da quantidade de dados já
disponível, pudemos iniciar o
nosso trabalho de descrição exaustiva da evolução da colocação de
clíticos no período coberto pelo corpus Tycho Brahe. O texto “First
Results from the Tycho Brahe Corpus” em
anexo relata essa pesquisa. O nosso primeiro universo de dados se compõe
de 11 textos :
Padre Manuel da Costa (1601-1667) A arte de furtar - 52 867 palavras
Padre Antonio Vieira (1608-1697) Letters
- 57,088 palavras
Sermons - 53855 palavras
Francisco Manuel de Mello (1608-1666) Letters - 58,070 palavras
Frei Francisco das Chagas (1631-1682) Cartas
espirituais – 54445 palavras
Maria do Céu (1658-1753) – Rellaçaõ da Vida e Morte da Serva de Deos
a Venerável Madre Elenna da Crus 27410 palavras
Matias Aires (1705-1763) Reflexões sobre a vaidade - 56,479
palavras
Correia Garção (1724-1772) Dissertações - 24, 924 palavras
Marquesa de Alorna (1750-1839) Letters - 49,512 palavras
Almeida Garrett (1799-1854) Viagens à minha terra
– 51784 palavras
Ramalho Ortigão (1836-1915) Letters – 32441 palavras
Esse corpus de 538.875 palavras cobre um período
que vai de 1631, data da Arte de Furtar,
a 1915, data das últimas cartas de Ramalho Ortigão.
Metodologia
Nessa primeira fase da pesquisa, tivemos que
apurar a metodologia de organização e classificação dos dados. A grande
questão que se levantou foi o que considerar como dados de variação, uma
vez que existem em português contextos categóricos de ênclise e próclise
que não mudaram ao longo dos tempos. A ênclise não é problemática uma vez
que os contextos que a requerem são os contextos com o verbo em primeira
posição absoluta (V1). O caso da próclise é mais delicado uma vez que não
dispomos a priori de uma descrição de todos os contextos em que nunca houve
variação. Nos casos duvidosos se encontram certos advérbios e certos
quantificadores. Além disso, sempre paira na colocação proclítica o
fantasma da focalizacão... Em relação a essas questões, as decisões
tomadas no texto que apresentamos agora se aproveitaram muito da discussão
com os colegas sintaticistas portugueses presentes na sessão de trabalho do
ZiF, Ana Maria Britto, João Costa e Gabriela Mattos (cf. seção II e
relatório de Helena Britto). Por outro lado, tivemos que tomar também
decisões quanto à maneira de computar as orações coordenadas. A partir de
um estudo piloto, chegamos à conclusão que só as coordenadas V1 deviam ser
computadas independentemente, as coordenadas em que algum sintagma precede o
verbo (coordenadas V2), tendo exatamente o mesmo comportamento que as não
coordenadas.
O retrato da mudança
Os primeiros resultados quantitativos, articulados
à análise quantitativa apresentada no artigo,
apontam nitidamente para a existência de mudança a partir da Marquesa de Alorna (nascida em
1750). Contudo, o início dessa mudança continua difícil de localizar
exatamente, dada a variação encontrada entre os autores em todo o período
que precede. Na sessão de trabalho do ZiF, Tony Kroch chamou a nossa
atenção para o fato de que o gráfico da evolução da variação
ênclise/próclise com sujeitos pre-verbais indicava uma mudança com início mais
longínquo no tempo do que hipotetizamos no início do projeto. Nos
empenharemos agora em trazer o máximo possível de dados novos, com ênfase
na segunda metade do séc. 16, na segunda metade do séc. 17, e no comecinho
do séc. 18, com o intuíto de retratar
detalhadamente o curso dessa mudança, e localizar definitivamente no tempo o
seu início.
O “místério” dos sermões
Deve-se enfatizar enfim um resultado importante
trazido nesse primeiro estudo. Trata-se de uma explicação para o alto
índice de ênclise encontrado nos sermões de Vieira, já notado por Ana
Maria Martins na sua tese, e confirmado no nosso estudo. Esse índice
contrasta fortemente com o que se encontra nos contemporâneos de Vieira, e na
correspondência do próprio Vieira. A análise qualitativa do uso das
construções enclíticas mostra que elas desempenham um papel estilístico
fundamental no texto. Aparecem sempre que o
termo precedendo o verbo contrasta com um outro termo, nos efeitos de estilo constitutivos da
retórica barroca:
<71>Diz o Senhor, que
o dia do Juiso ha-de vir, e que já é; porque ainda que o dia do Juiso ha-de
ser depois, e muito depois; o dia da morte é já agora: e o que se
ha-de cumprir em todos no dia do Juiso,
cumpre-se em cada um no dia da morte: Singulis in die mortis completur. Notae
o Completur. As outras prophecias cumprem-se a seu tempo, esta do dia
do Juiso tem o seu cumprimento antes de tempo; porque aquillo mesmo que se
faz agora, é o que se diz que ha-de ser então.
As outras prophecias/ esta do dia do Juiso
<74>
Não diz o Apostolo, que passa o mundo, senão as figuras; porque as
figuras vão-se, e o theatro
fica.
As figuras /o theatro (o mundo)
<97>
Comparada, porém, qualquer revelação não canonica, com as boas obras, eu
antes quizera a certeza das obras, que a da revelação; porque a
revelação não me póde salvar sem boas obras; e as boas obras pódem-me salvar sem revelação.
As boas obras/ a revelação
<125> Elles conheciam-se, como homens, Christo
conhecia-os, como Deus.
Elles/Christo
<170>
Deus julga-nos a nós por nós; os homens julgam-nos a nós por
si.
<87>
Lá ha se de esperar o tempo
que basta para os fructos verdes amadurecerem: cá não se espera por
fructos maduros, nem ainda verdes, porque se cortam as flores ainda antes
lá/cá
<90>
Assim como n'esta vida ha grande differença dos grandes e poderosos, aos que
o não são, assim a ha-de haver no dia do Juiso. Elles teem hoje a mão
direita; mas como o mundo então ha-de dar uma tão grande volta, muito é de
temer que fiquem muitos á esquerda. Dos outros salvar-se-ha ametade; e dos grandes e poderosos
quantos?
Dos poderosos/dos outros
<91>
O Juiso com que Deus ha-de julgar aos que mandam e governam, ha-de ser um
Juiso durissimo; porque aos pequenos conceder-se-ha misericordia; porém os
grandes e poderosos serão poderosamente atormentados: Potentes potenter
tormenta patientur
aos pequenos/aos grandes
<133>
Entre as feras tomava-se com
os leões, e entre os homens com os gigantes
entre as feras/entre os homens
<156>
Eis aqui porque David queria que o julgasse Deus, e não os homens: no
Juiso de Deus perdoam-se os peccados
como fraquezas: no juiso dos
homens castigam-se as valentias
como peccados.
Essa
análise dos sermões suporta por
outro lado a hipótese de que no português clássico a ênclise corresponde a
uma estrutura em que o sintagma pre-verbal está fora da oração. Isso é uma estrutura marcada, associada a interpretações marcadas.
Espera-se portanto que depois da mudança, a ênclise, além de tender a
aumentar, não tenha mais esse estatuto marcado. Isso nos fornece uma outra
pista para detectar a mudança.
4.
Conclusões e perspectivas
Neste
momento do projeto, pode-se portanto afirmar que:
-
A ferramenta de etiquetagem
morfológica está consolidada, tanto linguisticamente quanto
computacionalmente.
-
A base linguística da
ferramenta de análise sintática está pronta, e sua implementação
computacional está para ser iniciada. A primeira versão do analisador
deverá estar rodando em breve.
-
O quadro metodológico da descrição
da mudança da colocação de clíticos está consolidado, e já temos
primeiros resultados robustos, apresentando uma imagem até então
desconhecida da evolução da variação ênclise/próclise, e uma
interpretação do uso da ênclise em Vieira.
-
O corpus Tycho Brahe está
se tornando uma referência para os estudiosos da história do português. Cf.
em anexo a lista dos seus usuários.
No
próximo, e último, ano do projeto, introduziremos mais 10 textos, para
perfazer o total de 40 previstos inicialmente. Procuraremos preencher as
lacunas no tempo, em particular a segunda metade do séc.17 e a segunda metade
do séc. 18. Introduziremos
cada vez mais edições baseadas em manuscritos ou edições princeps. Aliás,
será uma necessidade, uma vez que estão se esgotando as edições modernas
confiáveis. Nesse sentido continuaremos a procurar colaborar com grupos de
pesquisa envolvidos na edição de textos daquelas épocas. A etiquetagem dos
textos de ortografia antiga deverá ser tornada mais fácil graças à nova
versão do etiquetador. É preciso contudo notar que esses textos são mais
difíceis de transcrever e corrigir do que os textos modernizados, em função
do fato de não poderem ser escaneados, e de a revisão envolver muito mais
anotação e comentários.
A partir do quadro de análise elaborado este ano, completaremos o retrato da evolução da colocação de clíticos nos contextos de variação. Enquanto o analisador sintático não for muito performante, a extração dos dados terá que ser feita manualmente, como temos feito (com o auxílio de uma bolsista de iniciação científica), exceto para o passo inicial – separação das construções enclíticas e proclíticas – que requer somente a anotação morfológica. Isso obviamente torna o trabalho mais longo, mas deve-se notar contudo que se trata de um trabalho muito formador para os alunos.
O
próximo passo consiste também em refinar a análise estatística, lançando
mão de modelos que nos permitam interpretar os dados quantitativos para a
localização do início da mudança, questão básica do projeto.
1.
Cópia do novo manual de
anotação morfológica
2.
Índice do manual
sintático
3.
Ilustração da anotação
sintática
4.
Texto: “First Results from the Tycho Brahe
Corpus”
5.
Lista dos usuários do
Corpus Tycho Brahe
6.
Texto: “Computational and Linguistic Aspects
of the Construction of the Tycho Brahe Parsed Corpus of Historical Portuguese”
O corpus na sua última versão, bem como os novos
manuais, e o texto analisado sintaticamente se encontram no CD-ROM.
Projeto
temático: Padrões rítmicos, fixação de parâmetros e mudança
linguística
3º Relatório
I.2
A análise comparativa dos padrões rítmicos do PE e do PB
O trabalho deste ano sobre a
comparação dos padrões rítmicos do PE e do PB foram marcados por um
esforço sistemático de produção e
análise de dados.
Por outro lado, um resultado
importante deste terceiro ano, é a elaboração de ferramentas computacionais de análise
automática.
Enfim, o modelo matemático
para os contornos prosódicos está delineado no livro Coupling, Renewal, and Perfect Simulation
of Chains of Infinite Order, de Roberto Fernández , Pablo Ferrari, e
Antonio Galves.
1.
Estado atual do corpus
Corpora orais segmentados, com
base na segmentação de Ramus et al. (1999), e anotados quanto à marcação
de acentos:
20 frases (corpus
elaborado pelas pesquisadoras do projeto temático Sónia Frota, Marina
Vigário e Charlotte Galves):
Todos os arquivos de PE e PB
já foram segmentados e anotados no que se refere à marcação de acentos,
correspondendo a um total de 240 enunciados.
54 frases (corpus traduzido e adaptado para o
Português Europeu, com base no trabalho de Ramus et al. (1999), pela
pesquisadora Sónia Frota):
PB: 108 enunciados dos 216
constantes do corpus de PB foram
segmentados e anotados quanto à marcação de acentos, correspondentes às
duas primeiras repetições dos dois informantes de PB, Lu e Cris;
PE: 42 enunciados dos 216
constantes do corpus de PE foram
segmentados, correspondentes aos enunciados 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,
12, 13, 14, 15, 16, 17, 18, 19, 20, 21 da segunda repetição dos dois
informantes de PE, Sónia e Marina.
54 frases (corpus traduzido e adaptado para o
Português Brasileiro, com base no trabalho de Ramus et al. (1999), por
Flaviane Romani Fernandes, sob a supervisão da pesquisadora de Charlotte
Galves):
Quanto à marcação dos
acentos, foram marcados 60 enunciados da segunda repetição realizada por
cada informante dos 216 constantes do corpus
de PB correspondentes às sentenças 2, 4, 6, 7, 10, 11, 14, 16, 17, 19,
20, 21, 22, 25, 27 produzidas pelos 4 informantes de PB (Fran, Gabi, Marília
e Patrícia).
Foram
segmentados 92 enunciados dos 216 constantes do corpus de PB, correspondentes às
sentenças: 2, 4, 6, 7, 10, 11, 14, 16, 17, 19, 20, 21, 22, 25, 27, 28, 33,
34, 35, 36, 37, 38 e 42 produzidas pelos quatro informantes de PB já
referidos (Fran, Gabi, Marília e Patrícia).
Leitura
probabilidades:
Foram
segmentados todos os enunciados, produzidos por um falante de PB (Galvão) e
um falante de PE (Daniel).
Corpus de Luciani
Tenani:
Corpus
elicitado composto de 240 frases, com 1440 realizações, baseado nas sentenças
construídas por Sonia Frota para o português europeu, com o objetivo de
encontrar evidência segmental e entoacional da estrutura prosódica em PB e
compará-la com o PE.
2.
Ritmo, domínios prosódicos, e processos segmentais no PE e no PB
Os resultados advindos de várias abordagens convergiram para
as seguintes conclusões:
-
Os trabalhos recentes reforçam a
conclusão apresentada em relatórios anteriores de que domínios prosódicos salientes são em PE a palavra
fonológica e a frase entoacional, e para o PB o pé e o sintagma fonológico.
-
Na sua tese de doutorado, Luciani
Tenani mostra que os processos de juntura não trazem evidência de domínios
prosódicos no PB, contrariamente ao PE.
A hipótese trabalhada por ela é de que os processos
segmentais no PB otimizam a sílaba.
-
A análise otimalista desenvolvida com o auxílio do programa Sotaq aponta para o fato de que a
redução vocálica no PB está relacionada com a implementação do ritmo, ou
seja, acontece para favorecer o padrão binário. No PE, a redução vocálica
já está inscrita no léxico.
-
Isso
é coerente com a afirmação de que o PB é uma língua de ritmo silábico, e o PB uma língua de ritmo
acentual. O trabalho de Ramus et al., que mostra a existência de um correlato
entre as classes rítmicas e propriedades
dos intervalos consonantais e vocálicos,
traz evidências nesse sentido. A discussão desse modelo tem sido o objeto de muita análise e modelagem
estatística este ano.
3.
A análise estatística das classes rítmicas
O texto de Ramus et al. (1999) já referido no relatório anterior, trouxe ao projeto um quadro interessantíssimo de análise comparativa do ritmo no PE e no PB. O trabalho inicial de Frota e Vigário (cf. Relatório no1, e Frota e Vigário 1999) indicava que, nesse quadro, era possível mostrar que o PE e o PB não fazem parte do mesmo grupo. Uma grande variação individual, e a relativa escassez de dados analisados impedia porém que a análise ganhasse a robustez desejável. Procurou-se este ano estender o volume de dados segmentados e proceder a uma análise estatística robusta desses dados. O texto “The statistical analysis of acoustic correlates of speech rhythm”, em anexo, apresenta os resultados desse trabalho.
4.
O algoritmo Vocale
O
algoritmo Vocale, implementado por
Jesus Garcia, identifica automaticamente as fronteiras de intervalos
vocálicos e consonantais no sinal de fala. Para realizar essa tarefa, o
algoritmo mede as regularidades de cada coluna do espectograma via um procedimento hierárquico que
avalia primeiro as entropias relativas dos coeficientes normalizados de
colunas adjacentes. Isso identifica a maior parte dos padrões regulares
apresentados pelos intervalos vocálicos. As consoantes sonoras e os glides são identificados num segundo
momento, usando critérios diferentes.
Graças
a esse algoritmo, será possível realizar análises estatísticas em grandes
quantidades de dados acústicos. Isso é altamente desejável dada a
variação encontrada de falante a falante.
O algoritmo está
disponível em http://www.ime.usp.br/~jesusg/seg/, e no CD-ROM em anexo.
5.
O programa Sotaq
e uma análise otimalista do ritmo em PE e PB
O programa Sotaq,
desenvolvido por Arnaldo Mandel, foi consideravelmente modificada durante este
ano, com base numa análise mais
satisfatória das restrições atuando sobre o ritmo e sua hierarquização no
PE e no PB. A atual versão do
texto , em anexo, foi mandada para o Arquivo de Otimalidade de Rutgers (ROA), e
está sendo submetido à revista Language.
Na Teoria da Otimalidade também, Filomena Sândalo e Hubert Truckenbrot
propuseram uma análise da construção do
sintagma fonológico que será integrada à análise da atribuição do
acento secundário em desenvolvimento futuros de Sotaq. O texto “Some notes on
phonological phrasing in Brazilian Portuguese” segue em anexo. O programa Sotaq está
disponível em http://www.ime.usp.br/~tycho/prosody/sotaq/index.html, e no CD-ROM em anexo.
6.
As marcas do ritmo nos textos escritos
A tentativa de detectar as marcas do ritmo nos
textos escritos por algum procedimento estatístico é um dos pontos mais
ambiciosos deste projeto. Uma pesquisa preliminar realizada por Cláudia
Peixoto no ano anterior tinha dado primeiros resultados altamente
encorajadores ao apontar para uma diferença sistemática entre PE e PB na
distribuição de palavras nos textos considerando,
por um lado, o número de sílabas e a localização dos acentos primários, e
por outro lado, os intervalos entre acentos primários, num corpus composto de
artigos de vulgarização científica (cf. o relatório de Iniciação
científica de Vânia T. Kawamoto em
anexo). Procuramos então automatizar a
marcação das palavras, com a ajuda de um programa capaz de etiquetar
cada palavra quanto ao número de sílabas e o lugar do acento primário. Em
seguida, a análise foi aplicada
de novo, a um corpus muito maior, consistindo de textos literários
contemporâneos, portugueses e brasileiros. A análise estatística também
foi refinada (cf. relatório o técnico da pesquisa - anexo 4). Os resultados
apontaram de novo para a
possibilidade de discriminar corretamente textos brasileiros e portugueses
usando as mesmas variáveis.
A primeira aplicação dessa análise aos textos
históricos deu resultados
interessantes, porem difíceis de serem interpretados. Dos 16 textos
analisados, 12 se classificam como PE, e 4 como PB. Esses quatro são todos do
século 17, sendo que um deles é de um autor que tem um outro texto
classificado como sendo do PE. Frente a esses resultados, aparece que o fator
‘estilo’ é certamente relevante, mas como? Vamos integrar agora o resto
dos textos disponíveis à pesquisa, e tentar entender melhor esses
resultados.
7.
Conclusões e perspectivas
Em
conclusão, podemos afirmar que a análise comparativa dos padrões rítmicos
no PB e no PE está bastante consolidada, e ferramentas permitindo testar
hipóteses, como é o caso de Sotaq,
ou ampliar consideravelmente o quadro descritivo, como é o caso de Vocale, estão agora à nossa disposição.
Por outro lado, como mencionei na introdução, o modelo
matemático para os contornos prosódicos está delineado no livro Coupling, Renewal, and Perfect Simulation
of Chains of Infinite Order, de Roberto Fernández , Pablo Ferrari, e
Antonio Galves.
O desafio agora é articular esses resultados à questão
central do projeto: a interação entre mudança rítmica e mudança
sintática na história do português. A localização das duas mudanças
continua uma questão aberta, mas já dispomos de pistas robustas para a
segunda. A metodologia permitindo detectar a primeira ainda não está
consolidada, e continua sendo uma tarefa prioritária.
Para a questão da interação revisaremos o modelo
inicialmente proposto por Galves e Galves (1995), com base nos dados estatísticos de
que dispomos agora, e uma modelagem da prosódia mais fundamentada na
descrição acurada da diferença
entre PE e PB que temos agora à nossa disposição.
Referências bibliográficas
Frota,
S. e M. Vigário (1999) “Aspectos de prosódia comparada: Ritmo e entação
no PE e no PB” comunicação apresentada no XV Encontro da Associação Portuguesa de
Linguística.
Galves, A. e C. Galves (1995) “A case study of prosody driven language change “, mimeo, USP/UNICAMP (http://www.ime.usp.br/~tycho/papers/lang_chang.ps)
Ramus
F., M. Nespor, and J. Mehler (1999) “Correlates of Linguistic Rhythm in
Speech”, Cognition 73, pp. 265-292.
Anexos
1.
Texto: “The statistical analysis of
acoustic correlates of speech rhythm”.
2.
Texto: “The Sotaq optimality based computer program
and secondary stress in two varieties of Portuguese”.
3.
Texto: “Some notes
on phonological phrasing in Brazilian Portuguese”
4. Texto: “Statistical Analysis of Written Texts: Modern European Portuguese vs. Brazilian Portuguese”
5.
Texto: Coupling, Renewal, and
Perfect Simulation of Chains of Infinite order.
6.
Relatório de
Iniciação Científica: “Análise estatística de textos escritos
brasileiros e portugueses quanto ao acento principal”