Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

Relatório
2001-2002


Sintaxe
Fonologia e Modelagem Matemática


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

4º Relatório 

 

O Corpus Tycho Brahe
e os dados históricos

 
1. Estado atual do corpus

O corpus

O Corpus Tycho Brahe contém agora 41 textos ortograficamente transcritos (cf. http://www.ime.usp.br/~tycho/corpus/show-texts.html), num total de 1.851.619 palavras.

A divisão por século (de nascimento dos autores) ficou a seguinte:

- século 16: 12 textos

- século 17: 13 textos

- século 18: 11 textos (8 sem Almeida Garrett, nascido em 1799)

- século 19: 05 textos (8 com Almeida Garrett)

 

Neste ano, acrescentamos os seguintes textos em versão ortograficamente transcrita:

séc. 16

(1510-1583)

FERNÃO MENDES PINTO

Perigrinação
(52.555 palavras)

(1517-1584)

FRANCISCO DE HOLANDA

Da Pintura Antiga
(52.538 palavras)

(1569-1617)

BERNARDO DE BRITO

Da Monarquia Lusitana
(50,394 palavras)

(1583-1655)

MANUEL SEVERIM DE FARIA

Discursos Vários Políticos 
(53,765 palavras)

séc. 17

(1675-1754)

ANDRÉ DE BARROS

A Vida do Padre António Vieira
(52, 055 palavras)

(1676-1749)

JERÓNIMO CONTADOR DE ARGOTE
Regras da Língua Portugueza, Espelho da Língua Latina
(47,080 palavras) 

séc. 18

(1733-1805)

DIOGO IGNACIO DE PINA MANIQUE

Pina Manique e a Universidade de Coimbra, Cartas do Intendente e de José Rodrigues Lisboa para o Doutor Francisco Montanha
(28, 975 palavras)

(1757-1832)

JOSÉ DANIEL RODRIGUES DA COSTA

6 Entremezes de Cordel 
(26,078 palavras)

séc. 19

(1825-1890)

CAMILO CASTELO BRANCO

Maria Moisés
(21,541 palavras)

Amor de Perdição 
(50. 528 palavras)

 

As edições

Para Fernão Mendes Pinto, Manuel Severim de Faria, Francisco de Holanda, os Entremezes de Cordel, e Maria Moises, usamos edições portuguesas modernizadas, os três primeiros da Imprensa Nacional-Casa da Moeda, os Entremezes da Editorial Estampa - Serra Nova, e Maria Moises da Biblioteca Digital Portuguesa. 

A Vida do Padre Vieira é a edição original de 1746, trazida em fotocópia da Biblioteca de Lisboa.

A Monarquia Lusitana é a edição de 1806, adquirida anteriormente, e já usada no Corpus.

A Correspondência de Pina Manique é a edição não modernizada do Arquivo da Universidade de Coimbra. 1984, já usada em pesquisas anteriores.

Os outros textos correspondem a duas inovações:

- usar textos disponibilizados na rede em versão digital. É o caso de Jerônimo Contador de Argote, disponível no Site da Biblioteca Nacional de Lisboa, e Amor de Perdição, no Site brasileiro folhetim.com.br (depois de cotejada a edição modernizada brasileira com a edição original disponível na BN de Lisboa).

- modernizar a grafia (sem alterar a pontuação). Foi o caso para Jerônimo Contador de Argote e A Vida do Padre Vieira. Esse recurso foi adotado em função das dificuldades de o etiquetador lidar com a variação gráfica. Não significa que renunciamos enfrentar essa questão, mas por ser um problema computacional complexo que pode demorar ainda para ser resolvido, preferimos ter condições de etiquetar rapidamente o texto, e dar ao usuário o texto original, do que transcrever este, o que é mais demorado, e torna a correção das etiquetas muito mais difícil, e portanto mais demorada também.

 

A anotação

 Dos 41  textos ortograficamente transcritos, 20 já estão disponíveis na versão etiquetada (3 para o séc. 16, 10 para o séc. 17,  6  para o séc. 18, 1  para o séc. 19 - ou respectivamente 5 e 2, dependendo da classificação de Garrett). O nosso empenho em ter os textos do séc. 17 e do início do séc. 18 etiquetados, e analisados, corresponde à importância desse período para a mudança. Até ao final da vigência, disponibilizaremos mais 3 textos desse mesmo período: As Regras da Língua Portugueza, Espelho da Língua Latina de Jerônimo Contador de Argote ( 2ª metade do séc. 17),  as Cartas do Abade Antonio da Costa e a Correspondência de Pina Manique (1ª metade do séc. 18). Os outros textos serão etiquetados à medida que as pesquisas forem se desenvolvendo. Os do século 16, por exemplo, deverão ser usados na dissertação de mestrado da Mestranda Cristiane Namiuti.

1.                   O desenvolvimento do analisador sintático

Este ano, Helena Britto, pós-doutoranda do projeto, terminou a marcação de Reflexões sobre a Vaidade de Matias Aires,  e consolidou o manual de anotação sintática, que foi  objeto de discussão com a equipe do Projeto CordialSin, do Centro de Linguistica da Universidade de Lisboa. Foi então possível usar esse texto, de 56,479 palavras, para treinar para o português um analisador sintático (parser) multilingue desenvolvido por Dan Bikel na Universidade da Pensilvânia, posto à nossa disposição graças à mediação de Anthony Kroch.   O resultado desse treinamento foi aplicado a um novo texto (as Cartas do Cavaleiro de Oliveira - 51, 080 palavras) com um razoável sucesso. Helena Britto está agora corrigido o resultado da análise automática, de maneira a treinar de novo o parser com os dois textos, ou seja com mais 100.000 palavras, num futuro próximo.  Junto em anexo (cf. anexo impresso) o texto "Das anotações morfológica e sintática do Corpus Tycho Brahe à primeira versão do analisador sintático automático para o português", de Helena Britto, em que ela expõe o andamento do trabalho.

 

2. A história da colocação de clíticos no Português europeu:  resultados a partir do corpus Tycho Brahe

 

O trabalho de descrição exaustiva da evolução da colocação de clíticos no período coberto pelo corpus Tycho Brahe, iniciado no período anterior, continuou de maneira muito intensivo este ano.  A  base de dados já disponível foi inteiramente revisada, padronizada, e enriquecida com dados extraídos de 8 novos textos, perfazendo um total de 19 (os novos textos estão marcados com um asterisco). Esse trabalho minucioso e demorado, essencial para o projeto ficou sob a responsabilidade de Maria Clara Paixão, doutorando do projeto, e contou com a participação ativa de Lucianne Chociay, bolsista de iniciação científica do projeto, Cristiane Namiuti, bolsista de mestrado, e Sílvia Regina Cavalcante, bolsista de doutorado do projeto.

Textos incluidos na base de dados 

Diogo do Couto* (1542-1606) Décadas - 47,448 palavras

Frei Luis de Sousa* (1556-1632) A vida de Frei Bertolameu dos Mártires- 53,928 palavras

Rodrigues Lobo* (1579-1621) Côrte na Aldeia e Noites de Inverno-  52,429  palavras

Padre Manuel da Costa (1601-1667) A arte de furtar  - 52 867 palavras

Padre Antonio Vieira (1608-1697) Cartas - 57,088 palavras    
                                                           
Sermões -  53855 palavras

Francisco Manuel de Mello (1608-1666) Cartas - 58,070 palavras

Frei Francisco das Chagas (1631-1682) Cartas espirituais – 54445 palavras

Padre Manuel Bernardes* (1644-1710) Nova Floresta- 52,374 palavras

J. Cunhado Brochado* (1651- 1735) Cartas - 35 058 palavras

Maria do Céu (1658-1753) Rellaçaõ da Vida e Morte da Serva de Deos a Venerável Madre Elenna da Crus - 27410 palavras

André de Barros (1675- 1754) A vida do Padre Vieira - 52 055 palavras

Alexandre de Gusmão* (1695-?)   Cartas - 32 433 palavras

Matias Aires (1705-1763) Reflexões sobre a vaidade - 56,479 palavras

Luis Antonio Verney*  (1713- 1792) Verdadeiro método de estudar - 49335 palavras

Correia Garção (1724-1772)  Dissertações  - 24, 924 palavras

Marquesa de Alorna (1750-1839) Cartas - 49,512 palavras

Almeida Garrett (1799-1854) Viagens à minha terra – 51,784 palavras

Ramalho Ortigão (1836-1915) Cartas – 32,441 palavras

 

Esse Corpus de  913 935 palavras cobre um período que vai de 1602, data de publicação da 4ª Década de Diogo do Couto (nascido em 1542), a 1915, data das últimas cartas de Ramalho Ortigão (nascido em 1836). O conjunto dos dados de variação considerados é de 3030.

 

O retrato da mudança

Os  novos dados, extraídos de autores nascidos na segunda metade do séc. 16 (ausentes da nossa primeira quantificação) e de autores nascidos depois de 1640, permitiram precisar a análise iniciada em Galves, Britto e Paixão de Sousa (2001). 

Essa análise apontava para a existência de dois momentos no período considerado. Num primeiro momento, a próclise é altamente majoritária, e a ênclise se caracteriza como um fenômeno marginal, ligado a aspectos estilísticos dos textos. Essa ligação se explica bem se adotarmos a idéia já defendida por vários autores de que a ênclise, nessa fase da língua está ligada à Lei de Tobler Mussafia que proíbe um clítico de aparecer em primeira posição na oração, e aparece portanto quando o verbo está em primeira posição na oração. Essa análise acarreta atribuir aos sintagmas pré-verbais nas frases com ênclise uma posição externa à oração. Isso é marcado, e pode constituir um recurso estilístico.

No segundo período, a variação corresponde a uma situação de “competição de gramáticas” (Kroch 1994). A mudança gramatical já aconteceu, mas a nova forma  entra nos textos em choque com a antiga, com uma gradativa imposição da primeira.

A questão que ficou pendente era a localização exata do início desse processo, razão pela qual aumentamos a base de dados com textos de autores nascidos na segunda metade do séc. 17, período susceptível de ser o da mudança, e também da segunda metade do séc. 16 para verificar se se configurava então uma situação de próclise absoluta que poderia apontar para uma mudança mais antiga.

As conclusões a que chegamos nessa fase são as seguintes:

Figura 1

 Os novos dados confirmam a análise anterior. A figura 1 mostra que a ênclise em construções V2  é um fenômeno marginal que varia entre 0 e 10% para a maioria dos autores nascidos até a segunda metade do séc. 17. Dos 13 autores nascidos entre 1542 e 1695 que consideramos, só 4 apresentam uma taxa de ênclise superior a 10%. No caso mais saliente, o dos Sermões de Vieira, já mostramos no relatório anterior que esse uso decorre do estilo barroco dos Sermões, todo baseado em oposições de termos que, de um ponto de vista sintático são tópicos contrastivos externos à oração (cf. também Galves 2001, em anexo). A figura 2 mostra que obtemos um resultado muito parecido quando só consideramos as orações em que o elemento inicial é o sujeito.

  Figura 2

O efeito  “se”

 

O estudo mais detalhado das construções com sujeito pré-verbal mostrou este ano um outro fator atuando sobre a colocação enclítica nessa época: o clítico se.

Figura 3

Com efeito, se considerarmos os quatro autores mais enclíticos, constatamos que a ênclise aparece neles exclusivamente, ou muito majoritariamente, com esse pronome[1]:

 

Couto (n. 1542): em 18 casos de ênclise (24% do total de ocorrências), 18 se - 100%

Costa (n. 1601): em 16 casos de ênclise (36% do total), 14 se - 87%

Vieira -Sermões-(n. 1608): em 28 casos de ênclise (52% do total), 24 se - 85%

Bernardes (n. 1644): em 14 casos de ênclise (16% do total), 13 se - 92%

 

Nesses mesmos autores, a proporção de se nas orações com próclise é muito inferior: 42% em Couto,  34% em Costa, 42% nos Sermões de Vieira, e  26% em Bernardes.

Essa tendência se verifica no início do séc. 18. Em Aires, os 12 casos de ênclise com sujeito são com o pronome se (que na próclise corresponde a 24% das ocorrência).

Com Verney (n. 1713), Garção (n. 1724) e Alorna (n.1750), o panorama muda completamente. Primeiro, nos dois primeiros, acontece a “especialização” inversa: a próclise só acontece com outros pronomes.   Além disso, Verney só tem 26% de se, e Garção 25%, Alorna 12%.  Apesar disso, as  taxas de ênclise desses autores com  sujeitos são respectivamente 42, 40 e 47 %.

Esses dados confirmam a nossa análise anterior: até o final do séc. 17/início do séc. 18, a ênclise é um fenômeno marcado. Essa colocação só ultrapassa os 10% quando um fator particular atua. A partir do início do séc. 18, com Verney, esse caráter marcado desaparece nitidamente.

Detectamos assim dois dos fatores que favorecem a ênclise no primeiro período, a marcação do sintagma inicial como contrastivo, e o uso do clítico se.

O primeiro desses fatores é perfeitamente compatível com a idéia de que a ênclise, na velha gramática corresponde a estruturas em que o verbo está em primeira posição (V1), já que os tópicos contrastivos são por hipótese externos à oração.

O segundo se  insere menos claramente nesse quadro explicativo. Qual é a relação entre a ênclise e o pronome se? A nossa primeira hipótese foi que o se responsável pela colocação particular era o se passivo. Mas os dados não confirmam essa hipótese, como se vê na figura 3 quando comparada com a figura 4. É só quando se toma o uso do se como um todo que se pode relacionar o aumento da ênclise com esse uso.

Figura 4

Vale ressaltar que a relação numérica aparece claramente: os autores mais enclíticos dos séc. 16 e 17 são exatamente aqueles em que a proporção de se em relação aos outros pronomes é a mais alta.  Com a exceção de Bernardes - o menos enclítico dos quatro -  esses são justamente os autores que mais usam o pronome se (56% do conjunto dos clíticos em Couto, 53% em Costa, 64% em Vieira, contra uma proporção de se nos outros autores variando entre 19 e 27%)

A Figura 5 mostra essa correlação.

Figura 5

 

 

Evidências da atuação da Lei de Tobler-Mussafia no português clássico e a  localização da mudança no tempo

 

Os gráficos acima mostram a mudança acontecendo claramente na primeira metade do Séc. 18. Em Alorna, temos todas as razões de pensar que a variação próclise/ênclise não corresponde mais a duas opções tornadas disponíveis por uma gramática só, mas deriva da competição de gramática, no sentido de Kroch (1994).

A dificuldade em interpretar os dados de maneira definitiva reside na flutuação que vemos na primeira parte do gráfico, e que foi comentada acima. Mesmo na gramática proclítica, alguns autores apresentam mais ênclise. Vimos acima que somos agora capaz de explicar esse fato. Mas a questão se coloca para um autor como Aires: os 20% de ênclise que ele apresenta correspondem à exceção da gramática anterior ou já traem a implementação da nova gramática?  

Alguns indícios podem nos por na pista da resposta. É interessante, por exemplo, notar que para os três autores nascidos de 1695 a 1713, inclusive Aires,  a taxa de ênclise com sujeito é inferior à taxa de ênclise com  outros sintagmas pré-verbais, contrariamente a todos os autores anteriores e posteriores. Isso pode apontar para um momento de desequilíbrio do sistema decorrente de um momento em que o que se escreve passa a se distanciar muito do uso natural. A proporção de ênclise nas orações traz também informações interessantes, uma vez que ela já situa Aires na faixa dos autores modernos (cf. Figura 6). Análises mais sistemáticas de cada um desses autores  bem como das correlações existindo na colocação dos clíticos conforme os ambientes e fatores como a natureza do clítico em cada período,  estão sendo feitas agora para conseguir  elementos mais objetivos possíveis de datação da mudança.

Um resultado muito interessante foi obtido recentemente a partir de uma sugestão de Tony Kroch. A partir da hipótese já mencionada de que na gramática antiga, a ênclise é um fenômeno decorrente da Lei de Tobler- Mussafia,  espera-se que as orações, que têm contorno entoacional próprio, sejam um elemento inicial que favorece a ênclise. A Figura 6 mostra que isso se verifica, uma vez que a maioria dos autores dos séc. 16 e 17 tem mais de 30% de ênclise com orações iniciais, em contraste com o que verificamos para os outros sintagmas pré-verbais que, para a grande maioria dos autores correspondem a um máximo de 10% de ênclise. O mesmo raciocínio leva a fazer a predição que quanto mais longa é a oração, mais chance haverá da colocação ser enclítica. Contudo, esperamos que essa correlação deixe de existir quando surge a nova gramática, onde a ênclise não é mais um fenômeno ligado a Lei de Tobler-Mussafia, ou seja não corresponde mais a uma configuração em que o verbo está em primeira posição. Depois do surgimento dessa nova gramática, a alternância ênclise/próclise não se deve mais ao jogo V1/V2 , mas à competição de gramáticas que, por hipótese, não deve ter mais sensibilidade ao comprimento da oração.

Os resultados, apresentados abaixo, foram muito instrutivos. Para os autores do século 16 e 17 até Gusmão, aparece uma correlação clara entre o comprimento e a ênclise: à medida que vai aumentando o número de palavras fonológicas na oração inicial, aumenta a chance de acharmos a ênclise: para os autores do  século 16, a percentagem de ênclise com orações curtas (de 1 a 4 palavras fonológicas) é de aproximadamente 30%. Nas orações longas, mais de 8 palavras fonológicas, passa para 50%. No século 17, os valores são respetivamente de 48% e 71 %. Mas no século 18 (Gusmão incluído),  essa correlação deixa claramente de aparecer. Os nossos dados acusam até uma tendência inversa. Com orações pré-verbais curtas, achamos 74% de ênclise. Esse valor cai para 50 % com as orações de mais de 8 palavras fonológicas.

  Figura 6

  1500 to 1599 

 

1600 to 1690 

 

1691 to 1799 

 

1800

 

  proc encl %encl proc encl %encl proc encl %encl proc encl %encl
1-4 w 68 29 29,89 38 35 47,95 12 35 74,47 0 10 100
5-8 w 33 18 35,29 27 28 50,91 16 31 65,96 0 4 100
9+  w 8 9 52,94 10 25 71,43 15 15 50 0 0 0
  109 56   75 88   43 81   0 14  

 

3. Balanço do período            

 

Recapitulando, são as seguintes os avanços do período e as perspectivas para os últimos 6 meses do projeto.

 

·         Completamos o Corpus de 40 textos previsto no início

·         Temos um conjunto de dados organizados correspondendo à metade do Corpus, que nos dá uma base empírica forte, nunca disponível até agora, para a análise da mudança gramatical no Português Europeu depois do Século 16.

·         Temos uma descrição da evolução da colocação de clíticos que apoia fortemente a hipótese inicial sobre as gramáticas em confronto, e nos permite datar a mudança com uma precisão nunca dantes atingida, que ainda pretendemos refinar.

·         Temos um analisador automático para o português em fase de construção.

 

Na fase suplementar do projeto, pretendemos consolidar esses resultados:

           

·         acrescentando à base de dados 3 textos do Corpus de autores nascidos na segunda metade do séc. 17 e primeira metade do séc. 18:  As Regras da Língua Portugueza, Espelho da Língua Latina  de Jerônimo Contador de Argote (1676-1749), as Cartas do Abade Antonio da Costa (n. 1714), e a Correspondência de Diogo Inácio de Pina Manique (1733-1805),

·         cruzando de maneira sistemática todas as informações que temos sobre cada autor, de maneira a obter feixes de evidências  nas quais  confirmar as nossas hipóteses.

·         melhorando o analisador automático por intermédio de novos treinamentos com uma quantidade cada vez maior de dados analisados.

·         articulando os resultados sobre a mudança sintática com os resultados da modelagem dos padrões rítmicos (cf. § II.)

 

 

 



[1] É preciso notar contudo que Vieira é o único autor dos 4 “enclíticos” dos séc. 16 e 17 que se mantém acima dos 10 % de ênclise mesmo quando se deixa de considerar o clítico se, o que se explica pelo fator estilístico já mencionado. Uma outra diferença é que nos Sermões, a alta taxa de ênclise se encontra também com as outras frases, enquanto que os outros autores ficam para os não sujeitos na faixa dos 10%. Isso de novo se explica pelo fato de o efeito contrastivo  não se limitar aos sujeitos nos Sermões.

 


Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

4º Relatório 


Identificação e modelagem
dos padrões rítmicos

 

 A sonoridade e a identificação das classes rítmicas
Os domínios prosódicos no Português do Brasil
A prosódia dos textos escritos

   A sonoridade e a identificação das classes rítmicas

    O resultado novo mais importante deste ano em relação à identificação e modelagem de padrões rítmicos encontra-se no artigo "Sonority as a basis for rhythmic class discrimination", de Antonio  Galves, Jesus Garcia, Denise Duarte e Charlotte Galves (cf. anexo impresso). Esse texto foi um dos quatro trabalhos selecionados para apresentação oral na Sessão "Tipologia das línguas e classes rítmicas" do Congresso Speech Prosody 2002, em Aix en Provence, França (ver arquivo da apresentação).

Nesse evento, um dos mais importantes na área de Fonética e Fonologia Laboratorial, tivemos também aceito para apresentação em forma de poster o artigo "Vocale- a semi automatic annotation tool for prosody", de Jesus Garcia, Ulrike Gut e Antonio Galves (cf. anexo impresso).

O Programa Vocale, que está disponível no sítio http://www.ime.usp.br/~tycho/prosody/vocale (e neste CD),  segmenta automaticamente o sinal acústico da fala em intervalos consonantais e vocálicos. A versão atual funciona com boa precisão em amostras de Português  Brasileiro e Inglês.

Com base  num  algoritmo automático de medida da sonoridade em registros de fala filtrados a 800 Htz, o artigo "Sonority as a basis for rhythmic class discrimination" reproduz os resultados de Ramus et al. (1999) sobre as classes rítmicas, trazendo a possibilidade de trabalhar com quantidades de dados muito maiores do que aquelas  baseadas em segmentação manual, além de trazer uma nova luz sobre a  questão da discriminação das línguas em classes rítmicas.

 Esse algoritmo  foi desenvolvido graças à elaboração no âmbito do projeto de um quadro conceitual rigoroso para a modelagem de contornos rítmicos em línguas naturais, cf. Em particular Coupling, renewal and perfect simulation of chains of infinite order, de Roberto Fernandez, Pablo Ferrari e Antonio Galves,  Notas para um mini-curso na 5ª Escola Brasileira de Probabilidade, disponível em http://www.ime.usp.br/~galves/livro/revised2.pdf

 Ele nos permite atualmente voltar a analisar grandes quantidades de dados do Português europeu e brasileiro, com vista à comparação dos seus padrões rítmicos. O Corpus analisado encontra-se em http://www.ime.usp.br/~tycho/prosody/data

Deve-se ressaltar que esse trabalho incentivou e consolidou a colaboração  com  vários pesquisadores e seus laboratórios. Por um lado, mantivemos um contato permanente com Frank Ramus, que voltou agora a fazer parte do Laboratório de Ciências Cognitivas  da  Maison des Sciences de l'Homme, anteriormente dirigido por Jacques Mehler, e agora por Emmanuel Dupoux. Nesse laboratório, uma pesquisadora que foi se afirmando como interlocutora é a jovem fonóloga Sharon Pepperkamp, que deverá nos visitar em breve. Sharon Pepperkamp pôs a nossa disposição todos os corpora de línguas construídos com a metodologia desenvolvida por Ramus. Já aplicamos o algoritmo da sonoridade com resultados bastante interessantes a línguas como o Fidji, o Turco e o Húngaro.

Uma outra colaboração foi se consolidando com a foneticista Ulrike Gut, da Universidade de Bielefeld. Os primeiros contatos, que se deram na altura da organização do encontro do ZiF, em 2000-2001, se concretizaram num trabalho conjunto a partir da visita da Ulrike ao Brasil em outubro de 2001 e de uma estadia da equipe em Paris, ambas visitas  no âmbito do Projeto TIPAL. Os primeiros resultados dessa colaboração se encontram na construção do programa Vocale, e são relatados no artigo mencionado acima. Na altura do Congresso de Aix, demos mais um passo no sentido de uma colaboração ao elaborar um projeto a ser submetido ao Convênio CAPES/DAAD. Esse projeto, intitulado "Mineração de dados em grandes Corpora de fala" foi aprovado em julho deste ano, e será implementado no biênio 2002-2003.

Sotaq

O artigo "The Sotaq optimality based computer program and secondary stress in two variety of Portuguese, de Maria Bernadete Abaurre, Charlotte Galves, Arnaldo Mandel e Filomena Sândalo, foi submetido à revista Language. Junto a resposta dos editores da revista. Em função dela, o artigo foi revisado (só faltando agora a revisão da parte de apresentação do programa). A versão revisada segue em anexo (cf. anexo impresso).   

Novas aplicações de Sotaq estão sendo atualmente implementadas, e serão relatadas no Relatório final do projeto.

Os domínios prosódicos no Português do Brasil

A primeira tese de doutorado realizada no âmbito do projeto foi defendida em agosto de 2002. Trata-se de Domínios prosódicos no Português do Brasil: implicações para a prosódia e para a aplicação de processos fonológicos, de Luciani Tenani, orientada por Maria Bernadete Abaurre (cf. resumo no anexo impresso). Esta tese representa um avanço importante na questão da diferença prosódica do português europeu e do português brasileiro, na medida em que traz evidências empíricas fortíssimas, pela análise dos processos fonológicos e dos eventos tonais, que o PB, contrariamente ao PE (cf. a tese de Sónia Frota) marca foneticamente o domínio phi. Isso corrobora a correlação apontada para outras línguas entre tipo rítmico e marcação de domínios prosódicos, e fundamenta a metodologia da pesquisa  da prosódia dos textos escritos.

A prosódia dos textos escritos

    Um dos maiores desafios que o projeto se colocou foi o de elaborar uma metodologia de detecção da prosódia dos textos escritos.

Durante este período,  enfrentamos a questão essencial da marcação dos textos com as informações relevantes. Dois trabalhos foram feitos  nesse sentido.

    O primeiro, realizado por Flaviane Fernandes, mestranda do projeto, consistiu em  anotar as sílabas de um Corpus comparativo de textos literários modernos de PE e PB, com informações de vários níveis, em particular as fronteiras de sintagmas fonológicos (ver o trabalho de anotação fonológica). . Esse trabalho é pioneiro na medida em que ele aplica o algoritmo de construção de phis em textos  longos com frases complexas. Ele deve servir tanto para a ampliação do alcance de  Sotaq, quanto para  a detecção do ritmo dos textos escritos.

      O segundo foi elaborado por Luciani Tenani, como qualificação de área do doutorado, sob o título "Efeitos de peso fonológico na colocação de clíticos no Português Europeu dos séculos XVII e XVIII" (ver arquivo). Consistiu na marcação de frases fonológicas, em sintagmas sujeitos de textos do Corpus Tycho Brahe, com o intuito de verificar o efeito do peso na colocação dos clíticos.   

               Trabalhamos atualmente sobre o refinamento dos algoritmos de detecção dos padrões  apresentados no Relatório anterior, tomando como base de dados os textos anotados. Os resultados dessa pesquisa serão apresentados em detalhe no relatório final do projeto.