Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

1º Relatório
1998-1999

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

1º Relatório

O CORPUS TYCHO BRAHE

A. Relatório do ano

Uma das atividades fundamentais do projeto durante o primeiro ano de vigência do auxílio foi a implantação da primeira fase do Corpus Tycho Brahe.

No primeiro workshop do projeto, realizado em agosto de 1998 (cf. relatório em anexo), fixamos como objetivo a instalação de 500 000 palavras etiquetadas morfologicamente, repartidas em 10 textos de 50 000 palavras cada um, representativos do primeiro dos períodos considerados.

O nosso primeiro cuidado foi escolher textos filologicamente confiáveis. Para tanto contamos com o auxílio de Ana Maria Martins, que participou do workshop de agosto, e de Ivo Castro, ambos da Universidade de Lisboa.

Grande parte do trabalho consistiu em elaborar um sistema de etiquetagem adaptado ao português, e compatível com um tratamento automático. O resultado desse trabalho, amplamente divulgados em congressos (cf. [4], [5], e [15]), pode ser consultado na página do projeto www.ime.usp.br/~tycho.corpus.manual Paralelamente, desenvolveu-se um etiquetador automático, cuja primeira versão ficou pronta em maio de 1999. O etiquetador, que foi o objeto da dissertação de mestrado de Daniel Chacur, sob a orientação de Marcelo Finger, defendida em julho de 1999, tem sido também o objeto de várias comunicações (cf. [5], [8], e [13]).

Na ocasião deste primeiro relatório, entregamos em versão ortograficamente transcrita (com toda a editoração descrita no Anexo III) os primeiros 10 textos de 50 000 palavras cada, num total de 500 000 palavras:

1. Sousa, Frei Luís de (1984). A Vida de D. Frei Bertolameu dos Mártires. (introdução de Aníbal Pinto de Castro; fixação do texto de Gladstone Chaves de Melo e Aníbal Pinto de Castro). Lisboa, Imprensa Nacional - Casa da Moeda.

2. CHAGAS, António das. Cartas Espirituais (seleção, prefácio e notas por M. Rodrigues Lapa). Lisboa, Livraria Sá da Costa, 1939.

3. LÔBO, Francisco Rodrigues. Côrte Na Aldeia e Noites De Inverno (prefácio e notas por A. Lopes Vieira). Lisboa, Livraria Sá da Costa - Editora, 1907.

4. VIEIRA, António. Cartas do Padre António Vieira. (coordenadas e anotadas por J. Lúcio d’Azevedo). Tomo I. Coimbra, Imprensa da Universidade, 1925.[1]

5. VIEIRA, António (1907) Sermões (prefaciado e revisto pelo Rev. Padre Gonçalo Alves). Porto, Livraria Chardron - Lello & Irmão Editores

6. MELO, D. Francisco Manuel de (1942) Cartas Familiares (seleção, prefácio e notas por M. Rodrigues Lapa). Lisboa, Livraria Sá da Costa.

7. COUTO, Diogo do. Décadas (selecção, prefácio e notas de António Baião). Vol 1. Lisboa, Livraria Sá da Costa - Editora, 1947.

8. BERNARDES, Padre Manuel (1949) Nova Floresta. (preâmbulo de J. Pereira de Sampaio). Volume I. Porto, Livraria Lello & Irmão

9. ALORNA, Marquesa de. Inéditos – Cartas e Outros Escritos. (selecção, prefácio e notas do prof. Hernãni Cidade). Livraria Sá da Costa - Editora Lisboa.1941.

10. COSTA, Manuel da. Arte de Furtar (selecção, introdução e notas de Roger Bismut). Lisboa, Imprensa Nacional Casa da Moeda.[2]

Desses textos, 1., 2., 3., 4., e 7. já estão morfologicamente etiquetados, sendo que 4. e 7. se encontram em fase de revisão, devendo ser incorporados ao corpus muito em breve.

Todos os arquivos estão disponíveis na URL www.ime.usp.br/~tycho.corpus.texts

B. Programa para o próximo ano:

1. Instalação de novos textos:

João Lucena (1549-1600) História da Vida do Pe. Francisco Xavier. Ed. princeps (ref. F 4474 microfilme). Lisboa, BNL.

António Brandão (1584-1637) Monarquia Lusitana (Parts II and IV) (introdução e notas de A. Silva Rego, A. Banha Andrade & M. Santos Alves). Lisboa, Imprensa Nacional – Casa da Moeda, 1973-1989.

Manuel de Galhegos (1597-1665) Gazeta em que se relatam as novas todas que ouve nesta corte (1641-1646). Ed. princeps (ref. F 2922 microfilme). Lisboa, BNL.

António de Macedo (1606-1632) D. Afonso VI (ed. Eduardo Brazão). Porto, Livraria Civilização, 1940.

Maria do Céu (1658-1753) Rellacao da Vida e Morte da Serva de Deos a Veneravel Madre Elenna da Crus (ed. Filomena Belo). Lisboa, Quimera, 1993.

Matias Aires (1705-1763) Reflexães sobre a Vaidade dos Homens ou Discursos Moraes. Lisboa, Imprensa Nacional - Casa da Moeda, 1980.

Luís Antonio Verney A verdadeira arte de estudar, Livraria Sá da Costa.

Marquês de Fronteira (1802-1881) Memórias do Marquês de Fronteira e d' Alorna. Coimbra, Imprensa da Universidade.

Assim completaremos o século 16 e a primeira metade do séc. 17, entrando mais a fundo na segunda metade do séc. 17 e no séc.18, além de um incursão já no séc. 19. Falta definir dois autores, que deverão pertencer a estes dois períodos.

2. Ferramentas automáticas

Do ponto de vista da construção do corpus, tendo já consolidado o etiquetador automático, tanto de um ponto de vista linguístico quanto computacional, iniciaremos neste 2^o ano no trabalho com o analisador sintático (parser). Isso não exclui continuar a procurar refinar o etiquetador, que deve ser treinado pela terceira vez com 250 000 palavras, estudando em particular a maneira mais adequada de usar as informações morfológicas presentes numa língua como o português.

3. Trabalho com os dados

No primeiro ano do projeto, concentramos os nossos esforços na construção do projeto, por ser o instrumento necessário da nossa pesquisa. Para o segundo ano, já podemos fixar objetivos de descrição e análise baseados nos dados já disponíveis. Faremos o levantamento sistemático dos contextos de variação ênclise/próclise nos textos instalados no Corpus Tycho Brahe neste ano e parte do próximo, quantificando as ocorrências, a fim de começar a delinear a evolução temporal da colocação de clíticos no período contemplado pelo projeto (cf. Modelagem matemática).

Serão também desenvolvidos os seguintes projetos individuais:

1. Iniciação científica

Duas alunas que trabalharam na construção do corpus estão submetendo agora projeto de iniciação científica sobre a evolução de clíticos no período clássico:

- “A interpolação no Português Clássico” (Cristiane dos Santos Namiuti)

- “Colocação dos Clíticos em oracões infinitivas introduzidas por preposição no Português Clássico” (Patrícia Lourençato Abdo)

2. Pós-doutorado

Helena Britto, responsável pela implantação do corpus estará desenvolvendo a parte do seu projeto de pós-doutorado que diz respeito ao séc.17, mais especificamente à obra de Vieira, resumida a seguir:

Posição dos clíticos no séc.17: a ênclise em Vieira.

Em um certo período da história do português europeu, era freqüente a ocorrência de próclise em contextos sintáticos finitos em que hoje a ênclise é obrigatória. Localizar temporalmente este mudança já foi objeto de interesse de estudiosos da língua, porém os resultados obtidos não esclarecem definitivamente a questão. É hipótese do Projeto que esta mudança teria ocorrido apenas na virada no século XVIII para o XIX (cf. também Torres-Morais 1995), enquanto, para Martins (1994), já António Vieira (1608-1697), em seus sermões, apresentaria o padrão enclítico característico do português europeu moderno. Britto (1998), entretanto, observa que as afirmações de Martins não se sustentam quando a correspondência pessoal do autor, e não mais os seus sermões, é contemplada, pois em suas cartas o índice de ocorrências de próclise é ainda francamente majoritário (81%). Com base nos sermões e cartas de António Vieira disponíveis no Corpus Anotado do Português Histórico Tycho Brahe, o objetivo do presente trabalho consiste em redescrever sistematicamente tais textos no que diz respeito à colocação de clíticos nos contextos sintáticos finitos relevantes. A observação preliminar de ambos os textos nos leva a estabelecer a seguinte hipótese. O excessivo número de ocorrência de coordenadas assindéticas com o clítico em posição posverbal presentes nos sermões de Vieira pode ter sido o principal fator a impulsionar o resultado a que chega Martins, que considera este contexto sintático como exemplo efetivo de coordenação. Se questionamos esta postura, e tomamos tais contextos como representantes de sentenças absolutas, então tais dados deveriam ser desconsiderados, pois estes não foram afetados pela mudança em questão, já que durante toda a história da língua, de sua fundação à atualidade, em tal contexto a ênclise sempre encontrada.

Ordem de palavra no português europeu do século XVII.

Se mesmo após a redescrição e reanálise de tais textos, ainda assim os sermões de António Vieira apresentarem indubitavelmente o padrão enclítico apontado por Martins, uma descrição mais detalhada deve, então, ser feita, especificamente quanto à ordem de palavra global que os textos apresentam, de modo a complementar a descrição acima apontada. Assim procedendo, procuraremos observar, antes de afirmar, como faz Martins, que, pelo menos no que tange à colocação de clíticos, o autor deve já ser considerado como um falante do português moderno, se não se trata do caso de o autor estar se valendo de arcaismos, que levaraim seu texto a se enquadrar mais propriamente no português no século XIII, que, como aponta Ribeiro (1995), apesar de enclítico, como o português europeu moderno, apresenta uma série de propriedades sintáticas que o afastam deste.

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

1º Relatório

Descrição e análise dos padrões prosódicos do Português Europeu e Brasileiro

A. Relatório do ano

Os objetivos deste primeiro ano eram:

- Definir uma metodologia de elaboração e segmentação de corpus de fala anotado em função dos nossos objetivos;

- Isolar propriedades fonéticas do PE e do PB que evidenciem padrões rítmicos distintos;

- Elaborar um modelo fonológico que dê conta da derivação desses padrões distintos.

Considerarei esses itens um por um, sintetizando o trabalho realizado e apresentando os materiais em anexo que contêm os nossos resultados e avanços .

Deve-se ressaltar a integração ao projeto de mais três membros: Filomena Sândalo, que associou seu projeto de pós-doutorado no IEL ao projeto, e duas pesquisadoras portuguesas, Sónia Frota, da Universidade de Lisboa, e Marina Vigário da Universidade do Minho.

I. Metodologia de elaboração de corpus contrastivo de fala anotado

Trata-se de definir que tipo de dados são os mais relevantes para a fase da investigação em que nos encontramos, e que tipo de informações queremos anotar nos dados, sob que forma, e enfim como segmentar os textos em unidades relevantes. Essas questões são essenciais para o projeto, e têm ocupado uma boa parte da fase anterior à vigência do temático, bem como do seu primeiro ano.

I.1 Formas de anotação e tipos de corpora

Antes da vigência do projeto temático, foi realizado um estudo comparativo preliminar em dois corpora de fala autêntica (i.e. não elicitada para os propósitos da pesquisa): uma missa gravada no mesmo dia na televisão brasileira e na televisão portuguesa (Missas), e um texto de probabilidades lido por um brasileiro e um português (Leituras). O trabalho com esses dois corpora, nos permitiu definir categorias de análise de partida, e apontou para regularidades nas diferenças rítmicas entre PE e PB que são descritas em [1]¨. Por outro lado, este trabalho mostrou problemas relativos à percepção auditiva de proeminências rítmicas por falantes não nativos aos quais voltaremos mais abaixo. A anotação dos aspectos rítmicos e entoacionais do texto das missas foi feita manualmente. Mas o corpus das Leituras foi analisado com o auxílio do analisador de fala WinPitch, inicialmente sob a orientação do seu autor Philippe Martin.

Dado a dificuldade em trabalhar com arquivos longos com WinPitch, mudamos para o analisador CSL. Este programa, além de contar com a vantagem de permitir trabalhar com arquivos longos, conta com a vantagem de produzir espectrogramas muito mais precisos, indispensáveis para a tarefa de segmentação dos enunciados com o intuito de medir durações silábicas.

No início da vigência do projeto, em agosto de 1998, passamos a reorganizar o sistema de anotação de corpus, inserindo as informações relevantes em tabelas. Iniciamos também o trabalho com um novo corpus, também autêntico: um noticiário de rádio em português europeu, lido e gravado em seguida por um locutor brasileiro (Noticiários).

No estágio atual do projeto, dado o rumo tomado pela pesquisa, estamos optando por uma organização dos dados em fichas correspondendo a cada frase, com as seguintes informações:

- Transcrição fonética,

- Indicação de proeminências secundárias (com eventualmente indicação de discrepâncias entre falantes na produção e na percepção),

- Indicação das fronteiras de sintagmas fonológicos (f), e se for pertinente, de fronteiras de frases entoacionais (I),

- Indicação da estrutura tonal (ver mais abaixo),

- Segmentos vocálicos e consonantais com sua duração e/ou a duração dos intervalos consonanticos (ver mais abaixo).

A aplicação desta metodologia ao corpus das 20 frases (ver logo abaixo) está exemplificada no Anexo 4.

O estágio atual do projeto difere também do estágio inicial no fato que, desde o segundo workshop do Projeto (cf. Anexo 3 da Seção V), optamos por trabalhar com corpora de frases construídas para controlarmos melhor os efeitos devidos a fatores como número de sílabas antes da tônica, e posição dos ítens lexicais na oração. Foi então construído, e gravado por duas informantes portuguesas e duas informantes brasileiras, um corpus de 20 frases (20 Frases), que foi exaustivamente utilizado para os trabalhos subsequentes (cf. Anexos). A este primeiro corpus se segue agora um segundo, gravado em agosto pelas mesmas informantes, que consiste numa sequência de 54 frases, traduzidas para o português europeu por Sónia Frota a partir do corpus no qual se baseou o trabalho de Ramus et al. (a sair) que será relatado mais abaixo.

Os corpora anteriores de fala autêntica serão agora recuperados a partir de perguntas especificas, como por exemplo ocorrências em certos contextos segmentais ou sintáticos, que permitam estender o campo de observação proporcionado pelos corpora construídos.

A gravação dos corpora tem sido efetuada em condições profissionais no Departamento de Fonética Forense da Unicamp por Ricardo Figueiredo, que se responsabiliza também pela disponibilização dos arquivos sonoros em CD-ROM.

I.2 A segmentação do corpus

Para fins de anotação e medição, os corpora têm que ser segmentados em unidades mínimas. Trabalhamos até agora com três tipos de segmentação:

a) segmentação em sílabas canônicas (corpora Missas e Leituras)

b) segmentação em sílabas rítmicas, como proposto no texto inicial do projeto (corpus Noticiários)

c) segmentação por segmento, consonantal ou vocálico ( corpus 20 Frases)

A passagem de um sistema para o outro se deve a questionamentos que foram sendo levantados no decorrer do trabalho. As sílabas rítmicas, medidas a partir do onset vocálico, são justificadas no projeto inicial. Durante o segundo workshop, foi questionada a validade dessa segmentação por causa da sua inadequão aparente em fazer aparecer certas diferenças esperadas entre PE e PB (cf. Seção V, Anexo 3). Tomamos então a decisão de deixar de trabalhar com sílabas, canônicas ou rítmicas, como unidade básica, e de marcar independentemente cada segmento vocálico e consonantal. Isso nos permitiria testar a validade dos reagrupamentos em função das perguntas a serem respondidas, bem como testar hipóteses sobre o efeito do acento em segmentos vocálicos e/ou consonantais (cf. § B.I.5). A metodologia de marcação dos arquivos está delineada no texto em anexo Alguns resultados bem como em [6].

Independentemente da segmentação adotada, o projeto inicial previa trabalhar com segmentos virtuais, ou seja segmentos não forçosamente perceptíveis nem detectáveis por analisadores, mas presentes na representação lexical abstrata da palavra. No caso de uma ausência total, como em casos de apagamento de vogal não acentuada ou de haplologia, a segmentação se torna então arbitrária (Note-se que nos casos de sândi vocálico, o texto Alguns resultados já assume que as duas vogais constituem um só segmento) . Por outro lado, o contrário também acontece: alguns segmentos são realizados quando não fazem parte da representação lexical sub-jacente, como o i epentêtico na palavra “ob(i)jetivo” no PB, discutido nas referências acima. Um dos objetivos essenciais sendo obter o mesmo número de segmentos para o PB e o PE, um segmento como esse é também anotado para o PE. Para uma discussão de vários outros casos vejam-se as referências mencionadas acima.

A partir da proposta de Ramus et al. sobre a classificação rítmica das línguas. (cf. II. e Anexo 3 do Relatório da sessão de agosto) Sónia Frota e Marina Vigário questionaram essa metodologia visando a uma neutralização das diferenças entre PE e PB na definição do número de segmentos, mostrando que acaba escondendo diferenças essenciais entre as duas línguas do ponto de vista rítmico. Elas propuseram novos critérios de segmentação (cf. Anexo 5 do mesmo relatório.) que foram discutidos na sessão de agosto e adotados.

Resumindo, trabalhamos agora com os próprios segmentos vocálicos e consonanticos como unidades básicas de segmentação, sem reagrupamento em sílabas. A anotação de um segmento depende da sua realização efetiva, detectável em espectrograma.

II. As diferenças rítmicas do PE e do PB.

Os trabalhos já realizados concentraram-se nos seguintes aspectos:

- a distribuição dos acentos secundários (ou rítmicos) nos enunciados

- a classificação rítmica do PE e do PB

- a estrutura entoacional do PE e do PB.

II.1. Acentos secundários no PE e no PB

Na sequência dos trabalhos realizados sobre os corpora anteriores, fizemos uma análise sistemática da atribuição de proeminências secundárias no corpus do noticiário e no corpus das 20 frases. A novidade importante em relação a este último foi que a parte do trabalho relativa ao português europeu foi feita pelas pesquisadoras portuguesas do projeto. Elas apontaram para uma diferença importante na percepção dos acentos secundários do PE por parte dos brasileiros e dos portugueses, o que colocava em dúvida parte das nossas sistematizações anteriores, mas corroborava nossa conclusão de que essa anotação era mais difícil do que podia parecer à primeira vista (conclusão essa que já tinha sido a base do projeto de Iniciação Científica de Carolina Raizer, cf. Anexo 1.) e que era necessário fazer levantamentos mais sistemáticos sobre possíveis variações na percepção. Os textos em anexo, bem como o relatório da sessão de agosto trazem uma descrição dessas diferenças na percepção, tanto do PE por parte de falantes brasileiros, quanto do PB por parte de falantes portugueses. Note-se que tais discrepâncias não deixam de ser significativas, ao mostrar que a percepção do ritmo é fortemente influenciada pelo a-priori definido pela língua materna. O estudo desse a-priori pode nos trazer informações importantes sobre a natureza do padrão rítmico da língua.

Com base nas transcrições de acentos realizadas por falantes da mesma variante, são as seguintes as nossas conclusões parciais sobre a diferença PB/PE:

- O PE apresenta muito menos acentos secundários do que o PB.

- Em PE, mas não em PB, há uma sensibilidade do acento secundário à localização da palavra na frase entoacional.

(cf. o contraste na acentuação da palavra “gramaticalidade” na frase 20 vs. na frase 12 no PE, ausente no PB, em que todas as ocorrências dessa palavra instanciam o mesmo padrão acentual).

- Em PE, mas não em PB, o acento secundário cai na sílaba inicial da palavra fonológica, seja na primeira sílaba da palavra lexical, seja na palavra funcional precedente.

- O PB, mas não o PE, instancia um padrão alternante, geralmente binário.

- No PE, mas não no PB, as sílabas seguindo o acento secundário sofrem redução.

II.2. A classificação rítmica do PE e do PB.

Este trabalho, realizado por Sónia Frota e Marina Vigário a partir do corpus de 20 frases gravado em dezembro, está descrito no § 2. Correlatos acústicos de diferentes tipos rítmicos: medidas de duração e no Anexo 3* do Relatório da Sessão de Agosto (cf. Anexo3. deste relatório). Mostra, baseado num trabalho recente de Ramus, Mehler e Nespor (“Correlates of linguistic rhythm in speech”. a ser publicado em Cognition) que o PE e o PB não ocupam o mesmo lugar numa tipologia rítmica das línguas. Quando comparados do ponto de vista da dispersão média dos intervalos consonanticos (DeltaC) – cf. figura 4, Anexo 3* do Relatório da Sessão de Agosto -, vê-se que o PE está na faixa das línguas tradicionalmente chamadas de “acentuais” como o inglês, o holandês e o polonês, enquanto que o PB está no extremo oposto, na faixa do japonês... Também diferem em relação à percentagem de vogais. Contudo, em relação a esse aspecto, o PE difere sensivelmente das línguas acentuais, colocando uma questão interessante para a tipologia, a ser aprofundada. É interessante notar enfim que tanto PE quanto PB se afastam bastante de outras línguas românicas como o espanhol, o italiano e o catalão. Não deixa de ser tentador o paralelismo com a sintaxe, em particular pronominal, uma vez que, de um ponto de vista tipológico, PE e PB se afastam claramente das outras línguas românicas nesse aspecto também,.

Como mencionado acima, esse trabalho teve uma incidência importante sobre a metodologia de segmentação dos corpora, uma vez que os resultados obtidos dependeram do abandono de uma segmentação visando a obter o mesmo número de unidades para as duas variantes. Deverá ser aprofundado de maneira sistemática na próxima etapa do projeto, usando a tradução do corpus de Ramus et al.

II.3 A estrutura entoacional do PE e do PB

O resultado mais inovador da sessão de agosto diz respeito a resultados preliminares do estudo sobre a diferença da estrutura entoacional do PE e do PB, realizado por Sónia Frota e Marina Vigário durante a sua estadia aqui, que podem ser resumidos assim:

- No PB, cada domínio prosódico definido como Sintagma Fonológico (f), apresenta pelo menos um evento tonal.

- No PE, é o a frase entoacional (I) o domínio prosódico relevante para a entoação, com um evento tonal associado ao acento nuclear de I, e um evento tonal inicial.

- O PB, mas não o PE, apresenta um padrão predominantemente alternante entre tom alto e tom baixo, além de uma sensibilidade ao número de sílabas que precedem o acento primário de uma palavra.

- No PE, contrariamente ao PB, nem sempre a sílaba acentuada da palavra fonológica é portadora de acento tonal.

Esses resultados corroboram em parte conclusões a que tínhamos chegado em etapas anteriores do projeto, a respeito da organização do ritmo. Apontam, além disso, para um paralelismo entre as diferenças entoacionais e rítmicas das duas línguas: o PB apresenta mais eventos tonais, e mais proeminências secundárias. O domínio do ritmo e da entoação é I em PE e um domínio menor em PB .

Numa fase anterior da pesquisa, tínhamos proposto que as fronteiras de palavra fonológica limitavam a construção dos grupos rítmicos. Evidências entoacionais robustas apontam para f como domínio relevante. Note-se que a palavra fonológica e f se confundem muitas vezes. Mas f é um domínio mais abrangente, podendo incluir palavras funcionais acentuadas à esquerda do núcleo, bem como palavras lexicais à direita, no caso de restruturações. Na base dos resultados da análise da estrutura entoacional, passaremos agora a investigar sistematicamente a relevância da categoria f na implementação do ritmo em PB.

As diferenças apontado por Frota e Vigário entre PB e PE vieram reforçar os resultados apresentados por Ricardo Figueiredo num trabalho anterior (cf. Anexo 2), baseado em medidas de Fo das vogais do mesmo corpus. Ele resume assim a configuração global respectiva das duas línguas:

PB:

(i) faça um pico máximo perto do início do enunciado

(ii) faça alguns picos locais ao longo do enunciado

(iii) decaia progressivamente ao longo do enunciado

PE:

(i) vá para um nível alto já no início do enunciado

(ii) mantenha esse nível até perto do fim do enunciado

(iii) caia abruptamente perto do fim do enunciado

Os picos locais do PB são os eventos tonais associados a f. No PE, em contraste, só o início e o final de I estão marcados.

No mesmo relatório, Ricardo Figueiredo aponta para os correlatos do ritmo na duração dos segmentos. As vogais são mais longas no PB, menos no final do enunciado. O realce do final de enunciado pelo comprimento é assim mais forte no PE do que no PB, o que reforça a observação de que os limites de I são posições de destaque na estruturação rítmica do enunciado. Sabemos que o início de I é também uma posição proeminente no PB, o que se traduz pela ausência de redução das palavras funcionais nesse contexto ( cf. [1] e Relatório da Sessão de Agosto, § 5. referente ao trabalho de tese de Marina Vigário).

Enfim, em trabalho conjunto (cf. [6]), Helena Britto e Ricardo Figueiredo compararam as duas informações brasileiras e as duas informantes portuguesas do corpus das 20 frases e mostraram que o final dos sintagmas nominais sujeitos complexos era sistematicamente marcado por movimento de Fo pelas primeiras e nunca pelas segundas. Isso vem reforçar a hipótese de que o PE, contrariamente ao PB, não marca entoacionalmente nenhum domínio prosódico inferior a I.

III. Um modelo fonológico

A teoria adotada para a análise fonológica é a Teoria da Otimalidade, por poder tratar de várias questões fonológicas através da mesma metodologia. Verifica-se que os padrões rítmicos envolvem tom, acento, redução vocálica, silabificação, entre outros processos. Através da fonologia derivacional, seríamos obrigados a tratar cada fenômeno separadamente, apesar de eles estarem intrinsecamente ligados. Essa teoria por outro lado se presta bem a constituir uma interface com modelagens matemáticas e implementações computacionais por integrar a noção de otimização. Na sequência das versões preliminares desse trabalho apresentado em vários encontros, e publicado na revista Delta (cf. [1]), trabalhamos numa nova formulação das restrições que procura integrar melhor os diversos aspectos envolvidos no ritmo, em particular uma questão que sempre esteve no centro das nossas preocupações mas não tinha até agora recebido um tratamento satisfatório, a redução vocálica no PE. Essa nova versão está delineada em [16] e deverá ser aprofundada no próximo período, em ligação com o progresso da pesquisa sobre as sílabas descrita abaixo.

Baseado na primeira versão da análise otimalista, Pierre Collet e Antonio Galves desenvolveram em linguagem C um programa de segmentação rítmica de enunciados, com atribuição automática de acentos secundários. Em seguida, Arnaldo Mandel , fez uma segunda versão do programa, rodando em Perl, que ele intitulou Sotaq. Sotaq pode ser instalado a partir da URL: http://www.ime.usp.br/~tycho/prosody/ (cf. Seção III).

Arnaldo Mandel apresenta assim o funcionamento do programa e a sua relação com a Teoria da Otimalidade:

“To each segment decomposition an integer cost is assigned, and sotaq outputs the decompositions of minimum cost. The cost is the sum of the individual costs assigned to its segments, plus the sum of costs assigned to pairs of successive segments.

Each individual cost is a sum of criteria, each comprised of a value and a weight. The value is computed on each segment or pair of segments, and may take into account properties like length, position of the stress, its relation to lexical components of the phrase, and so on. The weight is just a number assigned to a criterion, and can be used to establish a hierarchy of preference among criteria.

One OT based model would have a hierarchy of conditions, and count violations of these, so that any violations of low ranked conditions are preferred over a violation of a higher ranked condition. Let us see an example: Suppose we have three conditions named as:

SegMax,SegMin >> AlignI/L >> AlignW/L

where the symbol >> points from high rank to low. To make sotaq rank segment decompositions accordingly, one needs:

1.A criterion for each condition, supported internally in the program. The value of a segment, according to each criterion is 1 if the segment violates the condition, 0 otherwise.

2.Weights must be chosen to reflect the hierarchy. Typically one would get the desired results with weights 100, 10, 1. To be on the totally secure mathematical side, each weight should be at least n+1 times the next one, where n is the number of syllables in the phrase. The choice of weights may be done at the time of calling the program.

Sotaq nos dá um valiosíssimo instrumento de validação das nossas hipóteses, além de um lugar privilegiado de interface entre a descrição e análise fonético-fonológicas e a modelagem matemática.

B. Programa para o próximo ano:

I. Descrição dos dados

1. Segmentação

Trabalharemos com os 8 arquivos ainda não segmentados do corpus das 20 Frases, correspondendo a mais duas repetições por cada informante (160 frases), e os 8 arquivos do corpus das 54 frases, correspondendo a duas repetições por informante (432 frases).

Além disso, como mencionado acima, voltaremos a trechos dos corpora anteriores, em função de perguntas específicas.

2. Percepção

A partir da observação de que os falantes projetam os seus próprios esquemas acentuais sobre a sua percepção, e de que também existe variações na anotação que os falantes fazem da sua própria variante, decidimos estender o conjunto de ouvintes para grupos de 5 a 10 falantes homogêneos. Esta testagem será feita em duas etapas.

- Anotação por falantes de PB de enunciados produzidos por falantes de PB, e por falantes de PE de enunciados produzidos por falantes de PE.

- Anotação por falantes de PB de enunciados produzidos por falantes de PE, e por falantes de PE de enunciados produzidos por falantes de PB.

3. Transcrição/análise tonal

A partir do trabalho realizado por Sónia Frota e Marina Vigário na sessão de agosto, pretende-se completar a descrição tonal do corpus das 20 frases, e estender esse trabalho ao novo corpus de 54 frases gravado agora.

A descrição tonal do português brasileiro é o assunto da tese de doutorado de Luciani Tenani.

4. Classificação rítmica

Retomaremos sistematicamente a metodologia de análise do ritmo proposta por Ramus et al., a fim de localizar PE e PB numa tipologia rítmica das línguas baseada em cuidadosas medidas de duração.

5. Descrição/análise das sílabas (acentuadas e reduzidas)

(Projeto de Filomena Sândalo)

Beckman (1998) argumenta que existe uma variedade de assimetrias fonológicas exibidas por segmentos que ocorrem em posições proeminentes. De particular interesse para o estudo de silabificação é o fato que posições fortes, como as posições acentuadas, favorecem um agrupamento máximo de constituintes, criando silabificações não canônicas nestas posições em várias línguas. Em outras palavras, verifica-se que várias línguas apresentam consoantes ambissilábicas em posições proeminentes. Por exemplo, o inglês respeita um processo de ressilabificação, o qual silabifica V.CV como VC.CV criando uma sílaba travada por uma consoante no domínio de acento primário:

( 1 ) sane [sæ:n]=> sanity [sæn.nI.tI]

Outras línguas que apresentam este fenômeno são dinamarquês, efik, ibidio e escocês (Beckman 1998) e kadiwéu (Sandalo 1997).

Nosso estudo visa observar o processo de silabificação em relação a força posisional em português. Nossa impressão auditiva neste momento é que o português europeu (PE) apresenta ambissilabicidade em domínios de acento primário e secundário (acento rítmico de posição inicial, apontado por Frota 1998 e Vigário 1998), mas que o português brasileiro (PB) apresenta ambissilabicidade apenas no domínio de acento primário. Trabalhos pioneiros nesta área com a língua portuguesa serão usados como guia para testarmos nossa hipótese empiricamente. Assim, Barbosa & Madureira (1999) comparam a seqüência se gabá chapada e se gaba chapado no português brasileiro e mostram que ch é significantemente mais longo no primeiro caso, isto é, quando segue o acento primário. Evidência empírica para a ocorrência de ambissilabicidade em PE vem do trabalho de Andrade (1999). Andrade mostra que a consoante /l/ é alongada e fortemente velarizada em posição pós-acento primário. Como próximo passo de análise, trabalharemos no corpus de 20 frases segmentadas por duração segmental pelo Dr. Ricardo Figueiredo verificando se toda e qualquer consoante é mais longa após acento, primário e secundário, em PE e PB. A Dra. Filomena Sandalo estará também trabalhando com foneticistas do laboratório de fonética da UNICAMP (LAFAPE), a saber, Eleonora Albano e Plínio Barbosa, a fim de elaborar testes específicos para análise de silabificação com base instrumental.

Se nossa hipótese de ambissilabicidade em posição acentual se verificar em qualquer posição acentual em PE, teremos um correlato acústico para busca automática de posições tônicas neste dialeto. Se nossa hipótese que ambissilabicidade não ocorre em posição de acento secundário em PB, teremos que explicar porque as posições de acento secundário em PB não contam como posições fortes. Sandalo (1997, 1999) levanta a hipótese que há uma relação entre padrão rítmico e ambissilabificação. Segundo esta hipótese, a ser explorada instrumentalmente com várias línguas em projeto conjunto com o LAFAPE, processos de ambissilabificação só ocorrem em línguas cuja acentuação é sensível ao peso. De acordo como Collishon (1994), a acentuação secundária em PB não é sensível ao peso, mas a acentuação secundária em PE parece ser sensível ao peso (Carvalho 1989).

A Teoria da Otimalidade parece adequada para modelar o fenômeno de silabificação porque, ao contrário de propostas gerativas anteriores, não propõe uma divisão categórica de sílabas. Uma silabificação canônica pode ser desrespeitada para satisfazer uma imposição da língua em certos contextos. Nesta teoria, todas as línguas sentem uma pressão para criar sílabas CV. Assim, PB se caracteriza por desrespeitar minimamente esta pressão, mas o PE viola esta pressão universal mais facilmente. O papel do padrão rítmico parece ser a força que permite uma maior violação de silabificação canônica.

II. Análise e modelagem dos dados

A partir dos diversos níveis de descrição detalhada e sistemática dos dados a que devemos chegar no próximo período cumprindo o programa delineado acima, procuraremos refinar a formulação das restrições propostas para dar conta das diferenças entre o PE e o PB no modelo da Otimalidade. Isso nos permitirá tornar o programa Sotaq mais eficiente, e fornecer à modelagem matemática um primeiro nível de formalização expressando os dados com um alto nível de confiabilidade.

Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística

1º Relatório

MODELAGEM MATEMÁTICA

Os principais objetivos matemáticos no primeiro ano do Projeto foram:

a) modelar matematicamente a relação entre sintaxe e fonologia, durante a aquisição

b) desenvolver ferramentas matemáticas, estatísticas e computacionais para a identificação de padrões rítmicos em contornos prosódicos.

Para tratar esses pontos no primeiro ano de atividade do Projeto os seguintes artigos foram produzidos:

1) BRESSAUD, X., R. FERNANDEZ, A.GALVES “Speed of d-convergence for Markov Approximations of Chains with Complete Connections. A coupling approach”. Stochastic Processes and Applications, no prelo.

2) BRESSAUD, X., R. FERNANDEZ, A.GALVES “Decay of correlations for non-holderian dynamics. A coupling approach.” Electronic Journal of Probability, vol.4, paper 3: 1-19, 1999.

3) CASSANDRO, M., P. COLLET, A. GALVES, C. GALVES "A Statistical-Physics approach to language acquisition and language change", Physica A, vol. 263, 1999, pp. 427-437.

4) COLLET, P., A. GALVES, B. SCHMIDT “Lognormal versus exponential approximation for repetition times of Gibbsian sources and their large deviations”, 1999

5) FERNANDEZ, R. & A. GALVES “Identifying features in the presence of competing evidence, the case of first language acquisition”, submitted to World Scientific.

6) FERNANDEZ, R., A. GALVES, C. PEIXOTO "Are stress contours crystals?", versão preliminar (15p.), 1999.

Além de seu interesse matemático intrínsico, os artigos 1, 2, 4 e 6 têm como motivação a obtenção de ferramentas para a modelagem gibbsiana de contornos prosódicos que é uma das idéias básicas do Projeto. Em particular o artigo 4 é uma etapa preliminar na construção de uma ferramenta para medição em tempo real da entropia de uma fonte ergódica e, em particular, de uma longa sequência de contornos prosódicos. A motivação linguística dessa pesquisa é dada pelo artigo ``Maximum likelihod and minimum entropy identification of grammars'', de Pierre Collet, Antonio Galves e Artur Lopes, ( Random and Computational Dynamics, vol.3, 241-256, 1995.)

Os artigos 3 e 5 retomam e desenvolvem o conjunto de questões matemáticas sugeridas atualmente pelo Projeto.

Além desses artigos, foram feitas duas versões, uma preliminar feita por Pierre Collet e Antonio Galves em linguagem C, e uma segunda em linguagem Perl, por Arnaldo Mandel, de um programa para calcular contornos acentuais de custo mínimo, dentro do modelo sugerido pelo artigo 4, acima citado, e pelo artigo de M. B. Abaurre e C. Galves As diferenças rítmicas entre o português europeu e brasileiro: uma abordagem otimalista e minimalista, ( D.E.L.T.A., vol.14, 377-423, 1998). Este programa está atualmente disponível na página do Projeto.

No segundo ano do Projeto, além de continuar a pesquisa sobre as questões formuladas em a) e b), teremos que trabalhar em :

c) classificação automática dos dados, em algoritmos estocásticos, tendo em vista, em particular, a elaboração de um analisador sintático para o Corpus Tycho Brahe;

d) descrição estatística dos dados sintáticos já disponíveis no Corpus Tycho Brahe.

Uma reflexão preliminar na direção de c) encontra-se no projeto Classification and decision schemes based on probabilistic techniques escrito por Roberto Fernandéz e Antonio Galves, cujo texto segue em anexo.

Uma reflexão preliminar na direção de d) encontra-se no Relatório Técnico do Centro de Estatística Aplicada do IME/USP, Evolução temporal da variação próclise/ênclise no Português Clássico, por A. Galves, G. Paula e M. Goebbels, cujo texto segue em anexo (cf. Produção Bibliográfica [13]).