Projeto temático: Padrões rítmicos, fixação de
parâmetros e mudança linguística
1º
Relatório
1998-1999
Projeto temático: Padrões rítmicos, fixação de
parâmetros e mudança linguística
1º
Relatório
A. Relatório do ano
Uma das atividades fundamentais do projeto durante o primeiro
ano de vigência do auxílio foi a implantação da primeira fase do Corpus
Tycho Brahe.
No
primeiro workshop do projeto, realizado em agosto de 1998 (cf. relatório em
anexo), fixamos como objetivo a instalação de 500 000 palavras etiquetadas
morfologicamente, repartidas em 10 textos de 50 000 palavras cada um, representativos do primeiro dos períodos considerados.
O nosso
primeiro cuidado foi escolher textos filologicamente confiáveis. Para tanto contamos com o auxílio de Ana
Maria Martins, que participou do workshop de agosto, e de Ivo Castro, ambos da Universidade de Lisboa.
Grande parte do trabalho
consistiu em elaborar um sistema de etiquetagem adaptado ao português, e
compatível com um tratamento automático. O resultado desse trabalho,
amplamente divulgados em congressos (cf. [4], [5], e [15]), pode ser
consultado na página do projeto www.ime.usp.br/~tycho.corpus.manual Paralelamente,
desenvolveu-se um etiquetador automático, cuja primeira versão ficou pronta
em maio de 1999. O etiquetador, que foi o objeto da dissertação de mestrado
de Daniel Chacur, sob a orientação de Marcelo Finger, defendida em julho de
1999, tem sido também o objeto
de várias comunicações (cf. [5], [8], e [13]).
Na ocasião deste primeiro relatório, entregamos
em versão ortograficamente transcrita
(com toda a editoração descrita no Anexo III) os primeiros 10 textos de
50 000 palavras cada, num total de 500 000 palavras:
1. Sousa, Frei Luís de (1984). A Vida de D. Frei Bertolameu dos Mártires.
(introdução de Aníbal Pinto de Castro; fixação do texto de Gladstone
Chaves de Melo e Aníbal Pinto de Castro). Lisboa, Imprensa Nacional - Casa da
Moeda.
2. CHAGAS, António das. Cartas Espirituais (seleção, prefácio e notas por M. Rodrigues
Lapa). Lisboa, Livraria Sá da Costa, 1939.
3.
LÔBO, Francisco Rodrigues. Côrte Na
Aldeia e Noites De Inverno (prefácio e notas por A. Lopes Vieira).
Lisboa, Livraria Sá da Costa - Editora, 1907.
4.
VIEIRA, António. Cartas do Padre
António Vieira. (coordenadas e anotadas por J. Lúcio d’Azevedo). Tomo
I. Coimbra, Imprensa da Universidade, 1925.[1]
5.
VIEIRA, António (1907) Sermões (prefaciado
e revisto pelo Rev. Padre Gonçalo Alves). Porto, Livraria Chardron - Lello
& Irmão Editores
6.
MELO, D. Francisco Manuel de (1942) Cartas
Familiares (seleção, prefácio e notas por M. Rodrigues Lapa). Lisboa,
Livraria Sá da Costa.
7.
COUTO, Diogo do. Décadas (selecção,
prefácio e notas de António Baião). Vol 1. Lisboa, Livraria Sá da Costa - Editora, 1947.
8.
BERNARDES, Padre Manuel (1949) Nova
Floresta. (preâmbulo de J. Pereira de Sampaio). Volume I. Porto, Livraria
Lello & Irmão
9.
ALORNA, Marquesa de. Inéditos –
Cartas e Outros Escritos. (selecção, prefácio e notas do prof. Hernãni
Cidade). Livraria Sá da Costa - Editora Lisboa.1941.
10.
COSTA, Manuel da. Arte de Furtar
(selecção, introdução e notas de Roger Bismut). Lisboa, Imprensa Nacional
Casa da Moeda.[2]
Desses textos, 1., 2., 3., 4., e
7. já estão morfologicamente etiquetados, sendo que 4. e 7. se encontram em fase de
revisão, devendo ser incorporados ao corpus muito em breve.
Todos os arquivos estão disponíveis na URL www.ime.usp.br/~tycho.corpus.texts
B. Programa para o
próximo ano:
1.
Instalação de novos textos:
João Lucena
(1549-1600) História da Vida do Pe.
Francisco Xavier. Ed. princeps (ref. F 4474 microfilme). Lisboa, BNL.
António
Brandão (1584-1637) Monarquia Lusitana
(Parts II and IV) (introdução e notas de A. Silva Rego, A. Banha Andrade
& M. Santos Alves). Lisboa, Imprensa Nacional – Casa da Moeda,
1973-1989.
Manuel de
Galhegos (1597-1665) Gazeta em que se
relatam as novas todas que ouve nesta corte (1641-1646). Ed. princeps
(ref. F 2922 microfilme). Lisboa, BNL.
António de
Macedo (1606-1632) D. Afonso VI (ed. Eduardo Brazão). Porto, Livraria Civilização, 1940.
Maria do
Céu (1658-1753) Rellacao da Vida e
Morte da Serva de Deos a Veneravel Madre Elenna da Crus (ed. Filomena
Belo). Lisboa, Quimera, 1993.
Matias Aires
(1705-1763) Reflexães sobre a Vaidade
dos Homens ou Discursos Moraes. Lisboa, Imprensa Nacional - Casa da Moeda,
1980.
Luís
Antonio Verney A verdadeira arte de estudar, Livraria Sá da Costa.
Marquês de
Fronteira (1802-1881) Memórias do Marquês de Fronteira e d'
Alorna. Coimbra, Imprensa da Universidade.
Assim
completaremos o século 16 e a primeira metade do séc. 17, entrando mais a
fundo na segunda metade do séc. 17 e no séc.18, além de um incursão já no
séc. 19. Falta definir dois autores, que deverão pertencer a estes dois
períodos.
2.
Ferramentas automáticas
Do ponto de
vista da construção do corpus, tendo
já consolidado o etiquetador automático, tanto de um ponto de vista
linguístico quanto computacional,
iniciaremos neste 2o ano no trabalho com o analisador
sintático (parser). Isso não exclui continuar a procurar refinar o
etiquetador, que deve ser treinado pela terceira vez com 250 000 palavras,
estudando em particular a maneira mais adequada de usar as informações
morfológicas presentes numa língua como o português.
3. Trabalho
com os dados
No primeiro
ano do projeto, concentramos os nossos esforços na construção do projeto,
por ser o instrumento necessário da nossa pesquisa. Para o segundo ano, já
podemos fixar objetivos de descrição e análise baseados nos dados já
disponíveis. Faremos o levantamento sistemático dos contextos de variação
ênclise/próclise nos textos
instalados no Corpus Tycho Brahe neste ano e parte do próximo, quantificando
as ocorrências, a fim de começar a delinear a evolução temporal da
colocação de clíticos no período contemplado pelo projeto (cf. Modelagem matemática).
Serão
também desenvolvidos os seguintes projetos individuais:
1. Iniciação
científica
Duas alunas
que trabalharam na construção do corpus estão submetendo agora projeto de
iniciação científica sobre a evolução de clíticos no período clássico:
-
“A
interpolação no Português Clássico” (Cristiane dos Santos Namiuti)
-
“Colocação
dos Clíticos em oracões infinitivas introduzidas por preposição no
Português Clássico” (Patrícia Lourençato Abdo)
2. Pós-doutorado
Helena
Britto, responsável pela implantação do corpus estará desenvolvendo a parte do seu
projeto de pós-doutorado que diz respeito ao séc.17, mais especificamente à
obra de Vieira, resumida a
seguir:
Posição dos clíticos no séc.17: a ênclise em Vieira.
Em um certo
período da história do português europeu, era freqüente a ocorrência de
próclise em contextos sintáticos finitos em que hoje a ênclise é
obrigatória. Localizar temporalmente este mudança já foi objeto de
interesse de estudiosos da língua, porém os resultados obtidos não
esclarecem definitivamente a questão. É hipótese do Projeto que esta
mudança teria ocorrido apenas na virada no século XVIII para o XIX (cf. também Torres-Morais 1995),
enquanto, para Martins (1994), já António Vieira (1608-1697), em seus
sermões, apresentaria o padrão enclítico característico do português
europeu moderno. Britto (1998), entretanto, observa que as afirmações de
Martins não se sustentam quando a correspondência pessoal do autor, e não
mais os seus sermões, é contemplada, pois em suas cartas o índice de
ocorrências de próclise é ainda francamente majoritário (81%). Com base
nos sermões e cartas de António Vieira disponíveis no Corpus Anotado do
Português Histórico Tycho Brahe, o objetivo do presente trabalho consiste em
redescrever sistematicamente tais textos no que diz respeito à colocação de
clíticos nos contextos sintáticos finitos relevantes. A observação
preliminar de ambos os textos nos leva a estabelecer a seguinte hipótese. O
excessivo número de ocorrência de coordenadas assindéticas com o clítico
em posição posverbal presentes nos sermões de Vieira pode ter sido o
principal fator a impulsionar o resultado a que chega Martins, que considera
este contexto sintático como exemplo efetivo de coordenação. Se
questionamos esta postura, e tomamos tais contextos como representantes de
sentenças absolutas, então tais dados deveriam ser desconsiderados, pois
estes não foram afetados pela mudança em questão, já que durante toda a
história da língua, de sua fundação à atualidade, em tal contexto a
ênclise sempre encontrada.
Ordem de palavra no português europeu do século XVII.
Se mesmo
após a redescrição e reanálise de tais textos, ainda assim os sermões de
António Vieira apresentarem indubitavelmente o padrão enclítico apontado
por Martins, uma descrição mais detalhada deve, então, ser feita,
especificamente quanto à ordem de palavra global que os textos apresentam, de
modo a complementar a descrição acima apontada. Assim procedendo,
procuraremos observar, antes de afirmar, como faz Martins, que, pelo menos no
que tange à colocação de clíticos, o autor deve já ser considerado como
um falante do português moderno, se não se trata do caso de o autor estar se
valendo de arcaismos, que levaraim seu texto a se enquadrar mais propriamente
no português no século XIII, que, como aponta Ribeiro (1995), apesar de
enclítico, como o português europeu moderno, apresenta uma série de
propriedades sintáticas que o afastam deste.
Projeto temático: Padrões rítmicos, fixação de
parâmetros e mudança linguística
1º
Relatório
Descrição
e análise dos padrões
prosódicos do Português Europeu e Brasileiro
A.
Relatório do ano
Os objetivos deste primeiro ano eram:
-
Definir uma metodologia de
elaboração e segmentação de corpus de fala anotado em função dos nossos
objetivos;
-
Isolar propriedades fonéticas do
PE e do PB que evidenciem padrões rítmicos distintos;
-
Elaborar um modelo fonológico que
dê conta da derivação desses padrões distintos.
Considerarei esses itens um
por um, sintetizando o trabalho realizado e apresentando os materiais em anexo
que contêm os nossos resultados e avanços .
Deve-se ressaltar a
integração ao projeto de mais três membros: Filomena Sândalo, que associou seu projeto de
pós-doutorado no IEL ao projeto, e
duas pesquisadoras portuguesas, Sónia Frota, da Universidade de Lisboa, e
Marina Vigário da Universidade do Minho.
I. Metodologia de
elaboração de corpus contrastivo de fala anotado
Trata-se de definir que tipo
de dados são os mais relevantes para a fase da investigação em que nos
encontramos, e que tipo de informações queremos anotar nos dados, sob que forma, e enfim como
segmentar os textos em unidades relevantes. Essas questões são essenciais
para o projeto, e têm ocupado uma boa parte da fase anterior à vigência do
temático, bem como do seu primeiro ano.
I.1 Formas de anotação e
tipos de corpora
Antes da vigência do projeto temático,
foi realizado um estudo comparativo preliminar em dois corpora de fala
autêntica (i.e. não
elicitada para os propósitos da pesquisa): uma missa gravada no mesmo dia na
televisão brasileira e na televisão portuguesa (Missas), e um texto
de probabilidades lido por um brasileiro e um português (Leituras). O
trabalho com esses dois corpora, nos permitiu definir categorias de análise
de partida, e apontou para regularidades nas diferenças rítmicas entre PE e
PB que são descritas em [1]¨. Por outro lado, este trabalho mostrou problemas relativos
à percepção auditiva de proeminências rítmicas por falantes não nativos
aos quais voltaremos mais abaixo. A anotação dos aspectos rítmicos e
entoacionais do texto das missas foi feita manualmente. Mas o corpus das
Leituras foi analisado com o auxílio do analisador de fala WinPitch,
inicialmente sob a orientação do seu autor Philippe Martin.
Dado a dificuldade em
trabalhar com arquivos longos com WinPitch, mudamos para o analisador CSL.
Este programa, além de contar com a vantagem de permitir trabalhar com
arquivos longos, conta com a vantagem de produzir espectrogramas muito mais
precisos, indispensáveis para a tarefa de segmentação dos enunciados com o
intuito de medir durações silábicas.
No início da vigência do projeto, em agosto de 1998, passamos a reorganizar o sistema de anotação de corpus, inserindo as informações relevantes em tabelas. Iniciamos também o trabalho com um novo corpus, também autêntico: um noticiário de rádio em português europeu, lido e gravado em seguida por um locutor brasileiro (Noticiários).
No estágio atual do
projeto, dado o rumo tomado pela pesquisa, estamos optando por uma
organização dos dados em fichas correspondendo a cada frase, com as
seguintes informações:
-
Transcrição fonética,
-
Indicação de proeminências
secundárias (com eventualmente indicação de discrepâncias entre falantes
na produção e na percepção),
-
Indicação das fronteiras de
sintagmas fonológicos (f), e se for pertinente, de fronteiras de frases
entoacionais (I),
-
Indicação da estrutura tonal
(ver mais abaixo),
-
Segmentos vocálicos e
consonantais com sua duração e/ou a duração dos intervalos consonanticos
(ver mais abaixo).
A aplicação desta
metodologia ao corpus das 20 frases (ver logo abaixo) está exemplificada no
Anexo 4.
O estágio atual do projeto
difere também do estágio inicial no fato que, desde o segundo workshop do
Projeto (cf. Anexo 3 da Seção V), optamos por trabalhar com corpora de
frases construídas para controlarmos melhor os efeitos devidos a fatores como
número de sílabas antes da tônica, e posição dos ítens lexicais na
oração. Foi então construído, e gravado por duas informantes portuguesas e
duas informantes brasileiras, um corpus de 20 frases (20 Frases), que
foi exaustivamente utilizado para os trabalhos subsequentes (cf. Anexos). A
este primeiro corpus se segue agora um segundo, gravado em agosto pelas mesmas
informantes, que consiste numa sequência de 54 frases, traduzidas para o
português europeu por Sónia Frota a partir do corpus no qual se baseou o
trabalho de Ramus et al. (a sair) que será relatado mais abaixo.
Os corpora anteriores de
fala autêntica serão agora recuperados a partir de perguntas especificas,
como por exemplo ocorrências em certos contextos segmentais ou sintáticos,
que permitam estender o campo de observação proporcionado pelos corpora
construídos.
A gravação dos corpora tem
sido efetuada em condições profissionais no Departamento de Fonética
Forense da Unicamp por Ricardo Figueiredo, que se responsabiliza também pela
disponibilização dos arquivos sonoros em CD-ROM.
I.2 A
segmentação do corpus
Para fins de anotação e
medição, os corpora têm que ser segmentados em unidades mínimas.
Trabalhamos até agora com três tipos de segmentação:
a)
segmentação em sílabas
canônicas (corpora Missas e
Leituras)
b)
segmentação em sílabas
rítmicas, como proposto no texto inicial do projeto (corpus Noticiários)
c)
segmentação por segmento,
consonantal ou vocálico ( corpus 20 Frases)
Independentemente da segmentação
adotada, o projeto inicial previa trabalhar
com segmentos virtuais, ou seja segmentos não forçosamente
perceptíveis nem detectáveis por analisadores, mas presentes na
representação lexical abstrata da palavra. No caso de uma ausência total,
como em casos de apagamento de vogal não acentuada ou de haplologia, a
segmentação se torna então arbitrária (Note-se que nos casos de sândi
vocálico, o texto Alguns resultados já assume que as duas vogais constituem
um só segmento) . Por outro lado, o contrário também acontece: alguns
segmentos são realizados quando não fazem parte da representação lexical
sub-jacente, como o i epentêtico na palavra “ob(i)jetivo” no PB,
discutido nas referências acima. Um
dos objetivos essenciais sendo obter o mesmo número de segmentos para o PB e
o PE, um segmento como esse é também anotado para o PE. Para uma discussão
de vários outros casos vejam-se as referências mencionadas acima.
A partir da proposta de
Ramus et al. sobre a classificação rítmica das línguas. (cf. II. e Anexo 3
do Relatório da sessão de agosto) Sónia Frota e Marina Vigário
questionaram essa metodologia visando a uma neutralização das diferenças
entre PE e PB na definição do número de segmentos, mostrando que acaba
escondendo diferenças essenciais entre as duas línguas do ponto de vista
rítmico. Elas propuseram novos critérios de segmentação (cf. Anexo 5 do
mesmo relatório.) que foram discutidos na sessão de agosto e adotados.
Resumindo, trabalhamos agora
com os próprios segmentos vocálicos e consonanticos como unidades básicas
de segmentação, sem reagrupamento em sílabas. A anotação de um segmento depende da
sua realização efetiva, detectável em espectrograma.
II. As diferenças rítmicas
do PE e do PB.
Os trabalhos já realizados
concentraram-se nos seguintes aspectos:
-
a distribuição dos acentos
secundários (ou rítmicos) nos enunciados
-
a classificação rítmica do PE e
do PB
-
a estrutura entoacional do PE e do
PB.
II.1. Acentos secundários
no PE e no PB
Na sequência dos trabalhos
realizados sobre os corpora anteriores, fizemos uma análise sistemática da
atribuição de proeminências secundárias no corpus do noticiário e no
corpus das 20 frases. A novidade importante em relação a este último foi
que a parte do trabalho relativa ao português europeu foi feita pelas pesquisadoras portuguesas do projeto.
Elas apontaram para uma diferença importante na percepção dos
acentos secundários do PE por parte dos brasileiros e dos portugueses, o que
colocava em dúvida parte das nossas sistematizações anteriores, mas
corroborava nossa conclusão de que essa anotação era mais difícil do que
podia parecer à primeira vista (conclusão essa que já tinha sido a base do
projeto de Iniciação Científica de Carolina Raizer, cf. Anexo 1.) e que era
necessário fazer levantamentos
mais sistemáticos sobre possíveis variações na percepção. Os textos em
anexo, bem como o relatório da sessão de agosto trazem uma descrição
dessas diferenças na
percepção, tanto do PE por parte de falantes brasileiros, quanto do PB por
parte de falantes portugueses. Note-se que tais discrepâncias não deixam de
ser significativas, ao mostrar que a percepção do ritmo é fortemente
influenciada pelo a-priori definido pela língua materna. O estudo desse
a-priori pode nos trazer informações importantes sobre a natureza do padrão
rítmico da língua.
Com base nas transcrições
de acentos realizadas por falantes da mesma variante, são as seguintes as nossas conclusões parciais sobre a diferença PB/PE:
-
O PE apresenta muito menos
acentos secundários do que o PB.
-
Em PE, mas não em PB, há uma
sensibilidade do acento secundário à localização da palavra na frase entoacional.
(cf.
o contraste na acentuação da palavra “gramaticalidade” na frase 20 vs.
na frase 12 no PE, ausente no PB, em que todas as ocorrências dessa palavra
instanciam o mesmo padrão acentual).
-
Em PE, mas não em PB, o acento
secundário cai na sílaba inicial da palavra fonológica, seja na primeira
sílaba da palavra lexical, seja na palavra funcional precedente.
-
O PB, mas não o PE, instancia
um padrão alternante, geralmente binário.
-
No PE, mas não no PB, as
sílabas seguindo o acento secundário sofrem redução.
II.2. A classificação rítmica do PE e do
PB.
II.3 A estrutura entoacional
do PE e do PB
O resultado mais inovador da
sessão de agosto diz respeito a resultados preliminares do estudo sobre a
diferença da estrutura entoacional do PE e do PB, realizado por Sónia Frota
e Marina Vigário durante a sua estadia aqui, que podem ser resumidos assim:
-
No PB, cada domínio prosódico
definido como Sintagma Fonológico (f), apresenta pelo menos um evento
tonal.
-
No PE, é o a frase entoacional
(I) o domínio prosódico relevante para a entoação, com um evento tonal
associado ao acento nuclear de I, e um evento tonal inicial.
-
O PB, mas não o PE, apresenta
um padrão predominantemente alternante entre tom alto e tom baixo, além de
uma sensibilidade ao número de sílabas que precedem o acento primário de
uma palavra.
-
No PE, contrariamente ao PB, nem
sempre a sílaba acentuada da palavra fonológica é portadora de acento
tonal.
Esses resultados corroboram
em parte conclusões a que tínhamos chegado em etapas anteriores do projeto,
a respeito da organização do ritmo. Apontam, além disso, para um
paralelismo entre as diferenças entoacionais e rítmicas das duas línguas: o
PB apresenta mais eventos tonais, e mais proeminências secundárias. O
domínio do ritmo e da entoação é
I em PE e um domínio menor em PB .
Numa fase anterior da pesquisa,
tínhamos proposto que as fronteiras de palavra fonológica limitavam a
construção dos grupos rítmicos. Evidências entoacionais robustas apontam
para f como domínio relevante. Note-se que a
palavra fonológica e f
se confundem muitas vezes. Mas f é um domínio mais
abrangente, podendo incluir palavras funcionais acentuadas à esquerda do
núcleo, bem como palavras lexicais à direita, no caso de restruturações.
Na base dos resultados da análise da estrutura entoacional, passaremos agora
a investigar sistematicamente a relevância da categoria f na implementação do ritmo em PB.
As diferenças apontado por
Frota e Vigário entre PB e PE vieram reforçar os resultados apresentados por
Ricardo Figueiredo num trabalho anterior (cf. Anexo 2), baseado em medidas de
Fo das vogais do mesmo corpus. Ele resume assim a configuração global
respectiva das duas línguas:
PB:
(i)
faça um pico máximo perto do
início do enunciado
(ii)
faça alguns picos locais ao longo
do enunciado
(iii)
decaia progressivamente ao longo
do enunciado
PE:
(i)
vá para um nível alto já no
início do enunciado
(ii)
mantenha esse nível até perto do
fim do enunciado
(iii)
caia abruptamente perto do fim do
enunciado
Os picos locais do PB são os eventos
tonais associados a f.
No PE, em contraste, só o início e o final de I estão marcados.
No mesmo relatório, Ricardo Figueiredo
aponta para os correlatos do ritmo na duração dos segmentos. As vogais são
mais longas no PB, menos no final do enunciado. O realce do final de enunciado
pelo comprimento é assim mais forte no PE do que no PB, o que reforça a
observação de que os limites de I são posições de destaque na
estruturação rítmica do enunciado. Sabemos que o início de I é também
uma posição proeminente no PB, o que se traduz pela ausência de redução
das palavras funcionais nesse contexto ( cf. [1] e Relatório da Sessão de
Agosto, § 5. referente ao trabalho de tese de Marina Vigário).
Enfim, em trabalho conjunto
(cf. [6]), Helena Britto e
Ricardo Figueiredo compararam as duas informações brasileiras e as
duas informantes portuguesas do corpus das 20 frases e mostraram que o final
dos sintagmas nominais sujeitos complexos era sistematicamente marcado por
movimento de Fo pelas primeiras e
nunca pelas segundas. Isso vem reforçar a hipótese de que o PE,
contrariamente ao PB, não marca entoacionalmente nenhum domínio prosódico
inferior a I.
III. Um modelo fonológico
A teoria adotada para a análise fonológica é a Teoria da Otimalidade, por poder tratar de várias questões fonológicas através da mesma metodologia. Verifica-se que os padrões rítmicos envolvem tom, acento, redução vocálica, silabificação, entre outros processos. Através da fonologia derivacional, seríamos obrigados a tratar cada fenômeno separadamente, apesar de eles estarem intrinsecamente ligados. Essa teoria por outro lado se presta bem a constituir uma interface com modelagens matemáticas e implementações computacionais por integrar a noção de otimização. Na sequência das versões preliminares desse trabalho apresentado em vários encontros, e publicado na revista Delta (cf. [1]), trabalhamos numa nova formulação das restrições que procura integrar melhor os diversos aspectos envolvidos no ritmo, em particular uma questão que sempre esteve no centro das nossas preocupações mas não tinha até agora recebido um tratamento satisfatório, a redução vocálica no PE. Essa nova versão está delineada em [16] e deverá ser aprofundada no próximo período, em ligação com o progresso da pesquisa sobre as sílabas descrita abaixo.
Baseado na primeira versão
da análise otimalista, Pierre Collet e Antonio Galves desenvolveram em
linguagem C um programa de segmentação rítmica de enunciados, com
atribuição automática de acentos
secundários. Em seguida,
Arnaldo Mandel , fez uma segunda versão do programa, rodando em Perl, que ele
intitulou Sotaq. Sotaq pode ser instalado a partir da URL: http://www.ime.usp.br/~tycho/prosody/
(cf. Seção III).
Arnaldo Mandel apresenta
assim o funcionamento do programa e a sua relação com a Teoria da
Otimalidade:
“To
each segment decomposition an integer cost is assigned, and sotaq outputs the
decompositions of minimum cost. The cost is the sum of the individual costs
assigned to its segments, plus the sum of costs assigned to pairs of
successive segments.
Each
individual cost is a sum of criteria, each comprised of a value and a weight.
The value is computed on each segment or pair of segments, and may take into
account properties like length, position of the stress, its relation to
lexical components of the phrase, and so on. The weight is just a number
assigned to a criterion, and can be used to establish a hierarchy of
preference among criteria.
One
OT based model would have a hierarchy of conditions, and count violations of
these, so that any violations of low ranked conditions are preferred over a
violation of a higher ranked condition. Let us see an example: Suppose we have three conditions named
as:
SegMax,SegMin >> AlignI/L >> AlignW/L
where
the symbol >> points from high rank to low. To make sotaq rank segment
decompositions accordingly, one needs:
1.A criterion for each condition, supported internally
in the program. The value of a segment, according to each criterion is 1 if
the segment violates the condition, 0 otherwise.
2.Weights must be chosen to reflect the hierarchy.
Typically one would get the desired results with weights 100, 10, 1. To be on
the totally secure mathematical side, each weight should be at least n+1 times
the next one, where n is the number of syllables in the phrase. The choice of
weights may be done at the time of calling the program.
Sotaq nos dá um valiosíssimo instrumento de validação das nossas
hipóteses, além de um lugar privilegiado de interface entre a descrição e
análise fonético-fonológicas e a modelagem matemática.
B. Programa para o próximo ano:
I. Descrição dos
dados
1.
Segmentação
Trabalharemos com os 8 arquivos
ainda não segmentados do corpus das 20 Frases, correspondendo a mais duas
repetições por cada informante (160 frases), e os 8 arquivos do corpus das
54 frases, correspondendo a duas repetições por informante (432 frases).
Além disso, como mencionado
acima, voltaremos a trechos dos corpora anteriores, em função de perguntas
específicas.
2.
Percepção
A partir da observação de que
os falantes projetam os seus próprios esquemas acentuais sobre a sua
percepção, e de que também existe variações na anotação que os falantes
fazem da sua própria variante, decidimos estender o conjunto de ouvintes para
grupos de 5 a 10 falantes homogêneos. Esta testagem será feita em duas
etapas.
-
Anotação por falantes de PB de enunciados
produzidos por falantes de PB, e por falantes de PE de enunciados produzidos por
falantes de PE.
-
Anotação por falantes de PB de enunciados
produzidos por falantes de PE, e por falantes de PE de enunciados produzidos por
falantes de PB.
3.
Transcrição/análise tonal
A partir do trabalho realizado
por Sónia Frota e Marina Vigário na sessão de agosto, pretende-se completar
a descrição tonal do corpus das 20 frases, e estender esse trabalho ao novo
corpus de 54 frases gravado agora.
A descrição tonal do
português brasileiro é o assunto da tese de doutorado de Luciani Tenani.
4.
Classificação rítmica
Retomaremos sistematicamente a
metodologia de análise do ritmo proposta por Ramus et al., a fim de localizar
PE e PB numa tipologia rítmica das línguas baseada em cuidadosas medidas de
duração.
5.
Descrição/análise das sílabas (acentuadas e reduzidas)
(Projeto de Filomena Sândalo)
Beckman (1998) argumenta que
existe uma variedade de assimetrias fonológicas exibidas por segmentos que
ocorrem em posições proeminentes. De particular interesse para o estudo de
silabificação é o fato que posições fortes, como as posições
acentuadas, favorecem um agrupamento máximo de constituintes, criando
silabificações não canônicas nestas posições em várias línguas. Em
outras palavras, verifica-se que várias línguas apresentam consoantes
ambissilábicas em posições proeminentes. Por exemplo, o inglês respeita um
processo de ressilabificação, o qual silabifica V.CV como VC.CV
criando uma sílaba travada por uma consoante no domínio de acento primário:
(
1
) sane [sæ:n]=> sanity [sæn.nI.tI]
Outras línguas
que apresentam este fenômeno são dinamarquês, efik, ibidio e escocês
(Beckman 1998) e kadiwéu (Sandalo 1997).
Nosso estudo visa observar o processo de silabificação em relação a
força posisional em português. Nossa impressão auditiva neste momento é
que o português europeu (PE) apresenta ambissilabicidade em domínios de
acento primário e secundário (acento rítmico de posição inicial, apontado
por Frota 1998 e Vigário 1998), mas que o português brasileiro (PB)
apresenta ambissilabicidade apenas no domínio de acento primário. Trabalhos
pioneiros nesta área com a língua portuguesa serão usados como guia para
testarmos nossa hipótese empiricamente. Assim, Barbosa & Madureira (1999)
comparam a seqüência se gabá chapada e se gaba chapado no
português brasileiro e mostram que ch é significantemente mais longo
no primeiro caso, isto é, quando segue o acento primário. Evidência
empírica para a ocorrência de ambissilabicidade em PE vem do trabalho de
Andrade (1999). Andrade mostra que a consoante /l/ é alongada e fortemente
velarizada em posição pós-acento primário. Como próximo passo de
análise, trabalharemos no corpus de 20 frases segmentadas por duração
segmental pelo Dr. Ricardo Figueiredo verificando se toda e qualquer consoante
é mais longa após acento, primário e secundário, em PE e PB. A Dra.
Filomena Sandalo estará também trabalhando com foneticistas do laboratório
de fonética da UNICAMP (LAFAPE), a saber, Eleonora Albano e Plínio Barbosa,
a fim de elaborar testes específicos para análise de silabificação com
base instrumental.
Se nossa hipótese de
ambissilabicidade em posição acentual se verificar em qualquer posição
acentual em PE, teremos um correlato acústico para busca automática de
posições tônicas neste dialeto. Se nossa hipótese que ambissilabicidade
não ocorre em posição de acento secundário em PB, teremos que explicar
porque as posições de acento secundário em PB não contam como posições
fortes. Sandalo (1997, 1999) levanta a hipótese que há uma relação entre
padrão rítmico e ambissilabificação. Segundo esta hipótese, a ser
explorada instrumentalmente com várias línguas em projeto conjunto com o
LAFAPE, processos de ambissilabificação só ocorrem em línguas cuja
acentuação é sensível ao peso. De acordo como Collishon (1994), a
acentuação secundária em PB não é sensível ao peso, mas a acentuação
secundária em PE parece ser sensível ao peso (Carvalho 1989).
A Teoria da Otimalidade parece adequada para modelar o fenômeno de silabificação porque, ao contrário de propostas gerativas anteriores, não propõe uma divisão categórica de sílabas. Uma silabificação canônica pode ser desrespeitada para satisfazer uma imposição da língua em certos contextos. Nesta teoria, todas as línguas sentem uma pressão para criar sílabas CV. Assim, PB se caracteriza por desrespeitar minimamente esta pressão, mas o PE viola esta pressão universal mais facilmente. O papel do padrão rítmico parece ser a força que permite uma maior violação de silabificação canônica.
A partir dos diversos níveis
de descrição detalhada e sistemática dos dados a que devemos chegar no
próximo período cumprindo o programa delineado acima, procuraremos refinar a formulação das restrições
propostas para dar conta das diferenças entre o PE e o PB no modelo da
Otimalidade. Isso nos permitirá tornar o programa Sotaq mais eficiente, e
fornecer à modelagem matemática um primeiro nível de formalização
expressando os dados com um alto nível de confiabilidade.
Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística
1º Relatório
MODELAGEM MATEMÁTICA
Os principais objetivos matemáticos no primeiro ano do Projeto foram:
a) modelar
matematicamente a relação entre sintaxe e fonologia, durante a aquisição
b) desenvolver ferramentas matemáticas, estatísticas e
computacionais para a identificação de padrões rítmicos em contornos
prosódicos.
Para tratar esses pontos no primeiro ano de atividade do
Projeto os seguintes artigos foram produzidos:
1)
BRESSAUD, X., R. FERNANDEZ, A.GALVES “Speed of d-convergence for Markov Approximations of Chains with
Complete Connections. A coupling approach”. Stochastic Processes and Applications,
no prelo.
2) BRESSAUD, X., R. FERNANDEZ, A.GALVES “Decay of
correlations for non-holderian dynamics. A coupling approach.” Electronic Journal of Probability, vol.4, paper 3: 1-19, 1999.
3)
CASSANDRO, M., P. COLLET, A. GALVES, C. GALVES
"A Statistical-Physics approach
to language acquisition and language change", Physica A, vol.
263, 1999, pp. 427-437.
4) COLLET,
P., A. GALVES, B. SCHMIDT “Lognormal versus exponential
approximation for repetition times of Gibbsian sources and their large
deviations”, 1999
5) FERNANDEZ, R. & A. GALVES “Identifying
features in the presence of competing evidence, the case of first language
acquisition”, submitted to World
Scientific.
6) FERNANDEZ, R., A. GALVES, C. PEIXOTO "Are
stress contours crystals?", versão
preliminar (15p.), 1999.
Além de seu interesse matemático intrínsico, os artigos 1,
2, 4 e 6 têm como motivação a obtenção de ferramentas para a modelagem
gibbsiana de contornos prosódicos que é uma das idéias básicas do Projeto.
Em particular o artigo 4 é uma etapa preliminar na construção de uma
ferramenta para medição em tempo real da entropia de uma fonte ergódica e,
em particular, de uma longa sequência de contornos prosódicos. A motivação
linguística dessa pesquisa é dada pelo artigo ``Maximum likelihod and
minimum entropy identification of grammars'', de Pierre Collet, Antonio Galves e Artur
Lopes, ( Random and Computational
Dynamics, vol.3, 241-256, 1995.)
Os artigos 3 e 5 retomam e desenvolvem o conjunto de questões
matemáticas sugeridas atualmente pelo Projeto.
Além desses artigos, foram feitas duas versões, uma preliminar feita por Pierre Collet
e Antonio Galves em linguagem C, e
uma segunda em linguagem Perl, por Arnaldo Mandel, de um programa para
calcular contornos acentuais de custo mínimo, dentro do modelo sugerido pelo
artigo 4, acima citado, e pelo artigo de M. B. Abaurre e C. Galves As diferenças rítmicas entre o português
europeu e brasileiro: uma abordagem otimalista e minimalista, ( D.E.L.T.A., vol.14, 377-423, 1998). Este programa está atualmente disponível na
página do Projeto.
No segundo ano do Projeto, além de continuar a pesquisa sobre as questões formuladas em a) e b), teremos que trabalhar em :
c) classificação automática dos dados, em algoritmos
estocásticos, tendo em vista, em particular, a elaboração de um analisador
sintático para o Corpus Tycho Brahe;
d) descrição
estatística dos dados sintáticos já disponíveis no Corpus Tycho Brahe.
Uma reflexão preliminar na direção de c) encontra-se no
projeto Classification and decision schemes based on probabilistic techniques
escrito por Roberto Fernandéz e Antonio Galves, cujo texto segue em anexo.
Uma reflexão preliminar na direção de d) encontra-se no Relatório Técnico do Centro de Estatística Aplicada do
IME/USP, Evolução temporal da
variação próclise/ênclise no Português Clássico, por A. Galves, G.
Paula e M. Goebbels, cujo texto segue em anexo (cf. Produção Bibliográfica
[13]).