Projeto temático: Padrões rítmicos, fixação de parâmetros e mudança linguística
Quinto Relatório
Apresento a seguir as atividades e os progressos do
Projeto durante o período de
setembro de 2002 a abril de 2003. Maiores considerações sobre o resultados
do projeto como um todo se encontram no Relatório final. Todos os resultados da
pesquisa encontram-se no CD em anexo.
1.
Mais um texto, as Cartas do Abade Antonio da Costa, de 27.096 palavras, foi
disponibilizado em versão etiquetada. As Regras da Língua
Portugueza, Espelho da Língua Latina de Jerônimo
Contador de Argote, bem como a Correspondência de Diogo Inácio de
Pina Manique estão em fase final de revisão.
Com esses três textos,
perfazemos um total de 23 textos etiquetados, num total de 1.048.166 palavras.
2.
O texto inteiro Reflexões sobre
a Vaidade de Matias Aires, bem como parte das Cartas do Cavaleiro
de Oliveira, foram disponibilizados em versão sintaticamente analisada,
perfazendo um total de 68.958
palavras.
3.
Uma versão do Corpus contendo os textos em versão ortograficamente
transcrita foi criada em formato XML, em resultado da colaboração com
Jan-Torsten Milde da Universidade de Bielefeld (convênio CAPES-DAAD). Esse
formato deverá ser trabalhado mais
e adotado nos desenvolvimentos futuros do Corpus.
A base de dados de orações com clíticos foi
inteiramente revisada pelas doutorandas Maria Clara Paixão de Sousa e Sílvia
de Oliveira Cavalcante, e reorganizada de maneira a integrar novas
marcações, possibilitando uma descrição exaustiva do fenômeno da
colocação de clíticos nas suas relações com outros fenômenos como a
posição do sujeito, e trazendo o máximo de elementos para a
caracterização das gramáticas envolvidas.
Os dados das Cartas do Abade Antonio da Costa foram acrescentados,
perfazendo um total de 20 textos analisados ( 941.031 palavras).
A nova versão da base de dados não só nos permite
justificar melhor as hipóteses apresentadas em Galves, Britto e Paixão de
Sousa (2001), e Galves (no prelo), em respostas à questões essenciais do
projeto. Ela será também a
fonte de muitos outros trabalhos, citando-se em particular a tese de doutorado
de Maria Clara Paixão de Sousa. Ela contém uma quantidade de informações
nunca antes reunidas sobre o
português dos séculos 16 a 19.
Com base na nova base de dados, uma análise
quantitativa e qualitativa mais apurada está sendo apresentada no texto
"Change in Clitic Placement from
Classical to Modern European Portuguese:Results from the Tycho Brahe
Corpus", em fase final de redação, a ser submetido à revista Language
Change and Variation. A pesquisa central desse artigo se vale também dos
progressos de trabalhos realizados nos projetos de iniciação científica de
Lucianne Chociay - sobre o efeito do tipo de clítico na colocação- e de
Gilcélia Menezes -sobre a colocação de clíticos em coordenadas V1.
Uma das extensões do projeto temático foi a
elaboração de um projeto conjunto com uma equipe do Departamento de
Lingüística da Universidade de Bielefeld, no âmbito do acordo CAPES-DAAD,
intitulado "Mineração de dados em grandes corpora de fala"
(vigência 2003-2004). No quadro desse projeto recebemos a visita dos
pesquisadores Ulrike Gut e Jan-Torsten Milde no Departamento de Lingüística
da Unicamp de 16 de março a 6 de abril. Durante a estadia deles, o Corpus de
fala do português europeu e brasileiro constituído ao longo do projeto foi organizado no formato XML junto com os
corpora de Thierry Nazzi, recebendo o nome de Corpus Babel. Esse corpus deve
ser integrado aos corpora desenvolvidos em Bielefeld, recebendo uma anotação idêntica. Junto em anexo o relatório
da visita, que contém a descrição do Corpus.
A questão da relação da mudança sintática com a
mudança fonológica está na origem do projeto desde o texto pioneiro de
Galves e Galves (1995). Foi necessário trabalhar cada um desses tópicos
independentemente para poder enfrentar a questão complexa da relação da
fonologia com a sintaxe na mudança do Português Clássico para o Português
europeu moderno. No texto "Clitic-placement in the History of Portuguese
and the Syntax-Phonology Interface", apresentado no 27o Penn
Linguistics Colloquium, proponho uma análise que relaciona a posição
enclítica básica do clítico no PE com a proeminência inicial da palavra
fonológica, incompatível com a próclise. Desse ponto de vista, a questão
que surge é porque a ênclise não é o único padrão possível. No mesmo
texto, sugiro que a ênclise é barrada sempre que a categoria na qual se
encontra o verbo tem um especificador. A idéia crucial da análise é que a
morfologização do verbo decorrente da ênclise bloqueia todo processo de
verificação de traços. Tal análise supõe uma precedência da sintaxe
sobre a fonologia e tem consequências interessantes para a arquitetura da
gramática.
No que diz respeito a esse assunto que constituí o
objetivo mais ambicioso do projeto, obtivemos resultados preliminares
auspiciosos, apresentados no
relatório "Modelagem de contornos acentuais do Português através de
cadeias de Markov de alcance variável" (em anexo) e no artigo "Correlates of rhythm in written
texts of Brazilian and Modern European Portuguese" (A. Galves, C. Galves,
N. Garcia e C.Peixoto em andamento - a ser submetido à revista JASA). Trata-se de delinear uma
metodologia de identificação de padrões rítmicos nos textos escritos que articula a noção probabilística de Cadeias de Markov
de alcance variável, com os resultados recentes de várias pesquisas sobre as
diferenças prosódicas do PE e do PB, várias delas produzidos no próprio
projeto. Com a metodologia desenvolvida, obtém-se uma clara separação do PE
e do PB, o que constituí um avanço importante, mas é impossível detectar
nos autores do Corpus Tycho Brahe um ponto em que o ritmo muda (segundo a
nossa hipótese, de um ritmo idêntico ao PB para o ritmo do PE). Os autores
do Corpus Tycho Brahe ao contrário do esperado, mantêm um comportamento
bastante homogêneo. Isso não significa que devamos abandonar a nossa
hipótese, uma vez que há índices fortes da existência de uma mudança
acontecida na prosódia da língua portuguesa entre o século 16 e o século
18. Mostra que não dispomos ainda das ferramentas necessárias, ou da plena
capacidade para usá-las e interpretá-las. Traços extremamente interessantes
emergem porém do que já obtivemos, apontando para o fato de que,
diferentemente da nossa hipótese inicial, os padrões rítmicos não podem
ser detectados independentemente mas
vêm "borrados" por outros fenômenos, sintáticos e estilísticos.
A continuação desta pesquisa, o refinamento das ferramentas e das
interpretações, continuam fortemente na ordem do dia.
Uma atividade importante de divulgação da pesquisa
realizada no âmbito do projeto foi realizada durante esse período.
2º
Seminário Integrado de Pesquisa em Língua Portuguesa, Instituto de Letras da
UERJ, Rio de Janeiro, outubro de
2002.
Nesse evento, realizado de 23 a 25 de outubro de 2002,
fui convidada para dar a conferência inaugural, para a qual propus o título:
"Novos rumos para a pesquisa lingüística no Brasil". O texto será
publicado no livro resultante do Encontro, intitulado Língua, Conhecimento e
Aplicação.
Os organizadores do Encontro também me pediram para
coordenar uma sessão sobre o projeto com 2 participantes do meu grupo.
Participaram dessa sessão Helena Britto e Maria Clara Paixão de Sousa.
Nessas duas ocasiões, divulgamos amplamente o Corpus e os resultados da
pesquisa que ele possibilitou, insistindo sobre os aspectos inderdisciplinares
desta pesquisa, e sobre as vantagens da construção de grandes corpora de
língua anotados e disponíveis para todos os estudiosos da área.
Penn
Linguistics Speaker Series, Departamento de Lingüística, Universidade da
Pensilvânia, fevereiro de 2003
Na ocasião da minha viagem ao Departamento de
Lingüística da Universidade da Pensilvânia, a convite de Anthony Kroch,
apresentei no dia 27 de fevereiro uma conferência intitulada "The change
in clitic placement from Classical to Modern European Portuguese: Results from
the Tycho Brahe Corpus" nos Colóquios do Departamento. O trabalho foi
muito bem recebido pela audiência composta de docentes, (Anthony Kroch, Gillian Sankoff, Robin
Clark, Donald Ringe e David Embick, entre outros) e alunos de pós-graduação do Departamento.
Instituto e Congresso internacional da ABRALIN, Rio de
Janeiro, março de 2003
No Instituto da Abralin, de 10 a 15 de março de 2003,
Anthony Kroch e eu oferecemos um curso intitulado Quantitative Historical
Syntax. Tratava-se de ilustrar e defender uma abordagem da lingüística
histórica que articulasse a concepção gerativista de gramática ao trabalho
com a quantificação de grandes quantidades de dados fornecidas por Corpora
anotados morfologica e sintaticamente. Ilustrei a minha parte do curso com
análises baseadas em dados do Corpus Tycho Brahe.
No Congresso, o grupo do Corpus ofereceu uma Sessão
coordenada, coordenada por mim, da qual participaram Maria Clara Paixão de
Sousa, Sílvia Regina de Oliveira Cavalcante e Cristiane Namiuti Temponi, cada
uma apresentando a sua pesquisa de doutorado ou mestrado baseada no Corpus.
Também propusemos um conjunto de comunicações sobre a construção do Corpus e da
base de dados. Todas essas atividades tiveram um público grande e extremamente interessado.
Encontro de Matemática e Estatística, Universidade
Federal de Goiânia, outubro de
2002, e 1ª Bienal de Matemática, organizada pela
Sociedade Brasileira de Matemática na Universidade Federal de Minas Gerais,
novembro de 2002.
Nesses dois eventos, Antonio Galves ofereceu um curso
intitulado "Modelagem Estocástica do Ritmo da Fala" que faz uma
apresentação da pesquisa sobre
o assunto no âmbito do projeto (cf. texto em anexo). Uma versão revisada das
notas do curso será publicada na Revista de divulgação científica da SBM Matemática
Universitária.
Instituto de Matemática da Universidade da Borgonha, em
Dijon, abril de 2003.
Nos dias 28 e 29 de abril de 2003, Antonio Galves deu
na Universidade da Bourgogne uma versão mais avançada desse curso intitulado
"Modélisation stocastique du rythme de la parole".
Seminários do Departamento de Filologia e Língua
Portuguesa da Universidade de São .Paulo, maio
de 2003.
A última apresentação do projeto durante a vigência
do Temático aconteceu na USP, em 28 de maio, num seminário a convite dos
colegas do Departamento de Filologia e Língua Portuguesa, com o título: "Sintaxe
diacrônica baseada em grandes corpora: o Corpus Tycho Brahe e a história da
colocação dos clíticos no português europeu". Como testemunho da recepção da minha fala, permito-me juntar
cópia da mensagem mandada à CVL pelo Prof. Artaxerxes Modesto no dia
seguinte. Acrescento que o público foi em grande parte constituído de
alunos, que manifestaram o desejo de aprender a usar a metodologia de busca de
dados no Corpus, sendo previsto um workshop com essa finalidade para um futuro
próximo.
Durante o período, foram defendidas as seguintes
dissertações e teses, todas de grande relevância para o projeto:
- Ester Tenani,
"Domínios prosódicos no Português do Brasil: implicações para a
prosódia e para a aplicação de processos fonológicos", doutorado,
orientadora: Maria Bernadete Abaurre, IEL-UNICAMP, 23/08/2002.
- Denise Duarte,
"Aproximações markovianas e reamostragem em cadeias de ordem
infinita com aplicação à linguística", doutorado, orientador:
Antonio Galves, IME-USP, 18/02/2003.
- Alba Verona Brito
Gibrail, "O acusativo preposicionado no português clássico: uma
abordagem diacrônica e teórica", mestrado, orientadora: Charlotte
Galves, IEL-UNICAMP, 18/02/2003.
- Archias Alves de Almeida
Filho, "Aprendizado Computacional por Maximização da Entropia e seu
Emprego à Lingüistica Computacional", mestrado, orientador
Marcelo Finger, IME-USP, 20/03/2003.
- Brenda Silva Veloso,
"A elisão de monomorfemas em casos de sândi vocálico externo em três
variedades de português", Maria Bernadete Abaurre, IEL-UNICAMP,
31/03/2003.
Vários projetos de iniciação científica e
monografias foram concluídos, e outros apresentaram relatórios evidenciando
uma pesquisa já consolidada:
- Ana Ruth Bittencourt, "Entendendo o
sotaque através da teoria da otimalidade. Iniciaçao cientifica",
FAPESP, orientadora Filomena Sândalo, concluído em 2002.
- Emilio de Camargo Francesquini, "Sistema
Fonético de aproximação ortográfica de palavras do português, monografia
de curso, orientador: Marcelo Finger, concluído em 2002.
- Luiza Pagliari, "Análise estatística e
identificação de classes rítmicas em grandes corpora de fala",
CNPq/PIBIC, orientador Antonio Galves.
- Lucianne Chociay, "O papel do tipo de clítico na colocação
enclítica ou proclítica no Português clássico", FAPESP, orientadora Charlotte Galves.
- Gilcélia Menezes, "A Colocação de Clíticos nas Orações Coordenadas do
Português Clássico", FAPESP,
orientadora Charlotte Galves.
Enfim, 5 novos projetos foram apresentados ou em fase
de preparação, evidenciando a dinâmica do projeto, em todas as áreas
concernidas:
- André Antonelli,
"Sintagma Preposicional e Topicalização na História da
Colocação de Clíticos do Português Clássico ao Português Europeu
Moderno", FAPESP, orientadora Charlotte Galves.
- Carlos Yassunori Kobayashi, "Editor de etiquetas
XML para a confecção de cabeçalhos em Texto de Corpora", orientador:
Marcelo Finger.
- Giseli
Tordin, "Correlatos acústicos do ritmo em português europeu e
português brasileiro, submetido à FAPESP, orientador: Antonio Galves.
- Thais Giannico, "Entoação e a
Formação de Sintagma Fonológico no PB", submetido à FAPESP,
orientadora: Filomena Sandalo.
-
Angela Satomi, "Elisão e Epêntese vocálica na história do português:
um estudo rítmico", submetido
ao PIBIC/CNPq, orientadora: Filomena Sandalo.
Equipamentos informáticos
Com a verba remanescente do projeto foi adquirida uma
nova servidora, de marca DELL, para a sub-rede do projeto, que sofreu um pouco
nos últimos tempos com o desgaste dos equipamentos adquiridos logo no início
do projeto, e a rapidez com que eles se tornam insuficientes. Um dos dois
primeiros computadores perdeu seu HD, que se fragmentou, e o outro está com
um problema ainda não identificado. O HD será substituído pelo Setor de
Informática do IEL. Esperamos que o problema do outro computador seja
sanável. Ressalto o fato de que a máquina DELL recentemente adquirida
consiste sómente de uma CPU de grande porte (40 GB de disco e 1.4 GHertz de
velocidade de processamento), e sem
gastos para sistema
operacional, nem monitor. Rodará
em sistema Linux, de domínio público, com
um monitor providenciado pelo Setor de Informática do IEL.
Visita a Pensilvânia
A convite do Prof.
Anthony Kroch, visitei o Departamento de Lingüística da Universidade da
Pensilvânia de 20 de fevereiro a 4 de março de 2003. A viagem foi paga pelo
Departamento. Durante esse período, além de participar do 27o Penn Linguistics
Colloquium, e falar na Penn Linguistics Speaker
Series, como mencionado acima, fiz
uma pesquisa preliminar com Anthony Kroch sobre
a correlação da posição do sujeito e a colocação de clíticos no
texto já parseado do nosso Corpus (Matias Aires), usando a ferramenta Corpus
Search desenvolvida no âmbito do projeto coordenado por ele. Também
preparamos o curso que demos em conjunto na ABRALIN. Enfim, foi a ocasião de
discutir de maneira detalhada o trabalho apresentado no Colóquio com o Prof. David Embick, um dos jovens
pesquisadores com pesquisa mais promissora no âmbito da chamada Morfologia
Distribuída.
Reserva
Técnica
Com a Reserva Técnica, adquiriu-se o sistema MacOS X.2
para instalação no I-Mac G3 do Projeto. Esse sistema, baseado no sistema
operacional UNIX, providencia
compatibilidade total com os sistemas Windows e Linux, e permite fazer com que os três sistemas compartilhem a mesma rede, otimizando
os nossos recursos. Também adquirimos a licença para universitários da
última versão do Office da Microsoft.
Durante a minha estadia na Pensilvânia, adquiri um
"mini-drive" USB de 256 MB. Trata-se de um dispositivo do tamanho de
um chaveiro que tem a capacidade de memória de 200 disquetes e pode ser
ligado em qualquer computador que tenha tomada USB. Tem sido de grande valia
para o transporte rápido e seguro de grandes arquivos no interior do projeto.
Nessa fase final do projeto, uma verba importante da RT
foi usada para consertar problemas com o material já mais antigo, permitindo
que eles possam ser usados ainda um bom tempo pelos pesquisadores e alunos do
projeto e do IEL. Também se
instalou uma placa de rede num dos lap-tops mais antigos, que não tinha esse
recurso, indispensável agora. Enfim, fora
o material de consumo e os convites a pesquisadores de fora da Unicamp que
relatarei abaixo, a RT também foi utilizada para comprar os livros cuja lista
segue em anexo.
Visitas de pesquisadores visitantes
Foram os seguintes os pesquisadores que visitaram a
equipe com recursos da Reserva Técnica, durante o período considerado:
Marzio Cassandro visitou o Departamento de Estatística da USP
de 25 de outubro a 1º de novembro de 2002. Durante esse período, trabalhou
com Antonio Galves, Jesus Garcia e Denise Duarte no texto "An universal
linear relation among acoustic correlates of rhythm", em anexo, que
constituí a versão inicial de um artigo maior em andamento.
Dante Lucchesi, da Universidade
Federal da Bahia, esteve no
Departamento de Lingüística da Unicamp de 19 a 22 de novembro de 2002.
Durante esse período, ele se familiarizou com as ferramentas de anotação
usadas no Corpus Tycho Brahe, com o objetivo de usá-las no Corpus de língua
falada por comunidades rurais na Bahia que ele
vem construindo. Ele assistiu
também a um colóquio do Departamento de Lingüística apresentado por Helena
Britto, pós-doutoranda do projeto, e proferiu uma conferência na qual ele
relatou sua própria pesquisa.
A
colaboração com o Prof. Dante é bastante importante em dois sentidos. Primeiro ela
proporciona a oportunidade de
discutir os nossos resultados e nossas análises com um pesquisador que tem um horizonte teórico distinto, de
orientação fortemente socio-lingüística, o que tem se revelado muito
produtivo. Segundo, trabalhamos no sentido de homogeneizar os procedimentos de
construção de corpora do português, usando as ferramentas de anotação
desenvolvidas no âmbito do nosso projeto.
Tal homogeneização é um passo importante para a implantação de uma rede de grupos de
pesquisa com o objetivo comum é a descrição sincrônica e diacrônica do
português, nas suas variantes portuguesas e brasileiras, com base em grandes
corpora anotados. Outros contatos nesse sentido estão em fase bastante
avançada. Citarei entre outros projetos já bastante definidos de
intercâmbio com Américo Venâncio e Tânia Lobo, ambos da UFBa, Afrânio Barbosa e Carlota Rosa
do Amaral, da UFRJ, e Lorenzo Vitral da UFMG.
No mês de março de 2003, aproveitamos a presença da
pesquisadora Shana Poplack no Congresso Internacional da Abralin no Rio
de Janeiro, e sua vinda a São Paulo para realizar pesquisa de campo, para
convidá-la a vir apresentar a sua pesquisa recente no âmbito do nosso
projeto. No dia 20 de março, ela proferiu a palestra "Prescrição e
praxis na evolução da gramática", que foi a ocasião de discutir
amplamente as nossas respectivas abordagens da variação lingüística.
Enfim, a recém-doutora do projeto Denise Duarte
visitou a USP nos dias 19, 20 e 21 de maio. Nesse período,
ela trabalhou no artigo "Stochastic modelling of the speech sonority:
quantization and cross language estimation of the Cut Point" (Cassandro,
Collet, Duarte, Galves e Garcia, em andamento). Uma versão preliminar
resumida do segundo artigo se encontra no texto "An universal linear
relation among acoustic correlates of rhythm" .
Campinas,
30 de maio de 2003
Charlotte
Marie Chambelland Galves