CORPUS PARALELO BILÍNGUE PORTUGUÊS DO BRASIL – LÍNGUA DE SINAIS BRASILEIRA

José Mario De Martino
Faculdade de Engenharia Elétrica e de Computação

Paula Dornhofer Paro Costa
Universidade Estadual de Campinas

Um corpus paralelo bilíngue é um conjunto de enunciados em uma língua devidamente traduzido para uma outra. Para a utilidade do corpus paralelo é fundamental que este esteja alinhado, ou seja, que estejam indicadas as respectivas correspondências de palavras e/ou frases entre as duas versões dos enunciados. Este emparelhamento das produções é necessário uma vez que no processo de tradução as palavras e frases podem ser divididas, mescladas, suprimidas, inseridas ou reordenadas. No contexto das línguas orais/escritas, corpora paralelos têm sido utilizados para comparar características linguísticas de diferentes línguas, viabilizando estudos contrastivos sistemáticos e quantitativos. Corpora paralelos também se prestam a apoiar tradutores a encontrar equivalentes entre a língua origem e a alvo. Da análise de corpora paralelo é possível extrair, por exemplo, informações sobre a frequência de ocorrência de palavras, sobre usos específicos de itens lexicais, assim como sobre padrões colocacionais e sintáticos. Em particular, considerando as línguas escritas, atualmente assistimos a uma crescente utilização de corpora paralelos para o desenvolvimento de sistemas de tradução automática. Adicionalmente, corpora paralelos também podem ser utilizados no contexto do ensino de segunda língua (L2) para enriquecer o conhecimento sobre as línguas, exemplificando produções típicas ou mesmo padrões de uso específico, potencialmente problemáticos. Neste contexto, o ensino de português do Brasil (PB) ou de Libras como L2 potencialmente pode se beneficiar da existência de corpora paralelos envolvendo as duas línguas. Muito tem sido feito para a construção de corpora paralelo envolvendo línguas orais/escritas, entretanto, pouco tem sido investido na construção de corpora paralelos envolvendo línguas de sinais e línguas escritas e na investigação dos usos e benefícios desta abordagem. Este artigo descreve nossa abordagem para construir um corpus paralelo PB-Libras. A abordagem explora a tradução de livros escolares originalmente produzido em português escrito e o registro da tradução para Libras em vídeo e em dados de captura de movimento. Os dados de captura de movimento descrevem as trajetórias no espaço tridimensional de juntas do corpo do sinalizador durante a sinalização, constituindo uma maneira precisa e detalhada de se descrever a sinalização. O texto original, os vídeos da sinalização e dados de captura de movimento são devidamente alinhados por meio de anotação linguística efetuada com auxílio da ferramenta ELAN (EUDICO Linguistic Annotator). A metodologia adotada para a construção do corpus paralelo PB-Libras é composta de cinco etapas principais: 1) seleção do material didático a ser traduzido, 2) tradução do conteúdo do livro por surdos e intérpretes, 3) gravação em vídeo e captura de movimento dos aspectos manuais e não manuais da sinalização do conteúdo do livro didático; 4) anotação do conteúdo dos enunciados utilizando a ferramenta ELAN, 5) consolidação do corpus paralelo PB-Libras em banco de dados. O artigo detalha cada uma destas etapas, discute os desafios encontrados, as soluções adotadas, e apresenta o estágio atual dos desenvolvimentos.

Palavras-chave: Corpus Paralelo; Língua de Sinais Brasileira; Português do Brasil