Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados

Autores

  • Rosana de Barros Silva e Teixeira Pontifícia Universidade Católica de São Paulo (PUC-SP)

DOI:

https://doi.org/10.11606/issn.2317-9511.tradterm.2011.36765

Palavras-chave:

Terminologia, Linguística de Corpus, Ferramentas computacionais, Extração automática de candidatos a termo.

Resumo

Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais para extração automática de candidatos a termo: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos e ZExtractor. Dois corpora prestaram-se à investigação: o de estudo (MAMAtex), que totaliza 563.482 palavras, e o de referência (Banco de Português 1.0), com 125.927.624 palavras. O primeiro, especializado, é composto de alguns dos gêneros dos discursos científico, de divulgação científica e instrucional da (Onco)mastologia, enquanto o segundo, de linguagem geral, compreende gêneros discursivos variados. Para subsidiar a análise do ponto de vista teórico-metodológico, foram eleitas duas abordagens, a Teoria Comunicativa da Terminologia (CABRÉ 1993) e a Linguística de Corpus (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). Conforme apontam os dados, o Corpógrafo 4.0 lidera o ranking, com 27,56% de acerto, seguido, respectivamente, pelo ZExtractor (26,05%), WordSmith Tools 3.0 (21,77%) e e-Termos (14,44%). Com vistas a tornar factível o exame dos candidatos, posto que as listas geradas pelos programas abrangiam milhares de palavras, foi desenvolvida uma metodologia com o auxílio do Microsoft Office Excel 2007 para filtragem dos candidatos comuns entre todas as ferramentas e exclusivos de cada uma. Esse recorte nos dados funcionou como um “atalho metodológico” possivelmente viável no sentido de otimizar a seleção de candidatos a termo a partir de listas processadas por dois ou mais programas.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

  • Rosana de Barros Silva e Teixeira, Pontifícia Universidade Católica de São Paulo (PUC-SP)
    Jornalista e professora de Língua Portuguesa. Mestre em Linguística Aplicada e Estudos da Linguagem pela PUC-SP, é também membro do GELC/CNPq. Desenvolve pesquisas nas áreas de Terminologia, Linguística de *Corpus* e Análise do Discurso. É autora de *Glossário de Oncomastologia: um repertório de termos sobre o câncer de mama*, com lançamento previsto para 2012 pela editora Olho d´Água.

Downloads

Publicado

2011-12-04

Edição

Seção

Artigos

Como Citar

Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados. (2011). Tradterm, 18, 297-319. https://doi.org/10.11606/issn.2317-9511.tradterm.2011.36765