Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
DOI:
https://doi.org/10.11606/issn.2317-9511.tradterm.2011.36765Keywords:
Terminology, Corpus Linguistics, Computational tools, Automatic extraction of term candidates.Abstract
This article aims to present one aspect of the masters dissertation entitled (Onco)mastology terms: a corpus-mediated approach (2011). This work will explore one of the goals that guided the study, namely, verifying the success rates of four computational tools for automatic extraction of term candidates: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos and ZExtractor. Two corpora were used in the investigation: the study corpus (MAMAtex), with a total of 563,482 words, and a reference corpus (Banco de Português 1.0), with 125,927,624 words. The first, which is specialized, consists of some of the genres of scientific discourse, of scientific dissemination and instruction in (Onco)mastology, while the second, a generallanguage text, includes various genres. Two approaches were chosen to support this analysis from the theoretical and methodological standpoint: the Communicative Theory of Terminology (CABRÉ 1993) and Corpus Linguistics (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). As revealed by the data, Corpógrafo 4.0 ranks highest, with 27.56% accuracy, followed by ZExtractor (26.05%), WordSmith Tools 3.0 (21.77%) and e-Terms (14.44 %). In order to make feasible the examination of candidates, given that the lists generated by the programs included thousands of words, a methodology was developed using Microsoft Office Excel 2007 for filtering candidates common to all the tools and unique to each one. This cut in the data served as a possibly feasible "methodological shortcut" for optimizing the selection of term candidates from lists processed by two or more programs.Downloads
Download data is not yet available.
Downloads
Published
2011-12-04
Issue
Section
Articles
License
Autores que publicam nesta revista concordam com os seguintes termos:
- Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution BY-NC-SA que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
- Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
- Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).
How to Cite
Teixeira, R. de B. S. e. (2011). Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados. TradTerm, 18, 297-319. https://doi.org/10.11606/issn.2317-9511.tradterm.2011.36765