Financial Market Terms: a study of the DANTEStocks Corpus




Terminology, Financial market, linguistic resources, Natural Language Processing


In this article we present the procedures for term extraction and validation in the domain of the Brazilian financial market based on the DANTEStocks corpus. We adopted as theoretical framework the Communicative Theory of Terminology, which asserts that terms and their properties can only be identified and described within their natural occurrence context. We employe lexical features to extract term candidates, resulting in a list of 527 candidates. These terms were subsequently analyzed and validated by experts, leading to a final list of 380 terms. Additionally, we made a comparison with other glossaries in Economics domain, revealing the absence of many financial market terms. Considering the significance of terminological studies for Linguistics and Natural Language Processing, the constructed terminological list facilitates the identification and differentiation (including quantification) of domain-specific terms (financial market) from general language words.


Author Biographies

  • Roana Rodrigues, Universidade Federal de Sergipe

    É doutora em Linguística pela Universidade Federal de São Carlos. Atualmente é professora do Departamento de Letras Estrangeiras (DLES) e do Programa de Pós-Graduação em Letras (PPGL) da Universidade Federal de Sergipe (UFS). Pesquisa e compara o comportamento sintático-semântico de construções verbais de variantes das línguas portuguesa e espanhola, além de ter interesse nas áreas de linguística computacional e estudos do léxico. E-mail: ORCID: 

  • Ariani Di Felippo, Universidade Federal de São Carlos

    É doutora em Linguística e Língua Portuguesa pela Universidade Estadual Paulista Júlio de Mesquita Filho. Atualmente, é professora associada do Departamento de Letras da Universidade Federal de São Carlos (UFSCar), atuando na área de Processamento Automático das Línguas Naturais (ou Linguística Computacional), com ênfase em Semântica Lexical Computacional e Sumarização Automática. E-mail: ORCID: 

  • Norton Trevisan Roman, Universidade de São Paulo. Escola de Artes, Ciências e Humanidades

    Possui doutorado em Ciência da Computação pela Universidade Estadual de Campinas  e atualmente é Professor Livre-Docente e Pesquisador da Escola de Artes, Ciências e Humanidades da Universidade de São Paulo (EACH/USP), na área de Inteligência Artificial (com ênfase em Linguística Computacional). Email: ORCID: 

  • Pedro Semcovici , Universidade de São Paulo. Escola de Artes, Ciências e Humanidades

    É graduando em Sistemas de Informação pela Escola de Artes, Ciências e Humanidades (EACH) da Universidade de São Paulo. E-mail: ORCID: 

  • Jackson Wilke da Cruz Souza, Universidade Federal da Bahia

    É doutor em Linguística pela Universidade Federal de São Carlos. Atualmente é professor adjunto na Universidade Federal da Bahia (UFBA), no Instituto de Ciência, Tecnologia e Inovação (ICTI) e no Programa de Pós-Graduação em Língua e Cultura (PPGLinC) da UFBA. Atua na área de PLN, principalmente nas subáreas de Linguística de corpus, Semântica computacional, Terminologia, Sumarização automática e Análise textual.E-mail: ORCID: 

  • Thiago Alexandre Salgueiro Pardo, Universidade de São Paulo. Instituto de Ciências Matemáticas e de Computação

    É doutor em Ciências da Computação e Matemática Computacional pela Universidade de São Paulo (2005). Atualmente é professor associado da Universidade de São Paulo. Tem experiência na área de Inteligência Artificial, atuando principalmente nos temas de processamento de linguagem natural. E-mail: ORCID: 


