AVALIAÇÃO DO TD-BERT COM DIFERENTES MODELOS DE REPRESENTAÇÃO TEXTUAL PARA TAREFAS DE CLASSIFICAÇÃO DE TEXTOS

Autores

  • Luiz Henrique Dutra Martins Universidade do Estado de Minas Gerais-UEMG
  • Rodrigo Neves Trindade Universidade do Estado de Minas Gerais-UEMG
  • Geraldo Nunes Correa Universidade do Estado de Minas Gerais-UEMG
  • Camilla Côrtes Carvalho-Heitor Universidade do Estado de Minas Gerais-UEMG
  • Ivan José dos Reis Filho Universidade do Estado de Minas Gerais-UEMG

Resumo

A quantidade de dados gerados na internet cresceu exponencialmente na última década. Técnicas de Mineração de Textos e modelos de aprendizado de máquina são utilizados para obter conhecimento útil utilizando um grande volume de dados. Nesse contexto, a Mineração de Textos (MT), uma das principais atividades da Mineração de Dados (MD), é o processo que busca descobrir conhecimento útil e padrões ocultos a partir de um grande volume de textos. Inicialmente, modelos de matriz atributo-valor (BoW) foram apresentados na literatura para gerar representações vetoriais de textos. No entanto, as matrizes possuem alta dimensionalidade e não representam recursos semânticos dos textos. Atualmente, modelos com base na arquitetura Transformers são considerados como o estado-da-arte para representações textuais. No entanto, esses modelos geram vetores singulares e difíceis de serem compreendidos. Recentemente, uma representação denominada TD-BERT foi apresentada na literatura, considerando aspectos semânticos de dados textuais. Dessa forma, este trabalho propõe uma avaliação aprimorada do TD-BERT considerando seis representações vetoriais de textos para três datasets de diferentes domínios. A metodologia deste trabalho avalia diferentes modelos de representação textual aplicados em tarefas de classificação. As principais atividades concentram-se nas etapas de pré-processamento e avaliação experimental. Conclui-se que foram selecionados quatro algoritmos de diferentes paradigmas de aprendizagem e seis modelos de representação textual, considerando a abordagem TD-BERT, que se mostrou eficaz e obteve resultados similares aos demais.

Biografia do Autor

Luiz Henrique Dutra Martins, Universidade do Estado de Minas Gerais-UEMG

Graduando em Sistemas de Informação pela Universidade do Estado de Minas Gerais-UEMG.

Rodrigo Neves Trindade , Universidade do Estado de Minas Gerais-UEMG

Graduando em Sistemas de Informação pela Universidade do Estado de Minas Gerais-UEMG.

Geraldo Nunes Correa, Universidade do Estado de Minas Gerais-UEMG

Possui graduação em Ciência da Computação pela Universidade de São Paulo (1991), mestrado em Ciências da Computação (Área de Inteligência Artificial, Banco de Dados e Manufatura) pela Universidade de São Paulo (1994) e doutorado em Engenharia Mecânica (Departamento de Engenharia de Produção) pela Universidade de São Paulo (1999). Pós-doutorado em Mineração de Textos no Instituto de Ciências Matemáticas e Computação da Universidade de São Paulo (2013). Consultor em soluções educacionais. Mentor de Startups. Empreendedor Digital.

Camilla Côrtes Carvalho-Heitor, Universidade do Estado de Minas Gerais-UEMG

Mestra em Ciências Ambientais pela Universidade Brasil - Campus Fernandópolis/SP (2021). Graduada em Licenciatura em Letras pela Faculdade de Teologia e Ciências (2016), Bacharela em Sistemas de Informação pela Universidade do Estado de Minas Gerais (2011) e Bacharela em Administração de Empresas pela UNIDERP (2004). Especialista em Docência do Ensino Superior pela Universidade Cândido Mendes (2013), Especialista em Inspeção e Supervisão escolar pela Universidade Cândido Mendes (2018). Tem experiência na área de Educação com ênfase em Gestão, Língua Portuguesa, Orientação, Aconselhamento, Tecnologias, Ciências da Computação. CRA-MG 01-063.836/D. Participa como estudante do grupo de pesquisa do CNPQ Recursos Hídricos, Ecotoxicologia e Tecnologias Ambientais, do(a) Universidade Brasil e do grupo pesquisa do CNPQ Saúde Única em Foco, da Universidade Brasil. Docente do Curso de Sistemas de Informação da Universidade do Estado de Minas Gerais (UEMG) - Campus Frutal/MG.

Ivan José dos Reis Filho, Universidade do Estado de Minas Gerais-UEMG

Doutor em Ciências de Computação pelo Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP-São Carlos), mestre em Ciências da Computação pela Universidade Federal de São Carlos - UFSCar, graduado em Sistemas de Informação pela Universidade do Estado de Minas Gerais - UEMG, docente adjunto do Departamento de Ciências, Exatas e da Terra da Universidade do Estado de Minas Gerais - UEMG - Unidade Frutal. Atua como coordenador do curso de Sistemas de Informação e do Núcleo de Práticas em Sistemas de Informação (NUPSI). Tem experiência na área de processamento de imagens, reconhecimento de padrões e gestão do conhecimento. Atualmente, trabalha na área de Ciências da Computação, com ênfase em Inteligência Artificial, atuando principalmente nos temas relacionados com Mineração de Textos, Mineração de Eventos e Representações de Séries Temporais Semanticamente Enriquecidas.

Referências

AGGARWAL, C. C. Data Classification: Algorithms and Applications. 1. ed. [S.l.]: Chapman & Hall/CRC, 2014.

AGGARWAL, C. C. Mining text data. In: SPRINGER. Data mining. [S.l.], 2015. p. 429–455.

AGGARWAL, C. Machine Learning for Text. 1st. ed. United States: Springer Publishing Company, Incorporated, 2018.

ARAUJO, A. et al. From bag-of-words to pre-trained neural language models: Improving automatic classification of app reviews for requirements engineering. In: SBC. Anais do XVII Encontro Nacional de Inteligência Artificial e Computacional. [S.l.], 2020. p. 378–389. Disponível em:https://sol.sbc.org.br/index.php/eniac/article/view/12144. Acesso em: 26 ago. 2023.

ARAUJO, A. et al. Opinion mining for app reviews: an analysis of textual representation and predictive models. Automated Software Engineering, Springer, v. 29, n. 1, p. 1–30, 2022. Disponível em:https://doi.org/10.1007/s10515-021-00301-1. Acesso em: 26 ago. 2023.

DEVLIN, J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. Disponível em: https://doi.org/10.48550/arXiv.1810.04805. Acesso em: 26 ago. 2023.

FILHO, I. J. et al. Sequential short-text classification from multiple textual representations with weak supervision. In: Brazilian Conference on Intelligent Systems. Cham: Springer International Publishing, 2022. p. 165-179. Disponível em: https://link.springer.com/chapter/10.1007/978-3-031-21686-2_12. Acesso em: 27 ago. 2023.

JANEV, V. et al. Knowledge graphs and big data processing. Cham-Suíça: Springer Nature, 2020. Disponível em: https://link.springer.com/book/10.1007/978-3-030-53199-7. Acesso em: 27 ago. 2023.

KILANI, N. A. et al. Automatic classification of apps reviews for requirement engineering: Exploring the customers need from healthcare applications. In: IEEE. 2019 sixth international conference on social networks analysis, management and security (SNAMS), Granada, Spain, 2019, pp. 541-548. Disponível em: https://ieeexplore.ieee.org/document/8931820. Acesso em: 27 ago. 2023.

LIU, Z. et al. A robustly optimized BERT pre-training approach with post-training. In: China National Conference on Chinese Computational Linguistics. Cham-Suiça: Springer International Publishing, 2021. p. 471-484. Disponível em: https://link.springer.com/chapter/10.1007/978-3-030-84186-7_31. Acesso em: 27 ago. 2023.

MIKOLOV, T. et al. Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, v. 26, 2013. Disponível em: https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf. Acesso em: 27 ago. 2023.

PEDREGOSA, F. et al. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, v. 12, p. 2825–2830, 2011. Disponível em: https://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf?ref=https:/. Acesso em: 27 ago. 2023.

REZENDE, S. O. et al. Mineração de dados. In: REZENDE, S. O. (Org.). Sistemas Inteligentes: Fundamentos e Aplicações. Barueri-SP: Manole, 1ª edição, 2003. Cap. 12, p. 307–335.

ROSSI, R. G.; MARCACINI, R. M.; REZENDE, S. O. Benchmarking text collections for classification and clustering tasks. São Carlos-SP: Instituto de Ciências Matemáticas e de Computação-IMC2, Icmc Technical Report n° 393, 2013. Disponível em:https://repositorio.usp.br/bitstreams/342060e9-eebc-4530-8074-bd60bb8b125e. Acesso em: 27 ago. 2023.

SANH, V. et al. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, Cornell University, 2019. Disponível em: https://arxiv.org/abs/1910.01108. Acesso em: 27 ago. 2023.

SINOARA, R. A. et al. Knowledge-enhanced document embeddings for text classification. Knowledge-Based Systems, Elsevier, v. 163, p. 955–971, 2019. Disponível em: https://doi.org/10.1016/j.knosys.2018.10.026. Acesso em: 27 ago. 2023.

SIONARA, R. A. Aspectos semânticos na representação de textos para classificação automática. Tese (Doutorado Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional-PPG/CCMC) - Universidade de São Paulo-USP São Carlos, 2018. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10102018-143520/publico/RobertaAkemiSinoara_revisada.pdf. Acesso em: 27 ago. 2023.

TURNEY, P. D.; PANTEL, P. From frequency to meaning: Vector space models of semantics. Journal of artificial intelligence research, v. 37, p. 141–188, 2010. Disponível em: https://doi.org/10.1613/jair.2934. Acesso em: 27 ago. 2023.

Downloads

Publicado

2023-09-05