RECUPERAÇÃO DA INFORMAÇÃO E A IMPORTÂNCIA DO PRÉ-PROCESSAMENTO

Autores

  • Alex Marino Gonçalves de Almeida Faculdade de Tecnologia de Ourinhos-FATEC
  • Natália Aparecida Beirão Leite Faculdade de Tecnologia de Ourinhos-FATEC
  • Natália Aparecida Beirão Leite Faculdade de Tecnologia de Ourinhos-FATEC
  • Ricardo Fabrício Ramos Faculdade de Tecnologia de Ourinhos-FATEC
  • Ricardo Fabrício Ramos Faculdade de Tecnologia de Ourinhos-FATEC

Resumo

A categorização de documentos consiste na classificação dos mesmos em uma ou mais categorias existentes, de acordo com os assuntos ou conceitos presentes em seus conteúdos. A aplicação mais comum da categorização de documentos é a indexação de documentos para os Sistemas de Recuperação de Informação visando uma melhor recuperação destes documentos. Porém, são também utilizados na categorização de mensagens e notícias. Para que a classificação seja realizada de forma satisfatória é necessário que os documentos a serem classificados passem por um processo de estruturação, determinado pré-processamento, a fim de otimizar seu conteúdo para análise dos algoritmos classificadores. A finalidade deste trabalho é demonstrar, por meio de experimentos, a importância do pré-processamento na categorização de documentos, uma vez que este influencia diretamente nos resultados classificadores. Para isto foram realizadas análises de um conjunto de documentos com as ferramentas Statistica12 para o pré-processamento e Weka para a classificação. A importância do pré-processamento foi determinada com análise dos resultados obtidos por meios dos algoritmos classificadores SMO, Naive Bayes e J48.

Biografia do Autor

Alex Marino Gonçalves de Almeida, Faculdade de Tecnologia de Ourinhos-FATEC

Possui graduação em Processamento de Dados pelo Centro Estadual de Educação Tecnológica Paula Souza(1999) e mestrado em Ciência da Computação pela Universidade Estadual de Londrina(2016). Atualmente é Professor Associado do Centro Estadual de Educação Tecnológica Paula Souza. Tem experiência na área de Ciência da Computação, com ênfase em Metodologia e Técnicas da Computação. Atuando principalmente nos seguintes temas:Inteligencia Computacional, Reconhecimento de Padrão, Aprendizado de Máquina. (Texto gerado automaticamente pela aplicação CVLattes)

Natália Aparecida Beirão Leite, Faculdade de Tecnologia de Ourinhos-FATEC

Graduada em Segurança da Informação pela Faculdade de Tecnologia de Ourinhos-FATEC

Natália Aparecida Beirão Leite, Faculdade de Tecnologia de Ourinhos-FATEC

Graduada em Segurança da Informação pela Faculdade de Tecnologia de Ourinhos-FATEC

Ricardo Fabrício Ramos, Faculdade de Tecnologia de Ourinhos-FATEC

Graduado em Segurança da Informação pela Faculdade de Tecnologia de Ourinhos-FATEC

Ricardo Fabrício Ramos, Faculdade de Tecnologia de Ourinhos-FATEC

Graduado em Segurança da Informação pela Faculdade de Tecnologia de Ourinhos-FATEC

Referências

ANACLETO, A. C. da S. Aplicação de técnicas de data mining em extração de elementos de documentos comerciais. 107 p. Dissertação (Análise de Dados e Sistemas de Apoio à Decisão) - Universidade do Porto, Porto - PT, 2009.

BAEZA-YATES, R. et al. Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. 2. ed. [S.l.]: Porto Alegre: Bookman, 2012. 614 p.

BERNARDES, J. A. B. Algoritmo de aprendizado de máquina e representação de incerteza em sistemas baseados em conhecimento sob a ótica de funções de pertinência aproximada. 108 p. Monografia (Monografia) — Universidade Federal de Lavras, Lavras - MG, 2010.

BRILHADORI, M. et al. Estudo comparativo entre algoritmos de árvores de classificação e máquinas de vetores suporte, baseados em ensembles de classificadores. Universidade de São Paulo, p. 109, 2013.

CAMARGO, S. da S. Um modelo neural de aprimoramento progressivo para reducão de dimensionalidade. 107 p. Tese (Doutorado em Ciência da Computação) — Universidade Federal do Rio Grande do Sul, Porto Alegre -RS, 2010. Citado na página 21.

CARVALHO, A. de et al. Inteligência artificial: uma abordagem de aprendizado de máquina. 1. ed. [S.l.]: São Paulo: Grupo Gen LTC, 2011. 394 p. Citado 2 vezes nas páginas 18 e 19.

CONCEIÇÃO, A. W. Um sistema voltado ao armazenamento e recuperação de conteúdo textual de dierentes contextos. 61 p. Monografia (Monografia) - Universidade Federal de Santa Catarina, Araranguá - SC, 2013.

CONDUTA, B. C.; MAGRIN, D. H. Aprendizagem de Máquina. 19 p. Tese (Doutorado) - Universidade Estadual de Campinas, Campinas - SP, 2010.

EBECKEN, N. F. et al. Mineração de textos. Sistemas inteligentes: fundamentos e aplicações. São Carlos: Manole, p. 337–370, 2003.

GEVERT, V. G. et al. Análise de crédito bancário utilizando o algoritmo sequential minimal optimisation. XLI Simpósio Brasileiro de Pesquisa Operacional, p. 2242–2253, 2009.

GOMES, R. M. Desambiguação de Sentido de Palavras Dirigida por Técnicas de Agrupamento sob o Enfoque da Mineração de Textos. 119 p. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Pontifica Católica, Rio de Janeiro - RJ, 2009.

HAN, J.; KAMBER, M.; PEI, J. Data mining, southeast asia edition: Concepts and techniques. 2. ed. [S.l.]: Morgan kaufmann, 2006.

JOHN, G. H.; LANGLEY, P. Estimating continuous distributions in Bayesian classifiers. In: MORGAN KAUFMANN PUBLISHERS INC. Proceedings of the Eleventh conference on Uncertainty in artificial intelligence. [S.l.], 1995. p. 338–345.

JUNIOR, J. R. C. Desenvolvimento de uma Metodologia para Mineração de Textos. 96 p. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Pontifica Católica, Rio de Janeiro - RJ, 2007.

LOPES, M. C. S. Mineração de Dados Textuais Utilizando Técnicas de Clustering para o Idioma Português. 180 p. Tese (Doutorado em Engenharia Civil) - Universidade Federal do Rio de Janeiro, Rio de Janeiro - RJ, 2004.

MARTINS, S. G. O processo de indexação e sua relação com a linguística: uma revisão literária. 41 p. Monografia (Monografia) — Universidade Federal do Rio Grande do Norte, Natal - RN, 2009.

MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of machine learning. [S.l.]: MIT press, 2012.

OGURI, P. Aprendizado de máquina para o problema de Sentiment Classification. 54 p. Dissertação (Mestrado em Informática) - Universidade Pontifica Católica, Rio de Janeiro - RJ, 2006.

OLSON, D. L.; DELEN, D. Advanced data mining techniques. [S.l.]: Springer Science & Business Media, 2008.

PASSARIN, D. Text Mining no Aperfeiçoamento de Consultas e Definição de Contextos de uma Central de Notícias Baseada em RSS. 60 p. Monografia (Monografia) - Centro Universitário Luterano de Palmas, Palmas - TO, 2005.

PASSINI, M. L. C. Mineração de Textos para Organização de Documentos em Centrais de Atendimento. 105 p. Dissertação (Mestrado em Engenharia Civil) - Universidade Federal do Rio de Janeiro, Rio de Janeiro - RJ, 2012.

RODRIGUES, J. P. Sistemas inteligentes híbridos pra classificação de texto. 110 p. Dissertação (Mestrado) - Universidade Federal de Pernambuco, Recife - PE, 2009.

RONCERO valeriana G. Classificação semi-supervisionada de textos em ambientes distribuídos. 107 p. Tese (Doutorado em Engenharia Civil) - Universidade Federal do Rio de Janeiro, Rio de Janeiro - RJ, 2010.

SCHIESSL, J. M. Descoberta de Conhecimento em Texto aplicada a um sistema de atendimento ao consumidor. 106 p. Dissertação (Mestrado em Ciência da Informação) - Universidade de Brasília, Brasília - DF, 2007.

SILVA, C. F. da. Curso de Informações Linguísticas na etapa de pré-processamento em Mineração de Textos. 109 p. Dissertação (Mestrado em Computação Aplicada) - Universidade do Vale do Rio dos Sinos, São Leopoldo- RS, 2004.

SILVA, R. M. Redes neurais artificiais aplicadas à detecção de intrusão em redes TCP/IP. 144 p. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Pontifica Católica, Rio de Janeiro - RJ, 2005.

SOARES, F. A. Mineração de textos na Coleta Inteligente de Dados na Web. 120 p. Dissertação (Mestrado em Engenharia Elétrica) — Universidade Pontifica Católica, Rio de Janeiro - RJ, 2008.

SOUZA, J. L. de. Aplicando Técnicas de Aprendizado de Máquina em Planejamento. 101 p. Dissertação (Mestrado em Ciência da computação) - Universidade Federal de Uberlândia, Uberlândia - MG, 2014.

TAN, A.-H. et al. Text mining: The state of the art and the challenges. In: Proceedings of the PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases. [S.l.: s.n.], 1999. v. 8, p. 65–70.

VIERA, A. F. G.; VIRGIL, J. Uma revisão dos algoritmos de radicalização em língua portuguesa. Information Research, v. 12, n. 3, p. 8, 2006.

Downloads

Publicado

2019-08-05