Pareamento de Nomes de Produtos e Serviços Utilizando Medidas de Similaridade Textual nos Níveis Alfabético, Léxico e Semântico

Autores

  • Thiago Pereira Meirelles Escola Nacional de Ciências Estatísticas (ENCE/IBGE)
  • Eduardo Corrêa Gonçalves Escola Nacional de Ciências Estatísticas (ENCE/IBGE)
  • Daniel Takata Gomes Escola Nacional de Ciências Estatísticas (ENCE/IBGE)

DOI:

https://doi.org/10.12957/cadinf.2021.68557

Resumo

O pareamento de textos é a tarefa de escolher, dentre um conjunto de textos possíveis, qual deles faz menção a um mesmo conceito ou objeto que outro determinado texto de entrada faz. Baseando-se em medidas de similaridade textual que atuam nos níveis alfabético, léxico e semântico, este trabalho compara a performance de estratégias automatizadas de pareamento que utilizam tais medidas de forma separada ou combinada. Essa performance foi avaliada através de experimento que consistiu no pareamento de descrições de produtos e serviços obtidos dos questionários de duas pesquisas do Instituto Brasileiro de Geografia e Estatística (IBGE): Pesquisa de Orçamentos Familiares (POF) e Índices de Preços do Consumidor (IPC). Em consonância com o observado em outros trabalhos, uma estratégia que combina medidas de similaridade diferentes, que atuam nos três níveis mencionados, obteve melhor performance, realizando um maior número de pareamentos corretos, quando comparada a estratégias que empregam apenas uma das medidas isoladamente. Uma investigação dos pareamentos incorretos produzidos pelas melhores estratégias foi feita com os objetivos de categorizar tipos de erros e propor abordagens adicionais que melhorem a acurácia.

Downloads

Publicado

2022-06-28

Como Citar

Meirelles, T. P., Gonçalves, E. C., & Gomes, D. T. (2022). Pareamento de Nomes de Produtos e Serviços Utilizando Medidas de Similaridade Textual nos Níveis Alfabético, Léxico e Semântico. Cadernos Do IME - Série Informática, 46, 104–117. https://doi.org/10.12957/cadinf.2021.68557

Edição

Seção

Artigos