Pareamento de Nomes de Produtos e Serviços Utilizando Medidas de Similaridade Textual nos Níveis Alfabético, Léxico e Semântico

Thiago Pereira Meirelles; Eduardo Corrêa Gonçalves; Daniel Takata Gomes

doi:10.12957/cadinf.2021.68557

Autores

Thiago Pereira Meirelles Escola Nacional de Ciências Estatísticas (ENCE/IBGE)
Eduardo Corrêa Gonçalves Escola Nacional de Ciências Estatísticas (ENCE/IBGE)
Daniel Takata Gomes Escola Nacional de Ciências Estatísticas (ENCE/IBGE)

DOI:

https://doi.org/10.12957/cadinf.2021.68557

Resumo

O pareamento de textos é a tarefa de escolher, dentre um conjunto de textos possíveis, qual deles faz menção a um mesmo conceito ou objeto que outro determinado texto de entrada faz. Baseando-se em medidas de similaridade textual que atuam nos níveis alfabético, léxico e semântico, este trabalho compara a performance de estratégias automatizadas de pareamento que utilizam tais medidas de forma separada ou combinada. Essa performance foi avaliada através de experimento que consistiu no pareamento de descrições de produtos e serviços obtidos dos questionários de duas pesquisas do Instituto Brasileiro de Geografia e Estatística (IBGE): Pesquisa de Orçamentos Familiares (POF) e Índices de Preços do Consumidor (IPC). Em consonância com o observado em outros trabalhos, uma estratégia que combina medidas de similaridade diferentes, que atuam nos três níveis mencionados, obteve melhor performance, realizando um maior número de pareamentos corretos, quando comparada a estratégias que empregam apenas uma das medidas isoladamente. Uma investigação dos pareamentos incorretos produzidos pelas melhores estratégias foi feita com os objetivos de categorizar tipos de erros e propor abordagens adicionais que melhorem a acurácia.

Downloads

Não há dados estatísticos.

Pareamento de Nomes de Produtos e Serviços Utilizando Medidas de Similaridade Textual nos Níveis Alfabético, Léxico e Semântico

Autores

DOI:

Resumo

Downloads

Downloads

Publicado

Como Citar

Edição

Seção

Enviar Submissão

Informações