Sistema Eletrônico de Administração de Conferências, VII CONNEPI - Congresso Norte Nordeste de Pesquisa e Inovação

Tamanho da fonte: 
Uma Abordagem Semântica para Detecção de Linhas Duplicadas em Banco de Dados
Priscilla Kelly Vieira

Última alteração: 2012-10-18

Resumo


A descoberta de conhecimento em bancos de dados é um processo não trivial de identificar em dados padrões que sejam válidos, novos, potencialmente úteis e compreensíveis, visando melhorar o entendimento de um problema ou um procedimento de tomada de decisão. Dentre as inúmeras etapas envolvidas neste processo, destacamos a de limpeza de dados, cujo objetivo principal é melhorar a qualidade dos dados de entrada e, assim, aumentar a qualidade do conhecimento obtido. A qualidade de dados pode ser aprimorada por meio de operações como detecção de dados duplicados, remoção de ruídos, manipulação de campos de dados ausentes, formatação de dados, entre outras. Este trabalho tem por objetivo propor uma abordagem semântica para detecção de linhas duplicadas em bancos de dados. Ontologias de domínio são utilizadas como recurso externo para tentar determinar o tipo de relacionamento semântico entre dados. Uma ferramenta que implementa a abordagem semântica proposta foi desenvolvida e experimentos foram realizados. 

Texto completo: PDF