Informações do Trabalho
Titulo
PNETSCAN: UMA ABORDAGEM DE AGRUPAMENTO EM PARALELO PARA RESOLUÇÃO DE PROBLEMAS BIG DATA
Subtítulo
Autor
TALES LOPES SILVA
Orientador
VICTOR STROELE DE ANDRADE MENEZES
Resumo
Big Data é um termo referente à crescente emergência de dados que ocorre, de maneira contínua e simbólica, na atualidade. Em decorrência da maior disponibilidade de dados, é de interesse que existam pesquisas voltadas para o estudos de técnicas de mineração e análise de dados, responsáveis por extrair informação por dentre esse mundo de conteúdo, a respeito do domínio ao qual pertencem. Agrupamento (Clustering) são técnicas responsáveis por identificar grupos de dados com características semelhantes e oferecer resultados com base na quantidade e qualidade dos grupos encontrados. Dentre os algoritmos existentes destaca-se o DBSCAN, um algoritmo baseado em densidade, com a particularidade de conseguir identificar conjuntos de dados com formas bem definidas. NetSCAN, um algoritmo baseado no DBSCAN, foi desenvolvido para atuar em redes sociais, como é a base de pesquisadores DBLP, considerando especificidades de implementação como o bidirecionamento e a sobreposição de nós em grafos. Esse trabalho propõe e estuda estratégias relacionadas à otimização de algoritmos de agrupamento de dados. Uma heurística, proposta, desenvolvida e implementada, relaciona o particionamento do conjunto de dados com a união (\(merge\)) dos resultados parciais, obtidos pelo processo de agrupamento em paralelo, originando o PNetSCAN, uma abordagem paralela do NetSCAN. Os resultados, referentes aos experimentos realizados, confirmam a investigação literária. Uma melhora de, pelo menos, 25% no tempo total de processamento, foi obtida na aplicação do método proposto nesse trabalho.
Ano:
2018
Palavras-Chave
Big Data, Mineração de dados, Agrupamento, Clustering, Paralelismo, Particionamento, NetSCAN, PNetSCAN.
Obter PDF
Obter arquivos extras
Obter Bibtex