segunda-feira, 13 de fevereiro de 2012

Data Mining: Introdução e Prática


Por esta altura, você provavelmente já ouviu falar bastante sobre a mineração de dados - a indústria mais recente do chavão do banco de dados. Para usar uma analogia simples, é encontrar a famosa agulha no palheiro. Neste caso, a agulha é que peça única de inteligência e suas necessidades de negócios do palheiro é o grande armazém de dados que você acumulou durante um longo período de tempo.

Ao pé da letra, Data Mining é uma mineração de dados, uma análise projetada com o objetivo de vasculhar uma grande quantidade de dados. Na maioria das vezes, são dados relacionados a negócios, empresas, mercado e pesquisas científicas. O Data Mining busca padronizar sistemas e subconjuntos de dados. Segue quatro etapas básicas:
  • Exploração
  • Construção de modelo
  • Definição de padrão
  • Validação e verificação

Popularmente, o Data Mining tem sido considerado uma ferramenta de gerenciamento de informação utilizada no intuito de facilitar o acesso e a organização às estruturas de conhecimento que auxiliem em decisões de trabalho. Na prática é uma análise de dados exploratórios e de modelagem.

O Data Mining integra o KDD (Knowledge Discovery in Database) , processo de conhecimento de estruturação de dados.  O Data Mining extrai informações válidas , abrangentes e até mesmo desconhecidas de uma ampla base de dados. Não é apenas uma consulta de banco de dados, pois permite a exploração e a inferência de informação. Utiliza técnicas diferenciadas em redes neurais, evidenciando informações para uma rede hierárquica de decisão e sistemas estatísticos. A busca, muitas vezes, é interativa possibilitando a revisão dos resultados pelos analistas responsáveis em Data Mining. O objetivo é formatar novos conjuntos informação refinada retirada de um banco de dados geral. Após o refino das informações é realizado uma realimentação do sistema seguindo novos parâmetros.


Dentre as etapas mais aprofundadas do Data Mining, podemos elucidar as seguintes:

Análise do problema
O processo de análise inicia a partir de um objetivo de busca, seguindo um determinado conhecimento; o principal objetivo é a possibilidade de  selecionar os dados e definir as técnicas  utilizadas na análise.

Preparação dos Dados
A preparação consiste em fases internas de coletânea de dados, avaliação, consolidação e limpeza, seleção dos dados e transformação.

  • Coletânea de dados: Dados provindos de diversas fontes internas ou externas, como por exemplo de cartão de crédito;
  • Avaliação: Exame sobre os dados colhidos com o objetivo de identificar características do modelo da cada informação.
  • Consolidação e limpeza: Construção de base de dados a partir de correções de erros, remoção de registros e inserção de valores comuns em campos vazios.
  • Seleção de dados: É a seleção de dados específicos para cada modelo de dado, como a seleção de variáveis em colunas ou dependentes.
  • Transformação: Ferramenta escolhida para redirecionar a apresentação dos dados.


Modelagem
Definição de tarefas e técnicas utilizadas sobre a ação de cada algoritmo, etapa que gera um modelo a ser analisado posteriormente.

Análise e validação de resultados
Considerando que um modelo válido nem sempre é um modelo correto, visa detectar o que há de implícito num modelo, e o que nele é mais peculiar na precisão de uma informação.

Agora você se pergunta onde Data Mining é aplicado. Veja dois exemplos práticos:

Walmart - Embora recente, a história da mineração de dados já tem casos bem conhecidos. O mais divulgado é o da cadeia estado-unidense Wal-Mart, que identificou um hábito curioso dos consumidores. Ao procurar eventuais relações entre o volume de vendas e os dias da semana, o software apontou que, às sextas-feiras, as vendas de cervejas cresciam na mesma proporção que as de fraldas. Crianças bebendo cerveja? Não. Uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais aproveitavam para abastecer as reservas de cerveja para o final de semana.

Vestibular PUC-RJ - Utilizando as técnicas da mineração de dados, um programa de obtenção de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato é do sexo feminino, trabalha e teve aprovação com boas notas no vestibular, então não efetivava a matrícula. Estranho, ninguém havia pensado nisso. Mas uma reflexão justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas notas provavelmente foi aprovada na universidade pública onde efetivará matrícula. Claro que há exceções: pessoas que moram em frente à PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por outras razões que ter uma profissão, etc.. Mas a grande maioria obedece à regra anunciada.


Fonte: InfoEscola - Fernando Rebouças

Até breve com mais um Tecnologia em Foco
Sérgio Rodrigo de Abreu

Nenhum comentário:

Postar um comentário