Informática: Conceitos básicos de Datamining e Datawarehouse




Descoberta em Bases de Conhecimento (ou Knowledge Discovery in Databases - KDD) é um nome de um conjunto de processos dentro da Inteligência Artificial, cujo objetivo é a descoberta de conhecimento em uma grande massa de dados. Em geral, na maior parte das organizações não acadêmicas,  o processo de KDD está incluída em um ciclo de processos maior conhecido como Inteligência do Negócio (Business Intelligence - BI) cujo objetivo é permitir extrair informações para tomada de decisão nas empresas. Ainda que um processo de KDD não esteja diretamente associada a um Data Warehouse, na maioria dos casos as duas técnicas são utilizadas por fornecer um cenário consistente para análise, por isto devemos entender ambos os conceitos.

DataWarehousing

Data Warehouse ou Repositório de Dados, é definido como uma coleção de dados que contém todos os dados da organização, orientada a assunto, centralizada, não volátil e organizada de forma a extrair relatórios e informações gerenciais para apoio à decisão através de sistemas apropriados. Há uma diferença sutil com o termo Data Warehousing que é definido como um conjunto de tecnologias e componentes visando a efetiva integração das bases de dados operacionais em um ambiente que possibilite a produção e uso de informação estratégica para a tomada de decisão.Nesta estrutura, a primeira parte corresponde ao conjunto de dados originais provenientes de diversas fontes heterogêneas (bancos de dados comuns, arquivos e outras fontes de dados). Este componente é chamado de “Dados Operacionais”, pois estes dados são oriundos de sistemas existentes em níveis operacionais. São considerados sistemas de níveis operacionais ou Online Transaction Processing (OLTP), os sistemas que registram os detalhes das transações ocorridas dentro da organização .O segundo componente da arquitetura, denominado “Processo de Carga”, compreende um conjunto de procedimentos complexos para extração, limpeza, transformação e integração dos dados de suas fontes originais para sua posterior inclusão em um formato apropriado no repositório de dados denominado “Data Warehouse”. Sendo o processo de maior custo de processamento e tecnologia no processo de Data Warehousing, muitos procedimentos podem ser simplificados com o uso de ferramentas disponíveis no mercado destinadas a esta finalidade, as quais são denominadas ferramentas Extracting, Transforming and Loading (ETL).O terceiro componente da arquitetura, o “Data Warehouse”, corresponde ao repositório de dados. Os dados contidos neste repositório são armazenados num modelo conveniente para produção de informação gerencial. Existem diversos paradigmas de modelagem de um DW, entre os quais o mais conhecido é o modelo Dimensional. Este modelo é composto por uma tabela central, denominada “fato”, e um conjunto de tabelas periféricas (denominadas “dimensões”), as quais são ligadas à tabela fato. Esta conexão é, em geral, feita através do uso de Junções (joins). Este modelo cria de forma abstrata um cubo de dados que consiste numa maneira intuitiva de organizar os dados de forma a permitir desempenho em consultas mais eficientes do que no modelo de dados relacional .Um componente relacionado à  arquitetura Data Warehousing são as “Ferramentas OLAP”, que correspondem às técnicas e ferramentas para análise dos dados online e extração de informação útil ao processo de tomada de decisão. Trata-se da interface que possibilita o usuário interagir com o DW, visualizando relatórios e análises sofisticadas. As ferramentas OLAP contêm um conjunto de exibições – entre elas: drill- down, slice-dice, gráficos e resumos – que viabilizam a realização de análises detalhadas das informações.O último componente da arquitetura, denominado “Metadados”, consiste em um amplo dicionário de dados para auxiliar e documentar o processo de carga, bem como, auxiliar no processo de extração de informações analíticas. Uma vez que as descrições estão contidas nos Metadados, estas facilitam e padronizam a elaboração de consultas e relatórios pelo usuário final .

Processo de KDD

Os processos de KDD variam de acordo com a metodologia utilizada pela organização, mas em geral é constituída de 7 passos:
  • Limpeza dos Dados – remoção de ruídos e inconsistências que alterem de alguma forma a integridade dos dados;
  • Integração dos Dados – os dados de múltiplas fontes heterogêneas são unificados e padronizados, removendo-se duplicidades, de forma a desenvolver uma base de dados única (em geral, um DW).
  • Seleção dos Dados – são determinados os campos convenientes para a análise necessária e os dados associados recuperados da base de dados;
  • Transformação dos Dados – os dados selecionados são estruturados de forma a facilitar as operações de mineração;
  • Mineração dos Dados (Data Mining) – aplicação de algoritmos computacionais sobre os dados selecionados com o intuito de detectar e extrair padrões e comportamentos entre estes dados.
  • Avaliação de Padrões – análise e verificação dos padrões e comportamentos obtidos de modo a determinar se estes padrões e comportamentos são consistentes e se adequam às necessidades organizacionais.
  • Representação de Conhecimento – uso de técnicas e interfaces de visualização e de representação de conhecimento para converter os padrões e comportamentos obtidos da mineração de dados para o usuário final.

As etapas de 1 a 4 constituem diferentes formas de pré-processamento dos dados, nas quais os dados são preparados para a etapa de mineração (etapa 5) e posterior análise e retorno ao usuário (etapas 6 e 7, respectivamente). As etapas 1 a 4 são intimamente ligadas às etapas de construção de um DW, ainda que a base de mineração não necessite estar depositada em um DW, é recomendado o seu uso em um processo de KDD. É importante definir que não existe (ainda) uma ferramenta única que trate todo o processo de KDD. Em geral, os desenvolvedores utilizam um conjunto de ferramentas do mercado ou de desenvolvimento próprio para trabalhar cada etapa.

Mineração de Dados

Mineração de Dados (ou em inglês, Data Mining) é o nome dado à exploração e à análise, de modo automático ou semi-automático, de grandes bases de dados, com o objetivo de descobrir padrões e regras significativos para tomada de decisão. No modelo anterior, ele ocupa a etapa 5 de análise.Seu desenvolvimento e uso decorrem do aumento da capacidade e armazenamento de dados com a popularização dos sistemas informatizados, o que torna dificultosa, e por vezes inviável, a análise humana consistente de uma grande quantidade de informações. O processo de MD utiliza diversas técnicas estatísticas e da Inteligência Artificial (como árvores neurais, tabelas de decisão e outros recursos - o que confere à MD o status de inteligente), selecionadas e escolhidas de acordo com a conveniência do usuário, organização e área da aplicação. Em geral, estas técnicas são agrupadas nas seguintes atividades:
  • Previsão: estabelecido um determinado item e um modelo específico, pode-se prever com alguma exatidão o comportamento futuro do item ou de itens semelhantes;
  • Regressão: estabelecido um conjunto de itens, verifica-se a dependência entre os valores de atributos, e determina-se os elementos originais que compõem o conjunto;
  • Classificação: estabelecido um conjunto de itens, verifica-se como estes podem ser particionados em diferentes classes ou categorias pré-estabelecidas;
  • Agrupamento: estabelecido um conjunto de itens, determina-se um conjunto de classes, nos quais os itens são agrupados de acordo com suas características;
  • Associação: estabelecido um conjunto de itens, identifica-se os relacionamentos existentes entre os atributos destes itens.



Procurando mais conteúdos ? Utilize o campo de busca abaixo



Recomendado para vc



Leia +



Você também deveria ler


Downloads Úteis: Adobe Acrobat PDF - VLC - Music and Video



O conteúdo da Revista Brasileira de Web é licenciado sob uma Licença Creative Commons Atribuição 3.0 Brasil, exceto quando especificado claramente em contrário. Este é um site de conteúdos diversos e dicas gerais e não substitui a consultoria de um profissional devidamente qualificado. Isto significa que os assuntos aqui abordados possuem caráter geral e podem não ser adequados no seu caso. Leia nossos Termos de Uso e Privacidade.

close
Facebook IconTwitter IconVisit Our Blog