Sabe o que é uma DataWarehouse?
Por David Soares para o Pplware. Uma Data Warehouse é um sistema que visa responder às questões relativas à gestão de uma Base de Dados. Embora muito relacionadas as bases de dados com as data warehouses, têm um funcionamento diferente, pois enquanto numa base de dados são inseridos dados/registos, a Data Warehouse vai extrair esses dados, organizando-os, de modo a responder a questões previamente programadas. Os dados extraídos devem ser facilmente perceptíveis e credíveis, pois estes dados poderão ter influência na gestão de uma empresa.
A construção de uma Data Warehouse é constituída por 4 fases:
1) Identificar os processos de negócio/actividade;
2) Escolher a granularidade dos dados a registar.
3) Identificar dimensões;
4) Identificar os factos;
É muito importante para quem faz uma Data Warehouse saber quem vai usar este sistema e para que fins. Quando falamos do “quem vai usar este sistema”, não nos devemos referir apenas a um departamento organizacional de uma empresa, mas sim a toda a empresa, de modo a que os dados seleccionados não se venham a repetir. Daí ser muito importante identificar os processos de negócio/actividade, pois é nesta fase que serão criadas as questões que a Data Warehouse irá responder posteriormente e se faltarem questões, também vão faltar respostas.
Quando escolhemos a granularidade, estamos a ir ao máximo detalhe possível. Por exemplo, vamos supor que queremos responder apenas a duas questões: Quantos produtos foram vendidos num dia? Quantos produtos foram vendidos num mês? A nossa granularidade seria Produto x Dia, pois é o nível de detalhe que estas duas questões exigem.
As dimensões representam todas as possíveis descrições que tomam valores singulares no contexto de cada medida, ou seja, todas as possibilidades verificadas nas questões, estarão descritas nas dimensões, que por sua vez, estarão ligados à tabela de factos. Cada dimensão é criada conforme os dados existente na granularidade. Pegando no exemplo anterior, a Data Warehouse teria duas dimensões, a do Tempo e dos Produtos.
É a tabela de factos que nos vai dar os dados necessários para responder às questões solicitadas. Esta tabela é composta por dados que sejam numéricos e aditivos. Continuando com o exemplo anterior, um atributo possível para esta tabela de factos seria: quantidade vendida.
Este artigo tem mais de um ano
já somos importantes, já escrevemos artigos no pplware
é que é mesmo….
É de louvar os que realmente tomam a iniciativa de contribuir neste website, no entanto devem-no fazer com qualidade e não apenas para “inglês ver”.
Para quem não sabe Datawarehouse é material para pelo menos uma disciplina de um semestre na univ, tem muita coisa, mas este artigo pouco fala, o que é triste.
Para a proxima tentem dar um exemplo prático (com código) e explicar o que se está a fazer e qual a diferença entre isto e uma Base de Dados “normal”.
“enquanto numa base de dados são inseridos dados/registos, a Data Warehouse vai extrair esses dados, organizando-os, de modo a responder a questões previamente programadas”
Tens aqui uma diferença.
Este artigo foi apenas para dar uma pequena ideia, se fosse para explicar tudo, achas que uma página chegaria?
O Artigo está muito bom,
Afinal o que queria que escrevessem??
Um livro??
A materia na minha opnião está muito boa, pelo menos o conceito foi passado, e esse é o importante.
Podes começar.. a tua contribuição é bem vinda…
Data Warehouse é macho!
Parabéns pelo artigo, em relação à matéria de questão, está 5 estrelas, dá para aprender alguma coisa pelo menos para a frequência xD
Parabéns pelo artigo.
O Data Warehouse é cada vez mais uma “arma” para as grandes empresas de forma a conseguirem prever o futuro e anteciparem-se à concorrência.
Acima do Data Ware House temos o Data Mining que tenta encontrar padrões em todos os dados fornecidos pelo DW.
Fica aqui um exemplo, o Modelo e Continente tem um sistema destes, na análise feita a todos os dados, eles puderam encontrar um destes padrões nas vendas: fraldas para bebé e cerveja eram vendidos muito em conjunto.
Então através deste padrão tentam optimizar as vendas e nos corredores dos hipermercados aproximam estes produtos. Não é por acaso que vemos, junto da zona de churrascos (take-away) pacotes de batatas fritas…
Tudo isto tem uma lógica por trás e algumas ferramentas utilizadas são os Data WareHouses e Data Mining.
Cumprimentos.
Não só o artigo me aportou conhecimento como o teu próprio comentário prosseguiu nesse sentido…lá está, não é por acaso que sou leitor assíduo do pplware… e também não é por acaso que gosto de ler os comentários pois, normalmente dão um acréscimo de informação em relação ao assunto abordado.
Fiquem bem
Obrigado Manuelito.
Cumprimentos.
Concordo plenamente contigo!
Estive a ler o artigo e os vossos comentários e estou a rever o meu trabalho diário…
É verdade que conceitos como Data Warehouse ou Data Mining dava para escrever dois ou três livros, mas na minha opinião acho que o artigo está bem conseguido. É o início para quem é a primeira vez que ouve a palavra, agora começa a pesquisa.
Olá
Mr.UBUNTU,
A das fraldas e da cerveja… LOL é o exemplo mais conhecido, e um pouco como mito, mas não foi nem o modelo nem o continente que descobriram isso…
Foi da cadeia WAL-MART nos EUA
Beer and Nappies — A Data Mining Urban Legend
http://web.onetel.net.uk/~hibou/Beer%20and%20Nappies.html
Não te querendo tirar o mérito, que o teu comentário complementa perfeitamente o artigo.
Em relação aos comentários de quem diz que o artigo é fraco e queria saber tudo de DW num artigo LOOOOOOOL.
Comecem por aqui, que já tem 1 ideia, e mandem vir biblias…
Cumprimentos,
VS
As pessoas só vêem aquilo que querem ver…acho que o artigo está muito explicito!
Continua…
Belo artigo…
Digno de um engenheiro…
OffTopic:
será que o Twitter vai mesmo acabar?
http://sol.sapo.pt/PaginaInicial/Tecnologia/Interior.aspx?content_id=138253
Parece que já passou o número da morte do Twitter e o meu continua sem problemas… Mais uma profecia daquelas boas. 🙂
Parabéns!
Se no outro dia “critiquei” um artigo mais tecnico devido ao publico alvo, neste tenho de dar os parabens pelo artigo. Pretendeu-se dar apenas conhecer o mundo dos Data Warehouse. De forma simples explica-se mais ou menos os fundamentos. Estas devem ser as permissas para um artigo de divulgação. Por isso, MUITOS PARABENS
Já agora, Não vendam essa das fraldas e cerveja como um exemplo do Modelo/Continente que as pessoas ainda acreditam que foi mesmo nessa cadeia. Esse é o exemplo mais vais citado nos artigos de Data mining
Sérgio,
Data mining é um tema batido em Engenharia Informática, e sei que é um dos exemplos mais apontados.
Se dei o exemplo é porque falo do que sei, porque outro motivo iria referenciar esta cadeia?
Cumprimentos.
porque esse exemplo é batido e rebatido. É o exemplo tipico que nos é dado para mostrar o poder dos data mining. Sei que agora vou falar de cor, mas, aposto que este mesmo exemplo é dado na china, nos USA ou na Itália. Por exemplo, na minha cadeira de mestrado foi me dado como um exemplo daquelas lojas género M24. Mas, tb, já o vi noutros contextos.
Mas
sorry carreguei sem querer numa tecla e postou antes de terminar.
Mas, o que interessa é a essencia da mensagem e não onde se passou
Off-topic:
desculpem lá mas alguém sabe como se faz “reset” no contador de ID numa base de dados em access? E como é que se faz para ele não estar sempre a aumentar o numero do ID, tipo, tou a inserir um dado, mas a meio do processo vejo que aquele dado não interessa e por isso cliclo ESC em vez de ENTER para anular aquela entrada, mas mesmo assim akele numero de ID fica logo com “usado” para o programa e na proxima entrada vai-me dar o numero seguinte…
On-topic: Muito bom o artigo. Mesmo para um leigo na matéria deu para perceber as linhas gerais. E obrigado a quem deu o exemplo das batatas fritas. Esclarecido!
O artigo está bom, só falta mesmo um exemplo, o tipico das fraldas e da cerveja.
De resto um pequeno à parte é que estamos a falar de UM DataWarehouse (armazém de dados) é masculino.
Cumps, e parabéns pelo artigo
Bom post e bom comentário do Mr. Ubuntu…acrescentando conhecimentos!
Boas david gostei da definiçao de Data Warehouse. Foste ao ponto certo e é o resumo muito sucinto e directo da nossa cadeira de bd2.
Em relação aquele senhor de nome a que comentou a noticia a dizer que isto é bonito mas sem um exemplo nao vale nada, a mim cheira-me “o senhor” queria arranjar maneira de dizer mal acerca disto. Daquelas tentivas falhadas…..hmmmm…lembro-me de 1 ou 2 pessoas assim.
Lembras-te david ? 😀
Engenheiro Talk:
O problema das dws é o carregamento da tabelas dos factos, pois devido as inumeras operaçaoes que as vezes queremos fazer para os nosso campos isso exige 1 de 2 coisas:
a) Muito conhecimento de sql, para fazer um carregamento directo
b) Um cursor para efectuar as tais operaçoes, linha a linha
Claro que a alinea a) é preferível.
Mas isto já sou eu a mandar bitaites….eu tambem estudei no mesmo sitio que esse senhor David Soares e com muito gosto o tenho como amigo. 😉 E esta cadeira foi uma das minhas favoritas, bom professor, boa matéria, rivalidades galácticas, o normal 😉
Abraço malta do IPGuarda 😉 Ainda conquistamos o espaço a partir da terra ? ou já temos alguma base lunar? 😀
Se me lembro… e ainda me vão lembrando 😉
boa materia, uso o DW da Oracle Hyperion muito bom.
Sugestão para completar este post, porque vcs não falam um pouco das opcoes free de programas especificos de DW como o Pentaho e outros pagos como o Hyperion (oracle).
É uma boa ideia para um artigo futuro… 😉
@David,
Deixa-me dar-te em primeiro lugar as boas vindas ao pplware e espero que continues a produzir mais posts com a qualidade deste.Parabéns !!!. É sempre um prazer para o pplware termos posts escritos por leitores assíduos que depois passam a colaboradores.
Quanto as DW ainda me lembro de alguns exemplos que dei nas aulas..Dizia o professor…o Belmiro não tem de saber nada de base de dados, simplesmente tem de carregar num botão e ver uns. gráficos que lhe dão uma visão de negócio. É a partir desses gráficos que se desenvolvem políticas de negócio e markting. Por exemplo, vocês sabiam que para uma empresa colocar um produto num Hipermercado isso tem custos elevados? Depois ainda existem valores para a prateleira/corredor onde se quer colocar o produto.. Por norma, as prateleira que ficam ao nível dos olhos são as que as empresas têm de pagar mais para afixar os produtos… Por outro lado já deram conta que os produtos andam sempre a mudar de sítio, porque será??? Assim obriga que o cliente ande a procura do mesmo e que pelo caminho encontre outros produtos…
Como muitos de vocês disseram…isto dá pano para mangas…
Pedro Pinto
para mim?
tambem ja deu pano para mim 🙂 e era um pano que dava para uns cortinados 😉
Vou aproveitar para agradecer todos os “parabéns” por aqui escritos.
O meu muito obrigado..
Esta muito bom o artigo. E sempre bom ter artigos destes aqui no pplware.
David,
Muitos parabens pelo artigo. Duma forma simples, conseguiste explicar o conceito. Acho, no entando, que poderias ter referido o termo ETL, muito conhecido na implementação de um DW.
Cumps,
Helder
Trabalho na área seguramente com a maior data warehouse nacional.
O que constato nos 12 anos de experiênca que tenho na área é que em teoria tudo é muito bonito na prática a coisa pia de outra forma.
Experimentem cruzar tabelas de factos de 600.000.000 de registos com dimensões de análise e percebam quanto importante é a eficiência em termos de SQL ou a construção dos modelos dimensionais.
O datamining não está acima do data warehouse, é apenas uma forma de trabalhar/analisar os dados tal como a aplicações BRMS por exemplo. Mas julgo que o mais importante é sem dúvida ter a informação muito bem normalizada sem registos “soltos” que invalidem cruzamentos entre factos e dimensões, minimizar campos a null, etc. etc. Num data warehouse são os processos etl que garantem a fiabilidade da informação depois disponibilizada. As ferramentas de reporting (Business Objects, Microstrategy ou outros) quase fazem o trabalho de pesquisa sozinhas (embora também careçam de configuração).
Queria tirar uma duvida relativa a construção de uma data Warehouse, pode ser?
E como ja foi aqui falado varias vezes:
ETL – Extract, Transform, Load
E-Extrair dados de fontes externas
T-Transformar os dados de forma a estarem de acordo com as nossas necessidades
L- Carregar os dados transformados para um espaço final (base de dados ou data warehouse
Mais info:
http://en.wikipedia.org/wiki/Extract,_transform,_load
E das partes muito importantes. E como disse o anterior post do XPTO, quando as tabelas que temos de cruzar sao enormes, a coisa complica-se.
XPTO penso que usar cursores nesse caso para o ETL está completamente fora de questao. Antes criar tabelas temporarias para efectuar algumas operaçoes do que usar um cursor para as percorrer 😉
Abraço,
Hugo Cabral
Muitos parabéns pelo artigo.
Eu comecei a trabalhar num Data Warehouse à poucos meses, tendo como ferramenta SQLServer. Ultimamente tenho estado a “brincar” com Analysis Services que basicamente agrega dados a partir de dimensões e factos, criar indicadores de desempenho e data mining.
Já agora se me for permitido fazer publicidade de um evento académico que está relacionado com o tema. É um evento acerca de Business Inteligence que é organizada todos os anos (este ano é a 6ª edição) que tem como lugar na Universidade Autónoma de Lisboa. Deixo aqui site para possíveis interessados em participar no evento.
http://dct.ual.pt/biw/
Belo artigo. Muitos Parabens Sr. Engenheiro.