Wednesday, March 26, 2008

Datawarehouse

Conceptos básicos:

Data Warehouse:
Un "Data Warehouse" (almacén de datos, desde ahora "DWH") no es más que la estructuración de los datos originales de un sistema transaccional, y cualquier otra multitud de orígenes de datos (archivos de texto, hojas de cálculo, bases de datos independientes, etc.) en otro destinado a la consulta y el análisis de los datos.

Data Mart:
Se compone de un subconjunto de datos del DWH, usado normalmente para el análisis parcial de los datos globales. En una empresa con diversos departamentos (ventas, compras, almacén, facturación, etc.), cada uno de ellos dispondría de un datamart independiente, y el conjunto de todos ellos compondrían el DWH.

OLTP (Online Transaction Proccesing): Se les llama así a las aplicaciones orientadas principalmente a la inserción, actualización y eliminación de datos, diseñada casi siempre usando el modelo Relacional. Estos sistemas están optimizados para realizar operaciones DML ("data manipulation languaje") en un tiempo corto.

OLAP (Online Analitical Proccesing): Son los sistemas que se usan para analizar los datos que las OLTP introducen en la Base de Datos. A diferencia de los primeros estos casi siempre usan el modelo multidimensional para organizar los datos en la Base de Datos ya que brindan mejores resultados a la hora del análisis de estos.

Variables (Indicadores):
Llamados también indicadores de gestión son los datos que estamos analizando. Estos datos se encuentran almacenados en las tablas de hechos. Los indicadores representan los aspectos cuantificables o medibles de los objetos a analizar.

Dimension:
Las dimensiones son los atributos relativos a los indicadores. Son las perspectivas de análisis de las variables. Estos datos están incluidos en las tablas de dimensiones. Son catálogos de información complementaria imprescindible para la presentación de los datos a los usuarios.

Fact Table (tabla de hechos):
Una tabla de hechos es la que contiene los indicadores necesarios para la extracción de datos así cómo los identificadores de los registros contenidos en las dimensiones.


Diseño y programación:

Para qué debemos crear un DWH?
Un DWH es necesario siempre que queramos acceder a un gran volumen de datos desde aplicaciones de terceros, para realizar informes ("reports"), análisis ("analytics") y cuadros de mando ("dashboards").

Por qué estructurar los datos de manera diferente?
Cuando de informes se trata, la información se extraerá de la base de datos de forma masiva. Uno de los aspectos que más penaliza el rendimiento de los informes es el número de enlaces a otras tablas que contenga la selección de datos. Si lo que queremos es un informe con un rendimiento eficiente deberemos procurar tener los datos en el mínimo número de tablas. Eso significa distribuir los datos en el mínimo número de tablas de hechos con el mínimo número de enlaces a tablas de dimensiones.

Quién necesita un DWH?
Cualquier profesional o empresa (o, porque no, particular) que sienta la necesidad de tener una visión global de sus intereses o negocios, necesita de herramientas que le permitan supervisar su funcionamiento. Estas herramientas (informes, análisis y cuadros de mando) son extremadamente útiles, pero se vuelven totalmente inusables si no se dispone de un juego de datos válido y de acceso rápido. Eso se consigue con la creación de los datamarts.

Quan difícil es crear un DWH?
La creación de datamarts no supone una dificultad extrema, pero sí tener claros una serie de conceptos previos para poder alcanzar un objetivo concreto que nos sirva para poder obtener los beneficios que nos deberá aportar.

Quién puede hacer un DWH?
Cualquier profesional, con unos conocimientos mínimos de informática y de los conceptos básicos de "Data Warehousing", puede poner en práctica la creación de datamarts. Es recomendable poder acceder a profesionales que aporten una visión más clara y concisa de los requerimientos finales (HW, SW, metodologías, etc.), pero recordemos que al fin y al cabo, tenemos a nuestra disposición la mayor biblioteca del mundo, "Internet", y que con las herramientas adecuadas "Google", tenemos todo el universo a nuestros piés.



Bienvenidos a mi humilde residencia en la gran telaraña.


Con los artículos que contiene mi blog pretendo únicamente poder colaborar con todos vosotros en lo referente a bases de datos, sistemas operativos abiertos y sistemas de inteligencia de negocio.

Las entradas que se muestran son las que, limitado por el tiempo, puedo garantizar que funcionan con el noble arte de "copy & paste"... pero si tenéis cualquier tipo de duda acerca de las tecnologías mencionadas con anterioridad no dudéis en poneros en contacto conmigo y procuraré colaborar con vosotros para cualquier cosa que esté a mi alcance.

Gracias por vuestro interés y hasta muy pronto!!!