2.1 Base de datos Multidimensionales

Una base de datos multidimensional (MDB) es un tipo de base de datos que se ha optimizado para data warehouse y aplicaciones de procesamiento analítico en línea (OLAP). Las bases de datos multidimensionales se crean con frecuencia usando entradas de las bases de datos relacionales existentes. Mientras que a una base de datos relacional se accede normalmente mediante una consulta de Lenguaje de Consulta Estructurado (SQL), una base de datos multidimensional permite a un usuario hacer preguntas como: «¿Cuántas Aptivas se han vendido en Nebraska en lo que va del año?» y cuestiones similares relacionadas a resumir operaciones y tendencias de negocios. A una aplicación OLAP que accede a los datos desde una base de datos multidimensional se le conoce como una aplicación MOLAP (OLAP multidimensional).

Una base de datos multidimensional –o un sistema de gestión de base de datos multidimensional (MDDBMS)– implica la capacidad de procesar rápidamente los datos en la base de datos a fin de que las respuestas se pueden generar rápidamente. Varios proveedores ofrecen productos que utilizan bases de datos multidimensionales. Los enfoques de cómo se almacenan los datos y la interfaz de usuario pueden variar.

Conceptualmente, una base de datos multidimensional utiliza la idea de un cubo de datos para representar las dimensiones de los datos disponibles para un usuario. Por ejemplo, «ventas» puede verse en las dimensiones del modelo del producto, la geografía, el tiempo o alguna dimensión adicional. En este caso, «ventas» se conoce como el atributo de medida del cubo de datos y las demás dimensiones son vistas como los atributos de entidades. Además, un creador de base de datos puede definir jerarquías y niveles dentro de una dimensión (por ejemplo, niveles estatales y municipales dentro de una jerarquía regional).

2.1.1 DataWarehouse

En el contexto de la informática, un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se usa para realizar informes (reports) y análisis de datos y se considera un componente fundamental de la inteligencia empresarial. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistente de la entidad del que procedan o para el que sea necesario.

En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles para una organización, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en información útil para el usuario. Un almacén de datos debe entregar la información correcta a la gente indicada en el momento óptimo y en el formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la operación del sistema.

En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:

Integración de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organización y que con frecuencia tendrán diferentes estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un análisis comprensivo de toda la organización en el almacén de datos.
Separación de los datos usados en operaciones diarias de los datos usados en el almacén de datos para los propósitos de divulgación, de ayuda en la toma de decisiones, para el análisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podrían entorpecerse entre sí.

Periódicamente, se importan datos al almacén de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformación posterior. Es práctica común normalizar los datos antes de combinarlos en el almacén de datos mediante herramientas de extracción, transformación y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el almacén.

2.1.2. Data Mart

Un data mart es una versión especial de almacén de datos (data warehouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades.

El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientas OLAP (On line Analytical Processing – Procesamiento Analítico en Línea) que ofrecen una visión multidimensional de la información. Sobre estas bases de datos se pueden construir EIS (Executive Information Systems, Sistemas de Información para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones).

En síntesis, se puede decir que los data marts son pequeños data warehouse centrados en un tema o un área de negocio específico dentro de una organización.

Agregándole otra definición al Datamart.

Podremos decir que Según (Sinnexus, 2016) se trata de una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio especifica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

Según la tendencia marcada por Inmon sobre los data warehouse, un data mart dependiente es un subconjunto lógico (vista) o un subconjunto físico (extracto) de un almacén de datos más grande, que se ha aislado por alguna de las siguientes razones:

Se necesita para un esquema o modelo de dato espacial (por ejemplo, para reestructurar los datos para alguna herramienta OLAP).
Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar la eficiencia o para obviar las necesidades de gestionar todo el volumen del data warehouse centralizado.
Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso.
Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicación en el Data Warehouse principal de la Empresa.
Demostración sobre el terreno: para demostrar la viabilidad y el potencial de una aplicación antes de migrarla al Data Warehouse de la Empresa.
Política: Razones internas de la organización para hacer esta división o separación de los datos del almacén de datos, por ejemplo:
- Cuando se decide una estrategia para las TI (Tecnología de la información) en situaciones en las que un grupo de usuarios tiene más influencia, para determinar si se financia dicha estrategia o descubrir si ésta no sería buena para el almacén de datos centralizado.
- Estrategia para los consumidores de los datos en situaciones en las que un equipo de almacén de datos no está en condiciones de crear un almacén de datos utilizable.

Según la escuela Inmon de data warehouse, entre las pérdidas inherentes al uso de data marts están la escalabilidad limitada, la duplicación de datos, la inconsistencia de los datos con respecto a otros almacenes de información y la incapacidad para aprovechar las fuentes de datos de la empresa. Así y todo estas herramientas son de gran importancia.

2.1.3. Sistemas OLTP

Un sistema OLTP se puede definir como una herramienta tecnológica capaz de soportar el procesamiento, administración y mantenimiento diario de transacciones generadas por los negocios de una compañía a nivel corporativo, para ofrecer altos niveles de disponibilidad, seguridad y confiabilidad. El proceso transaccional es típico de las bases de datos operacionales. ¿Para qué sirven? ¿Cómo ayudan a tomar decisiones?

Los sistemas OLTP, siglas de inglés On Line Transaction Processing, son bases de datos orientadas al procesamiento de transacciones. Como ejemplos se pueden citar las operaciones en un hipermercado, las reservas aéreas, las operaciones bancarias, la fabricación masiva, las ventas de las grandes tiendas.

OLTP es la sigla en inglés de Procesamiento de Transacciones En Línea (OnLine Transaction Processing). Es un tipo de procesamiento que facilita y administra aplicaciones transaccionales, usualmente para entrada de datos y recuperación y procesamiento de transacciones (gestor transaccional). Los paquetes de software para OLTP se basan en la arquitectura cliente-servidor ya que suelen ser utilizados por empresas con una red informática distribuida.

El término puede parecer ambiguo, ya que puede entenderse «transacción» en el contexto de las «transacciones computacionales» o de las «transacciones en bases de datos«. También podría entenderse en términos de transacciones de negocios o comerciales. OLTP también se ha utilizado para referirse a la transformación en la que el sistema responde de inmediato a las peticiones del usuario. Un cajero automático de un banco es un ejemplo de una aplicación de procesamiento de transacciones comerciales.

2.1.4. Sistemas OLAP

OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia de negocios(o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras de datos diversas, normalmente multidimensionales (o Cubos OLAP), que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.

La razón de usar OLAP para las consultas es la rapidez de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional.

La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE

OLAP se puede utilizar para minería de datos o el descubrimiento de relaciones que previamente no se discernían entre elementos de datos. Una base de datos OLAP no necesita ser tan grande como un data warehouse, ya que no todos los datos transaccionales se necesitan para el análisis de tendencias. Usando Conectividad de Base de datos Abierta (ODBC), los datos se pueden importar de bases de datos relacionales existentes para crear una base de datos multidimensional para OLAP.

Dos principales productos OLAP son Essbase de Hyperion Solution y Express Server de Oracle. Los productos OLAP están diseñados normalmente para entornos de múltiples usuarios, con el costo del software basado en el número de usuarios

2.1.5. Operaciones Analíticas Básicas de los Sistemas OLAP

Consolidación: Comprende el conjunto de datos. Esto puede involucrar acumulaciones simples o agrupaciones complejas que incluyen datos interrelacionados.
Drill-Down: OLAP puede moverse en la dirección contraria y presentar automáticamente datos detallados que abarcan datos consolidados.
Slicing and Dicing: Se refiere a la capacidad de visualizar a la Base de Datos desde diferentes puntos de vista.

2.2. Sistemas de Gestión del conocimiento.

Un sistema de información de la gestión del conocimiento puede cambiar radicalmente la manera de descubrir, gestionar y hacer disponible la información.

Las soluciones de gestión del conocimiento de Expert System aportan a los profesionales las herramientas necesarias para trabajar más rápido y de manera más eficiente, pues garantizan la entrega de la información adecuada en el momento justo.

Las organizaciones utilizan una gran variedad de datos recopilados en la empresa o a partir de fuentes externas como Internet o las redes sociales para asistir a sus actividades más estratégicas, como la toma de decisiones o la realización de tareas operacionales. Ya sea a modo de resultado de una investigación, de datos censales, de informes de conformidad y reglamentación, de información procesal, de noticias o de tuits, el formato que nos encontramos siempre es el mismo: texto.

La comprensión de cualquier tipo de texto es una competencia principal del sistema de información de la gestión del conocimiento de Cogito, la tecnología de Expert System.

2.2.1. Preparación de los Datos.

Es un proceso mediante el cual las organizaciones, a través de su talento humano, crean o adquieren conocimiento, con el propósito de institucionalizarlo para generar o mejorar productos y servicios, lo cual le permita a la organización adaptarse a las condiciones cambiantes de entorno o transformarlo, dependiendo de su nivel de desarrollo

Existe aprendizaje organizacional cuando existe un cambio organizacional. Si el cambio o la adquisición o creación de conocimiento es personal, se habla de aprendizaje individual, siendo este el pre-requisito para el aprendizaje organizacional, pero este por si solo no garantiza el aprendizaje organizacional

2.2.2. Minería de Datos

La minería de datos o exploración de datos (es la etapa de análisis de «Knowledge Discovery in Databases» o KDD) es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.¹ Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, supone aspectos de gestión de datos y de bases de datos, de procesamiento de datos, del modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la teoría de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la visualización y de la actualización en línea.

El término es un concepto de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas), pero también se ha generalizado a cualquier tipo de sistema de apoyo informático decisión, incluyendo la inteligencia artificial, aprendizaje automático y la inteligencia empresarial. En el uso de la palabra, el término clave es el descubrimiento, comúnmente se define como «la detección de algo nuevo». Incluso el popular libro «La minería de datos: sistema de prácticas herramientas de aprendizaje y técnicas con Java» (que cubre todo el material de aprendizaje automático) originalmente iba a ser llamado simplemente «la máquina de aprendizaje práctico», y el término «minería de datos» se añadió por razones de marketing. A menudo, los términos más generales «(gran escala) el análisis de datos», o «análisis» -. o cuando se refiere a los métodos actuales, la inteligencia artificial y aprendizaje automático, son más apropiados.

La tarea de minería de datos real es el análisis automático o semi-automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación). Esto generalmente implica el uso de técnicas de bases de datos como los índices espaciales. Estos patrones pueden entonces ser vistos como una especie de resumen de los datos de entrada, y pueden ser utilizados en el análisis adicional o, por ejemplo, en el aprendizaje automático y análisis predictivo. Por ejemplo, el paso de minería de datos podría identificar varios grupos en los datos, que luego pueden ser utilizados para obtener resultados más precisos de predicción por un sistema de soporte de decisiones. Ni la recolección de datos, preparación de datos, ni la interpretación de los resultados y la información son parte de la etapa de minería de datos, pero que pertenecen a todo el proceso KDD como pasos adicionales.

Los términos relacionados con la obtención de datos, la pesca de datos y espionaje de los datos se refieren a la utilización de métodos de minería de datos a las partes de la muestra de un conjunto de datos de población más grandes establecidas que son (o pueden ser) demasiado pequeñas para las inferencias estadísticas fiables que se hizo acerca de la validez de cualquier patrón descubierto. Estos métodos pueden, sin embargo, ser utilizados en la creación de nuevas hipótesis que se prueban contra poblaciones de datos más grandes.

2.2.4. Evaluación / Interpretación / Visualización

Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.