Informe de validación cruzada 23




descargar 168.34 Kb.
títuloInforme de validación cruzada 23
página1/4
fecha de publicación21.01.2016
tamaño168.34 Kb.
tipoInforme
b.se-todo.com > Finanzas > Informe
  1   2   3   4

Proyectos de Ingeniería de Sistemas II – Minería de Datosdescripción: http://www.utp.edu.pe/imag/logo.gif

home

Facultad de Ingeniería Industrial y de Sistemas

Carrera Profesional de Ingeniería de Sistemas


Minería de datos aplicados a las ventas con tarjeta de crédito clásica realizados en las tiendas Saga Falabella en la ciudad de Lima.

PROYECTO DE TESIS
Presentada por: Hober Willy Siccha Vega
Asesorado por: Ing. Pedro Chávez Farfán
Lima – Perú

2012

INDICE DE CONTENIDO


INTRODUCCION 7
CAPITULO I: ASPECTOS GENERALES 8
1.1 Definición del problema 8

1.2 Definición de los objetivos 10

1.3 Justificación del Proyecto 10

1.4 Alcance del Proyecto 11
CAPITULO II: FUNDAMENTO TEORICO 12


    1. Minería de Datos (Data Mining) 12

2.1.1 Definición de Minería de Datos 12

2.1.2 Principales características y objetivos de la Minería de Datos 13

2.1.3 Fases de un Proyecto de Minería de Datos 13

2.1.4 Técnicas de Minería de Datos 14

2.1.5 Aplicaciones de Minería de Datos 16

    1. Plataforma Microsoft SQL Server (Minería de Datos) 17

2.2.1 Microsoft SQL Server 17

2.2.2 Características de Microsoft SQL Server 17

2.3 Metodología de Validación del Modelo de Minería de Datos (MS SQL Server) 19

2.3.1 Realizar particiones de los datos en conjuntos de aprendizaje y de prueba 19

2.3.2 Validación cruzada de modelos de minería de datos 19

2.3.3 Medir la precisión del modelo de minería de datos (Analysis Services) 20

2.3.3.1 Gráfico de elevación 20

2.3.3.2 Gráfico de beneficios 21

2.3.3.3 Gráfico de dispersión 22

2.3.3.4 Matriz de clasificación 22

2.3.3.5 Informe de validación cruzada 23

2.4 Estrategias de mercado 24

CAPITULO III: MINERIA DE DATOS A LAS VENTAS REALIZADAS CON TARJETA DE CREDITO CLASICA EN SAGA FALABELLA EN LIMA 26
3.1 Implementación de Modelos de Minería de Datos (MS SQL Server) 26

3.1.1 Crear conexión a la base de datos 26

3.1.2 Crear una vista al Data Source 26

3.1.3 Construir un modelo de Minería de Datos 28

3.1.3.1 Arboles de Decisión (Microsoft Decision Trees) 28

3.1.3.2 Clustering (Microsoft Clustering) 33

3.2 Validación de los Modelos de Minería de Datos (MS SQL Server) 38

3.2.1 Validación del modelo Árbol de Decisiones 38

3.2.1.1 Medir la mejora respecto al modelo (Gráfico de Elevación) 38

3.2.1.2 Generar matriz de clasificación 39

CONCLUSIONES 41
REFERENCIAS 42

INDICE DE ILUSTRACIONES

FIGURA Nro. 1: Fases del Proyecto de M.D. 13

FIGURA Nro. 2: Conexión de la plataforma de M.D. con la base de datos. 26

FIGURA Nro. 3: Vista de la tabla MaeCliente (Maestro de clientes) 27

FIGURA Nro. 4: Creación de la estructura de M.D. utilizando la técnica de Arboles de decisiones 28

FIGURA Nro. 5: Especificación de los campos de entrada, claves y de predicción 29

FIGURA Nro. 6: Determinación del contenido y el tipo de datos seleccionados 29

FIGURA Nro. 7: Implementación del modelo de minería de datos 30

FIGURA Nro. 8: Leyenda del modelo de minería de datos 30

FIGURA Nro. 9: Red de dependencias del modelo de minería de datos. 31

FIGURA Nro. 10: Modelo final de minería de datos utilizando la técnica de Arboles de decisiones 32

FIGURA Nro. 11: Creación de la estructura de M.D. utilizando la técnica de Clustering. 33

FIGURA Nro. 12: Especificación de los campos de entrada, claves y de predicción 34

FIGURA Nro. 13: Determinación del contenido y el tipo de datos seleccionados. 34

FIGURA Nro. 14: Implementación del modelo de minería de datos 34

FIGURA Nro. 15: Modelo final de minería de datos utilizando la técnica de Clustering 35

FIGURA Nro. 16: Características del clúster Nro. 7 36

FIGURA Nro. 17: Perfiles del clúster Nro. 7 37

INDICE DE GRAFICOS

GRAFICO Nro. 1: Número de transacciones de compras con tarjeta de crédito clásica realizados en las tiendas en la ciudad de Lima 8

GRAFICO Nro. 2: Ventas con tarjeta de crédito clásica realizados en las tiendas en la ciudad de Lima 9

GRAFICO Nro. 3: Gráfico de elevación de minería de datos 21

GRAFICO Nro. 4: Gráfico de beneficios de minería de datos 21

GRAFICO Nro. 5: Gráfico de dispersión de minería de datos 22

GRAFICO Nro. 6: Gráfico de elevación de M.D. para el modelo ArbDecMaeCliente 38

GRAFICO Nro. 7: Matriz de clasificación de M.D. para el modelo ArbDecMaeCliente 39

INDICE DE TABLAS

TABLA I: Tabla de matriz de clasificación de minería de datos 22

TABLA II: Estructura de la tabla MaeCliente (Maestro de Clientes) 27
Introducción
El desarrollo tecnológico al que hemos llegado, el aumento desbordante del número de consumidores, la capacidad de compra del consumidor, la enorme demanda de productos, la diversidad de productos en el mercado, la gran cantidad de servicios que se ofrecen en todos los giros comerciales, la gran variedad de perfiles del consumidor moderno, la cada vez mayor exigencia del cliente que demanda nuevos productos de mayor calidad, más funcionales, con mayor capacidad de resolución, con mayor capacidad de respuesta y a mejor precio, por todo esto y más en la actualidad se están creando grandes montañas de datos, bases de datos de enorme tamaño, millones de datos que se han estado almacenando o que siguen almacenándose, cada día los cerros de información en forma de datos numéricos, han planteado a los investigadores y analistas de datos nuevos retos para el manejo de los mismos y de su análisis para luego extraer de ellos conocimiento, sobre todo de la fuente que los generó, el consumidor.

Los mineros entran a las entrañas de la tierra, en las montañas se abren camino entre las rocas, tierra, arcilla, lodo, en busca de la esencia, el metal precioso hasta que encuentran la

veta de oro y plata de entre las toneladas de escombro, piedra y lodo, y extraen el material realmente valioso.

De la misma manera, el analista entra a las montañas de datos en búsqueda de la esencia de la información sobre las variables del problema. A diario se generan grandes cantidades de datos dando lugar a inmensas bases de datos, que en su interior contienen información muy valiosa, esencial para el descubrimiento del conocimiento que permita tomar decisiones sobre el presente y futuro de las organizaciones.

Con la enormidad de las montañas de datos que actualmente se generan, ya no solo es viable el uso de las técnicas estadísticas tradicionales para su análisis y búsqueda de fundamentos como: probar hipótesis, el muestreo, la teoría de límite central, la teoría de la estimación, la regresión, el análisis de varianza, el diseño de experimentos.

Las cantidades de información en la actualidad son tan enormes que es prácticamente imposible su asimilación por una sola persona, por lo que se hace necesario contar con nuevos métodos de procesamiento de datos, nuevas tecnologías que nos permitan y nos faciliten el proceso de búsqueda del conocimiento escondido al interior de las enormes montañas de datos existentes y que nos proporcionen la esencia contenida en la base de datos.

El interés de esta investigación es determinar el comportamiento a futuro y la naturaleza de los datos históricos de ventas con tarjeta de crédito clásica en las tiendas de Saga Falabella de la ciudad de Lima a través de la explotación de las técnicas de minería de datos, con la finalidad de ayudar a los miembros de la alta dirección a analizar los hábitos de los clientes a fin de satisfacer mejor su demanda, mejorar la administración de los inventarios de los productos que están asociados a las transacciones de ventas y mejorar los volúmenes de ventas.
CAPITULO I: ASPECTOS GENERALES
1.1 Definición del Problema

1.1.1 Descripción del Problema

Saga Falabella es una de las empresas más grandes del Perú y forma parte del Grupo Falabella que agrupa las cadenas de tiendas por departamentos más importantes de Sudamérica, con presencia en Perú, Chile, Argentina y Colombia. (5)

En el Perú Falabella desarrolla su actividad comercial a través de varias áreas de negocio, las principales son las tiendas por departamento. (5) Al cierre del presente trabajo Saga Falabella cuenta con 19 tiendas, 9 de ellas en provincia y espera duplicar sus operaciones para finales del año 2015, para lo cual planea inaugurar durante dicho periodo entre 15 y 20 tiendas más.

Entre el 2007 y el 2012 el número de transacciones y las ventas con tarjeta de crédito clásica han sufrido un incremento considerable. Esto debido al incremento del poder adquisitivo de la población, la expansión de la economía y la mayor cobertura geográfica de los locales. (2,4)



Gráfico Nro. 1: Número de transacciones de compras con tarjeta de crédito clásica

realizados en las tiendas en la ciudad de Lima.

Fuente: Empresa Saga Falabella

Gráfico Nro. 2: Ventas con tarjeta de crédito clásica

realizados en las tiendas en la ciudad de Lima (mill. S/.).

Fuente: Empresa Saga Falabella

De lo dicho anteriormente en los últimos años, los datos grabados de la empresa Saga Falabella en la base de datos han ido incrementándose considerablemente. Esta información, de gran importancia estratégica para la empresa Saga Falabella, se accede a través del uso de técnicas clásicas como son sentencias SQL y los procedimientos almacenados. Por tal motivo existe demora en la recuperación y el análisis de la información para la elaboración de informes, formularios y reportes de gestión solicitados por la alta dirección.

Así es necesaria la utilización de métodos analíticos más avanzados, como es la minería de datos para la explotación de datos con la finalidad de ayudar a los miembros de la alta dirección a la toma de decisiones.

1.1.2 Formulación del Problema

¿Cuál es el comportamiento en el futuro y la naturaleza de las operaciones con tarjeta de crédito clásica en las tiendas de Saga Falabella en la ciudad de Lima?
1.2 Definición de los Objetivos

1.2.1 Objetivo General

Determinar el comportamiento a futuro y la naturaleza de los datos históricos de ventas con tarjeta de crédito clásica de Saga Falabella en la ciudad de Lima, a través de las técnicas de minería de datos.
1.2.2 Objetivos Específicos

  • Diseñar la plataforma de minería de datos para el proceso de transacciones de compras de tarjeta de crédito clásica de Saga Falabella.

  • Diseñar el modelo de datos que se usará para la plataforma de minería de datos.

  • Diseñar las técnicas de validaciones que permitan comprobar la calidad de las predicciones encontradas en el presente trabajo.

  • Diseñar estrategias de mercado para el departamento de tarjeta de crédito de Saga Falabella en la ciudad de Lima basado en las técnicas de minería de datos.


1.3 Justificación del Proyecto

Debido a que los volúmenes de operaciones de ventas con tarjeta de crédito clásica han crecido consistentemente y representan actualmente el 65% del total de las ventas de Saga Falabella. (2,4) La empresa cuenta con técnicas clásicas de análisis de datos, originando demora en la recuperación y el análisis de la información solicitados por los miembros de la alta dirección.
El presente proyecto es importante porque permitirá determinar el comportamiento a futuro y la naturaleza de los datos históricos de ventas realizadas con tarjeta de crédito clásica de Saga Falabella en la ciudad de Lima, utilizando técnicas de minería de datos. Con la finalidad de ayudar a los miembros de la alta dirección a analizar los hábitos de los clientes a fin de satisfacer mejor su demanda, mejorar la administración de los inventarios de los productos que están asociados a las transacciones de ventas y mejorar los volúmenes de ventas realizados con la tarjeta de crédito clásica en las tiendas de Saga Falabella en la ciudad de Lima.
1.4 Alcance del Proyecto

El presente trabajo abarca el estudio de las transacciones en el área de tarjeta de crédito de Saga Falabella basado en las técnicas de minería de datos. Las transacciones a contemplar son las compras con tarjeta de crédito tipo CMR clásica realizadas por los consumidores en las tiendas retail de Saga Falabella en la ciudad de Lima. Dichas transacciones fueron extraídas de la base de datos de la sede central en Lima ubicado en Av. Navarrete Nro. 798 – San Isidro y tienen la información histórica del año 2007 hasta finales del año 2012.

Es preciso señalar que la plataforma que se empleará para el análisis es la de Microsoft SQL Server 2008 R2.


CAPITULO II: FUNDAMENTO TEORICO
2.1 Minería de Datos (Data Mining)

En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido básicamente al gran poder de procesamiento de las máquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de información oculta, de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información. El descubrimiento de esta información oculta es posible gracias a la Minería de Datos, para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, pero es el descubrimiento del conocimiento (KDD, por sus siglas en inglés) que se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. (7)
Básicamente, el KDD está compuesto por los pasos de selección de datos (los datos relevantes para el análisis se recuperan de la base de datos), el preprocesamiento de los datos (limpiar y preparar los datos), data mining (construir modelos descriptivos/predictivos) y evaluación del modelo (conseguir los modelos descriptivos/predictivos que mejor solucionen el problema). (10)
Así el valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar la comprensión de los fenómenos que nos rodean. Hoy, más que nunca, los métodos analíticos avanzados son el arma secreta de muchos negocios exitosos. Empleando métodos analíticos avanzados para la explotación de datos, los negocios incrementan sus ganancias, maximizan la eficiencia operativa, reducen costos y mejoran la satisfacción del cliente. (7)
2.1.1 Definición de Minería de Datos

La minería de datos es un conjunto de herramientas y técnicas de análisis de datos que por medio de la identificación de patrones extrae información interesante, novedosa y potencialmente útil de grandes bases de datos que puede ser utilizada como soporte para la toma de decisiones. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos. Una gran parte de estas técnicas son una combinación directa de madurez en tecnología de bases de datos y data warehousing, con técnicas de aprendizaje automático y de estadística. (3,8)

Para descubrir conocimiento de la información se pueden utilizar varias formas de análisis por medio de las cuales se puede llegar a identificar patrones y reglas en los datos para luego crear escenarios, esta información se puede representar por medio de modelos matemáticos sobre datos históricos y con esto se crea un modelo de minería de datos. Después de haber creado un modelo de minería de datos, se puede examinar nueva información a través del modelo evaluando si se apega a los patrones o reglas definidos. (3)
2.1.2 Principales características y objetivos de la Minería de Datos (7)

  1. Explorar los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.

  2. Las herramientas de la minería de datos ayudan a extraer la información.

  3. Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos.

  4. La minería de datos produce cinco tipos de información: asociaciones, secuencias, clasificaciones, agrupamientos y pronósticos.


2.1.3 Fases de un Proyecto de Minería de Datos (7)

En la figura 3 se ilustra las fases del proyecto de MD, los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.



Figura Nro. 1: Fases del Proyecto de M.D.

Fuente: Vallejos, 2006. Minería de Datos
El proceso de minería de datos pasa por las siguientes fases:

  1. Filtrado de datos: El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos en bruto.

Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos, según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering entre otros).


  1. Selección de Variables: Aún después de haber sido pre-procesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.

Los métodos para la selección de características son básicamente dos:

• Aquellos basados en la elección de los mejores atributos del problema,

• Y aquellos que buscan variables independientes mediante test de sensibilidad, algoritmos de distancia o heurísticos.


  1. Extracción de Conocimiento: Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un pre-procesado diferente de los datos.




  1. Interpretación y Evaluación: Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.


2.1.4 Técnicas de la Minería de Datos

Los modelos descriptivos se rigen por un proceso de aprendizaje no supervisado: el objetivo es identificar patrones en los datos sin indicadores externos que guíen al algoritmo (es decir, sin conocer la realidad “a priori”). En este sentido, los modelos descriptivos sirven para explorar las propiedades de los datos examinados. El clustering y las reglas de asociación (RA) son las herramientas más representativas de la Minería de Datos. (10)

Por otro lado, los modelos predictivos requieren de un proceso de aprendizaje supervisado: la técnica supervisa en el modelo en construcción el grado de ajuste a la realidad conocida. En este sentido, dichos modelos pretenden estimar valores futuros o desconocidos de una variable respuesta. Entre las técnicas de predicción más utilizadas se encuentran Redes bayesianas (NB), como una moderna técnica estadística, y las Redes Neuronales Artificiales (RNA) y los Árboles de Decisión (AD). (10)
A continuación explicaremos las técnicas de Minería de Datos:

2.1.4.1 Reglas de Asociación

Como ya se ha comentado, los modelos de aprendizaje no supervisado se usan cuando el resultado de interés no es conocido y el sistema debe aprender directamente de los datos. Una de las herramientas más populares incluidas en el aprendizaje no supervisado son las Reglas de Asociación. Las RA recogen relaciones interesantes entre un gran conjunto de información. Un ejemplo típico de esta aplicación consiste en encontrar asociaciones entre los artículos comprados en los grandes almacenes (análisis de la cesta de la compra).

Este tipo de información es muy valiosa para situar estratégicamente los productos en los grandes almacenes o planificar las promociones de determinados artículos, y su uso se ha generalizado a cualquier ámbito en el que se disponga de grandes cantidades de información almacenada. (10)
2.1.4.2 Técnicas de «clustering».

Son técnicas que parten de una medida de proximidad entre individuos y a partir de ahí, buscar los grupos de individuos más parecidos entre sí, según una serie de variables mesuradas. (1)
2.1.4.3 Redes bayesianas

Está basado en el teorema de Bayes, que puede predecir la probabilidad de que un caso dado pertenezca a una clase determinada. (10) Consiste en representar todos los posibles sucesos en que estamos interesados mediante un grafo de probabilidades condicionales de transición entre sucesos. Permite establecer relaciones causales y efectuar predicciones. (1)
2.1.4.4 Árboles de decisión.

Los árboles de decisión (AD) permiten representar de forma gráfica una serie de reglas sobre la decisión que se debe tomar en la asignación de un valor de salida a un determinado registro. Su principal ventaja es la facilidad de interpretación. (1,10)
2.1.4.5 Redes neuronales.

Inspiradas en el modelo biológico, son generalizaciones de modelos estadísticos clásicos. Su novedad radica en el aprendizaje secuencial, el hecho de utilizar transformaciones de las variables originales para la predicción y la no linealidad del modelo. Permite aprender en contextos difíciles, sin precisar la formulación de un modelo concreto. Su principal inconveniente es que para el usuario son una caja negra. (1)
Un enriquecimiento de las posibilidades de análisis son los sistemas híbridos, esto es, la combinación de dos o más técnicas para mejorar la eficiencia en la resolución de un problema, como por ejemplo, utilizar un algoritmo genético para inicializar una red neuronal, o bien utilizar un árbol decisión como variable de entrada en una regresión logística. (1)
2.1.5 Aplicaciones de Minería de Datos (11)

En la actualidad, la implantación de la Minería de Datos para recuperar información en las diversas organizaciones así como en el ámbito empresarial es una técnica habitual. Tradicionalmente, quienes más han empleado las técnicas de la Minería de Datos para recuperar información han sido las relacionadas con la publicidad y con los negocios de la distribución. Sin embargo, existen multitud de áreas que han integrado en su actividad las técnicas de la Minería de Datos para recuperar información.

Algunos ejemplos de uso de la Minería de Datos: en los negocios, hábitos de compra en supermercados, patrones de fuga, fraudes, recursos humanos, comportamiento en internet, terrorismo, juegos, ciencia e ingeniería, genética, entre otros.

2.2 Plataforma Microsoft SQL Server
2.2.1 Microsoft SQL Server(9)
Microsoft SQL Server ofrece un entorno integrado para crear modelos de minería de datos y trabajar con ellos. La solución SQL Server Data Mining permite el acceso a la información necesaria para tomar decisiones inteligentes sobre problemas empresariales complejos.
Microsoft SQL Server permite implementar el resto de funcionalidades de un sistema de Business Intelligence:

- Data Warehouse: los datos se pueden almacenar en tablas relacionales de SQL Server o generar bases de datos multidimensionales (cubos OLAP).

- ETL: DTS (Data Transformation Services) permite extraer datos de diversos orígenes, manipularlos, y almacenarlos en SQL Server.

- Base de datos multidimensional y servidor OLAP: SQL Server puede guardar datos en bases de datos multidimensionales utilizando los servicios de SQL Server Analysis Services, implementando a su vez el servidor OLAP asociado.

- Data Mining: El mismo servicio de Analysis Services también ofrece la posibilidad de aplicar algoritmos de Data Mining.

- Generación de informes: Reporting Services, la más importante novedad de la plataforma SQL Server 2000, que se puede descargar del sitio de Microsoft.

- Alertas: SQL Server Notification Services es otro módulo adicional que se puede descargar del sitio de Microsoft para desarrollar aplicaciones de envío de alertas.

- Otras opciones: aunque por el momento no estén pensadas para hacer la competencia a otras herramientas mejores de otros fabricantes, existen complementos basados en Office y en Sharepoint Portal Services como clientes de bases de datos multidimensionales.
2.2.2. Características de Microsoft SQL Server

- El procesamiento de los modelos de una misma estructura de minería ocurre en paralelo, en una sola lectura de los datos.

- Suministra más de 12 visores de resultados para los algoritmos que ayudarán a comprender mejor los patrones encontrados en el proceso de minería.

- Proporciona gráficos de elevación, de beneficios y una matriz de clasificación que permite establecer una comparación de lo real con lo previsto; para contrastar y comparar la calidad de los modelos.

- Posee un lenguaje para la creación de consultas de minería (DMX) similar al SQL que facilita la tarea de creación de aplicaciones de minería de datos. Posee una interfaz gráfica para generar las consultas DMX.

- Cuenta con los algoritmos de minería más avanzados: Naive Bayes, Clustering, Clústeres de Secuencia, Árboles de Decisión, Redes Neuronales, Series Temporales, Reglas de Asociación, Regresión Logística, y Regresión Lineal y minería de textos.
2.3 Metodología de Validación del Modelo de Minería de Datos (Microsoft SQL Server)(8)
La validación es el proceso de evaluar cuál sería el rendimiento de sus modelos de minería de datos con datos reales. Es importante que se validen los modelos de minería de datos entendiendo su calidad y sus características antes de implementarlos en un entorno de producción.
Existen muchos enfoques a la hora de evaluar la calidad y las características de un modelo de minería de datos.

  • Usar varias medidas de validez estadística para determinar si existen problemas en los datos o en el modelo.

  • Separar los datos en conjuntos de entrenamiento y de prueba con el fin de probar la precisión de predicciones.

SQL Server 2008 admite varios enfoques relativos a la validación de soluciones de minería de datos que admitan todas las fases de la metodología de desarrollo de la minería de datos.
2.3.1 Realizar particiones de los datos en conjuntos de aprendizaje y de prueba

Particionar los datos en conjuntos de entrenamiento y prueba es una técnica común para preparar los datos para su evaluación. Se puede reservar para la prueba una parte del conjunto de datos de entrenamiento, utilizando el resto de los datos para el entrenamiento. Una vez completado el modelo, éste se utilizará para realizar las predicciones en función del conjunto de prueba. Dado que los datos del conjunto de entrenamiento se seleccionan de forma aleatoria a partir de los mismos datos utilizados para el entrenamiento, es poco probable que las métricas de precisión que se derivan de la prueba se vean afectadas por discrepancias en los datos, y por tanto, reflejarán mejor las características del modelo.
2.3.2 Validación cruzada de modelos de minería de datos

La validación cruzada es una herramienta estándar de análisis que resulta muy útil a la hora de desarrollar y ajustar los modelos de minería de datos.
La validación cruzada se usa después de crear una estructura de minería de datos y los modelos de minería de datos relacionados para determinar la validez del modelo. La validación cruzada tiene las aplicaciones siguientes:

- Validar la solidez de un modelo de minería de datos determinado.

- Evaluar varios modelos de una instrucción única.

- Generar varios modelos e identificar a continuación el mejor modelo basándose en estadísticas.
Al crear un informe de validación cruzada, Analysis Services divide el conjunto de datos en varias secciones transversales, crea y entrena automáticamente varios modelos en los subconjuntos y, a continuación, calcula la precisión de todos los modelos. Si revisa las estadísticas que se generan, puede evaluar hasta qué punto un modelo se generaliza bien para diferentes conjuntos de datos, o determinar cuál de los diversos modelos de una estructura se comporta mejor.
2.3.3 Medir la precisión del modelo de minería de datos (Analysis Services - Minería de datos)

  1   2   3   4

similar:

Informe de validación cruzada 23 iconLa próxima cruzada empresarial

Informe de validación cruzada 23 iconGrupo sanguíneo, rh y prueba cruzada

Informe de validación cruzada 23 iconLa cruzada de los medios en América Latina”, de Denis de Moraes

Informe de validación cruzada 23 iconCuestionario para la validación de material primas no ecológicas...

Informe de validación cruzada 23 iconInforme Avance: 1 Período de Informe

Informe de validación cruzada 23 iconInforme de

Informe de validación cruzada 23 iconInforme de

Informe de validación cruzada 23 iconInforme no. 51/13

Informe de validación cruzada 23 iconInforme Final

Informe de validación cruzada 23 iconInforme Delors




Todos los derechos reservados. Copyright © 2019
contactos
b.se-todo.com