Informe de validación cruzada 23




descargar 168.34 Kb.
títuloInforme de validación cruzada 23
página3/4
fecha de publicación21.01.2016
tamaño168.34 Kb.
tipoInforme
b.se-todo.com > Finanzas > Informe
1   2   3   4


Figura Nro. 3: Vista de la tabla MaeCliente (Maestro de clientes)

Fuente: Plataforma Minería de Datos

La tabla MaeCliente (Maestro de Clientes) presenta la siguiente estructura:


Item

Campos

Descripción

Tipo de dato

1

cuenta

Cuenta

integer

2

tipo_identidad

Tipo de documento de identidad

integer

3

nro_identidad

Número de documento de identidad

integer

4

ap_paterno

Apellido paterno

varchar(50)

5

ap_materno

Apellido materno

varchar(50)

6

nombre

Nombres

varchar(50)

7

diredomi

Dirección domicilio

varchar(50)

8

dptodomi

Departamento domicilio

varchar(50)

9

diretrab

Dirección trabajo

varchar(50)

10

dptotrab

Departamento trabajo

varchar(50)

11

sexo

Sexo

char(1)

12

estcivil

Estado civil

varchar(11)

13

edad

Edad

integer

14

condicion

Condición habitacional

varchar(10)

15

renta

Renta

integer

16

lin_credito

Línea de crédito

integer

17

consumo

Consumo histórico (5 años)

decimal(9,2)


Tabla II: Estructura de la tabla MaeCliente (Maestro de Clientes)

Fuente: Elaboración propia

3.1.3 Construir un modelo de Minería de Datos usando las siguientes técnicas:

La plataforma de Minería de Datos proporciona diversos modelos de análisis. La presente investigación solo estudiará los siguientes modelos: Árboles de decisión y Clustering.

3.1.3.1 Árboles de Decisión (Microsoft Decision Trees)

Los árboles de decisión son modelos que permiten construir rutas basadas en sucesos de variables (datos de análisis) para la realización de un evento (variable a predecir) basadas en la teoría de probabilidades y en la correlación entre los datos.

El presente análisis está basado en determinar los condicionantes que se dan para las compras con tarjeta de crédito clásica de nuestros clientes en función de su estado civil, que es la variable de análisis a predecir. De esto modo el sistema nos dirá cuáles son las condiciones más frecuentes que se dan cuando nuestros clientes compran con tarjeta de crédito dependiendo de su estado civil.

- Crear la estructura de minería de datos.

El primer paso reside en seleccionar el modelo de minería a emplear.



Figura Nro. 4: Creación de la estructura de DM utilizando la técnica de Arboles de Decisiones.

Fuente: Plataforma Minería de Datos
- Se debe especificar los campos de entrada, claves y de predicción para el análisis del modelo de Árboles de Decisión.



Figura Nro. 5: Especificación de los campos de entrada, claves y de predicción

Fuente: Plataforma Minería de Datos
Para este caso la variable a predecir es el estado civil, el cual tiene como estados casado, conviviente, divorciado, separado y soltero. Además presenta como variables de entrada (input) a la condición habitacional, el consumo, el distrito del domicilio, el distrito del trabajo, la edad, la línea de crédito, la renta y el sexo.
Esto nos determinará la ruta de los escenarios con mayor probabilidad de ocurrencias, en que las transacciones de compras con tarjeta de crédito clásica en Saga Falabella en la ciudad de Lima sean realizadas por los clientes de estado civil casado, conviviente, divorciado, separado o soltero.
- Se deben determinar el contenido y el tipo de datos seleccionados en el paso anterior, ya que el tipo de datos determina el tratamiento que recibe en el análisis. Según sea el caso los datos pueden ser: Discretos o continuos.




Figura Nro. 6: Determinación del contenido y el tipo de datos seleccionados

Fuente: Plataforma Minería de Datos


- Implementar el modelo de minería de datos (creación de todos los objetos de minería de datos necesarios para ejecutar el modelo)



Figura Nro. 7: Implementación del modelo de minería de datos

Fuente: Plataforma Minería de Datos

Resultados:
El modelo muestra que de todos los datos procesados la mayor probabilidad de ocurrencia para la variable a predecir, esta en los clientes “solteros” con un 59.66% de ocurrencia en todos los escenarios encontrados (93,349 escenarios), y le sigue los clientes “casados” con un 35.62% de ocurrencias en todos los escenarios encontrados (55,731 escenarios).


Figura Nro. 8: Leyenda del modelo de minería de datos

Fuente: Plataforma Minería de Datos


La red de dependencias muestra que las variables que estan mas correlacionadas con la variable a predecir, dicho de otro modo son aquellas variables que mas influyen en la determinación del valor de la variable a predecir. En nuestro caso el estado civil de nuestros clientes viene determinado por su edad, sexo y condición de vivienda.


Figura Nro. 9: Red de dependencias del modelo de minería de datos

Fuente: Plataforma Minería de Datos



Figura Nro. 10: Modelo final de minería de datos utilizando la técnica de Árboles de Decisiones

Fuente: Plataforma Minería de Datos
De acuerdo al análisis del sistema el escenario conformado por clientes que tienen una edad entre 27 a 35 años y que habitan en casa de sus padres son los que con mayor probabilidad son solteros y efectúan compras con tarjeta de crédito clásica en las tiendas de Saga Falabella en la ciudad de Lima.

3.1.3.2 Clustering (Microsoft Clustering)

Este modelo se basa en el análisis iterativo y recurrente de las ocurrencias de los datos. El modelo de agrupamiento va a clasificar aquellos atributos que tienen un comportamiento recurrente y/o similar de modo de identificarlos para desarrollar una estrategia conjunta para todos ellos.

- Crear la estructura de minería de datos

Similarmente al anterior modelo debemos seleccionar la técnica a aplicar para la minería de los datos a estudiar. En este caso es “Clustering”



Figura Nro. 11: Creación de la estructura de DM utilizando la técnica de Clustering.

Fuente: Plataforma Minería de Datos

- Se debe especificar los campos de entrada, claves y de predicción para el análisis del modelo de Clustering


Figura Nro. 12: Especificación de los campos de entrada, claves y de predicción

Fuente: Plataforma Minería de Datos
- Se deben determinar el contenido y el tipo de datos que conforman los datos de análisis.



Figura Nro. 13: Determinación del contenido y el tipo de datos seleccionados

Fuente: Plataforma Minería de Datos
- Implementar el modelo de minería de datos (creación de todos los objetos de minería de datos necesarios para ejecutar el modelo)

Figura Nro. 14: Implementación del modelo de minería de datos

Fuente: Plataforma Minería de Datos

Resultados:

El sistema permite que se seleccione la variable o campo con mayor densidad de ocurrencia dentro de los grupos. Al seleccionar el sistema establece el o los grupos que tienen una mayor densidad de ocurrencia de la variable seleccionada coloreándolos con un tono más intenso.


Figura Nro. 15: Modelo de minería de datos final utilizando la técnica de Clustering

Fuente: Plataforma Minería de Datos
La variable a predecir es el estado civil, con el parámetro soltero. El grupo que tiene mayor porcentaje de ocurrencias de esta variable y estado es el cluster Nro. 7 (SOLTERO: 90%).



Figura Nro. 16: Características del clúster Nro. 7

Fuente: Plataforma Minería de Datos
En esta gráfica podemos ver los niveles de probabilidad de ocurrencia de los distintos estados de las variables de análisis para el cluster elegido.

Como vemos efectivamente el nivel de probabilidad de la variable seleccionada (en este caso estado civil = ”Soltero”) tiene un nivel de probabilidad alta. En segundo lugar “la condición de vivienda” es la que tiene igualmente un alto nivel de probabilidad de ocurrencia para el estado=”D/Padres” o casa de los padres, y así sucesivamente.



Figura Nro. 17: Perfiles del clúster Nro. 7

Fuente: Plataforma Minería de Datos
Analizando en forma particular el Cluster 7 se tiene los siguientes resultados:

Los clientes de estado civil soltero que realizan compras con tarjeta de crédito en las tiendas de Saga Falabella en la ciudad de lima tienen el siguiente perfil: 1) Edad promedio de 37 años de edad 2) Renta promedio de 2,000 nuevos soles 3) Condición habitacional, viven en casa de los padres 4) Distrito domicilio en Stgo. de Surco, San Martin de Porres y Los Olivos 5) Sexo femenino ligeramente en mayor proporción 6) Distrito trabajo en San Isidro, Miraflores y Lima 7) Línea de Crédito promedio de 6,500 nuevos soles 8) Consumo histórico promedio de 2,6000 nuevos soles.
De esta manera se considera a este agrupamiento con similar comportamiento que tiene un mayor porcentaje de ocurrencias en las transacciones de compra con tarjeta de crédito en las tiendas de Saga Falabella en la ciudad de Lima, sean realizadas por los clientes de estado civil soltero.

3.2 Validación de los Modelos de Minería de Datos (Microsoft SQL Server)
Los modelos de validación permiten determinar los márgenes de distorsión. La plataforma de Minería de Datos proporciona diversos modelos de validación, la presente investigación solo validará el modelo Arbol de Decisión empleando los siguientes modelos de validación: Gráfico de elevación y Matriz de clasificación.
A continuación se va a describir el procedimiento que se ha implementado en la plataforma Microsoft SQL Server 2008 para la validación de los modelos de Minería de Datos implementados con las transacciones de tarjeta de crédito clásica de Saga Falabella en la ciudad de Lima.
3.2.1 Validación del modelo Árbol de Decisión
3.2.1.1 Gráfico de Elevación:

El gráfico de elevación permitirá representar los resultados que generaría un modelo ideal, asi como los resultados de previsión aleatoria. La mejora respecto a la línea aleatoria nos indicará una mejora respecto al modelo predictivo.
El procedimiento para la implementación es la siguiente:

- Se debe utilizar la ficha Selección de entrada para configurar el modelo de destino (Gráfico de Elevación) y elegir un conjunto de datos de prueba.

- Hacer clic en la ficha Gráfico de elevación y seleccionar Gráfico de elevación en la lista Tipo de gráfico.


Gráfico Nro. 6: Gráfico de elevación de M.D. para el modelo ArbDecMaeCliente

Fuente: Plataforma Minería de Datos

Resultados:

- El gráfico muestra en el eje X el porcentaje del conjunto de datos de prueba que se usa para comparar las predicciones, y en el eje Y representa el porcentaje de valores de predicción.

- En el gráfico muestra una línea de color rojo para el modelo ideal, asimismo una línea de color azul que es la línea base con la que se evalúa la elevación. Entre estas dos líneas anteriormente descritas se muestra una línea de color verde, que significa la elevación real o mejora en los resultados.

- Del gráfico además se muestra que la línea ideal alcanza el máximo cerca del 55%, lo que significa que si tuviera un modelo perfecto podría llegar al 100% de los clientes destino enviando correo únicamente al 55% de la población total.

- Del gráfico la elevación real para el modelo al destinarse al 55% de la población está entre el 70 y 80%, lo que significa que se podría llegar al 70 o 80% de los clientes destino enviando correo al 55% de la población total de clientes.
1   2   3   4

similar:

Informe de validación cruzada 23 iconLa próxima cruzada empresarial

Informe de validación cruzada 23 iconGrupo sanguíneo, rh y prueba cruzada

Informe de validación cruzada 23 iconLa cruzada de los medios en América Latina”, de Denis de Moraes

Informe de validación cruzada 23 iconCuestionario para la validación de material primas no ecológicas...

Informe de validación cruzada 23 iconInforme Avance: 1 Período de Informe

Informe de validación cruzada 23 iconInforme de

Informe de validación cruzada 23 iconInforme de

Informe de validación cruzada 23 iconInforme no. 51/13

Informe de validación cruzada 23 iconInforme Final

Informe de validación cruzada 23 iconInforme Delors




Todos los derechos reservados. Copyright © 2019
contactos
b.se-todo.com