Wednesday, March 5, 2014

Implementación de la solución propuesta.

Tesis.

Esta semana en la redacción de la tesis se logró un avance en cuestión de corrección de errores y completar los capítulos anteriores al de metodología y avances en éste último y en el de solución propuesta.

En general las tareas realizadas fueron las siguientes:
  • Se completaron los primeros 3 capítulos.
  • Corrección de errores y agregar contenido a secciones.
  • Se rotó la cabecera de la matriz de características de trabajos similares para que las columnas fueran menos anchas y pudiera colocarse de manera vertical.
  • Se modificó el archivo .bst que da estilo a la bibliografía, para que los "and" se cambiaran por "y".
  • Corrección plurales y singulares al citar autores.

Código y análisis.

Esta semana se trabajo más en análisis que en código. Lo que realicé fue documentarme sobre minería de datos y la manera en que se procesan y analizan los datos.

Encontré que para un buen procesamiento los datos deben ser pre-procesados y para esto deben pasar por una serie de pasos:

  • Limpieza de datos (data cleaning).
Este proceso involucra llenar valores faltantes, identificar valores no comúnes o atípicos y corregir inconsistencias.

En cuanto a identificar y llenar valores faltantes se encuentran varios procesos, por ejemplo ignorar registros con valores faltantes, llenar esos valores manualmente, llenar con un valor pre-establecido, utilizar medidas de tendencia central (promedio, media, mediana) para llenar los valores faltantes y utilizar árboles de decisión o inferencia bayesiana para determinar el valor más probable.

  • Identificar valores no comúnes o atípicos
Este proceso se refiere a identificar los valores que se encuentran muy alejados del conjunto de datos. Para realizar esto existen varios métodos, por ejemplo:
    • Agrupamiento (binning)
Esto se hace ordenando los datos y realizando grupos, por ejemplo tercias, a partir de esto se puede tomar la media de los 3 valores y el resultado reemplazarlo en todos los valores; también se toma el valor máximo y mínimo del grupo y se van reemplazando sus vecinos.
Imagen tomada del libro "Data Mining Concepts and Techniques"
    • Análisis de valores atípicos (Outlier analysis).
En este método valores similares son agrupados, y los valores que queden fuera de dichos grupos no son tomados en cuenta para su análisis por ser valores atípcos.


Imagen tomada del libro "Data Mining Concepts and Techniques"
    • Corregir inconsistencias.
    Esto es corroborar que nombres de campos no se repitan en las tablas de la base de datos, que el sistema utilice los mismos tipos de variables que los campos en las tablas, usar un mismo formato de fecha, utilizar las variables adecuadas para prevenir que se intenten agregar valores más grandes o campos nulos, entre otros.


    Mi aportación en código es una pequeña función para identificar los valores atípicos y eliminarlos del conjunto de datos, por el momento está implementado con valores fijos pero para la próxima semana la implementaré en el proyecto. También se verificó que los datos de lo que se encuentra implementado sea consistente con la base de datos para evitar problemas posteriores y se avanzó la aplicación en Django en cuanto a cumplir con el model vista controlador.





    También en análisis identifiqué cuáles son los datos que me van a proporcionar cada que se utilice la herramienta, los cuales voy a utilizar para analizarlos. El uso de la herramienta me va a proporcionar los siguientes datos:
    • Lugar de la construcción.
    • Si acredita o no la normatividad.
    • Materiales utilizados.
    • Porcentaje de ahorro energético.
    Estos datos al ser analizados deberán determinar:
    • Patrones de materiales que son más bioclimáticos.
    • Los lugares donde un material es comúnmente utilizado.
    • El porcentaje de construcciones bioclimáticas por estado.
    • Una relación entre ciudades y porcentajes de ahorro energético

    Fuentes

    Jiawei Han, Micheline Kamber, y Jian Pei. Data mining: concepts and techniques. Morgan Kaufmann, 2012.

    No comments :

    Post a Comment