Curs: Introducció als arbres de regressió i classificació i red neuronals amb R

Introducción a los árboles de regresión y clasificación y redes neuronales con R

Presentación:

La minería de datos es un proceso que permite descubrir y explorar patrones en grandes volúmenes de conjuntos de datos. En este sentido, son una herramienta clave en el proceso de toma de decisiones basadas en la información. Sus aplicaciones pueden cubrir un amplio rango de problemas, incluyendo la clasificación de especies en biología, la predicción del pronóstico de pacientes en biomedicina, el análisis de la fidelidad de los consumidores en business intelligence, el análisis del cesto de la compra a partir de los ficheros recogidos por las superficies comerciales (market basket analysis) o bien análisis de genómica funcional en los experimentos de microarrays de DNA y similares.

El objeto principal del presente curso són las dos técnicas más importantes en la minería de datos: árboles de clasificación / regresión y redes neuronales.

Los métodos basados en árboles, tales como los métodos CART (Classification and Regression Trees), pretenden explicar y/o predecir una variable respuesta a partir de un conjunto de variables predictoras mediante un conjunto de reglas sencillas. Respecto los modelos tradicionales, los métodos CART pueden ser particularmente eficientes para modelar interacciones entre variables explicativas. Estas técnicas fueron inicialmente propuestas en el ámbito de las ciencias sociales (Morgan y Sonquist, 1963), siendo su formalización estadística posterior (Breiman, Friedman, Olshen y Stone, 1984).

Las redes neuronales fueron inicialmente concebidas como una emulación del cerebro humano (McCullogh y Pitts, 1943) inspirándose en la interacción y comunicación entre neuronas, con el objetivo de desarrollar métodos computacionales para resolver problemas complejos. Los métodos actuales basados en redes neuronales han sido desarrollados tanto desde el campo de la inteligencia artificial como de la estadística aplicada, convergiendo en numerosos aspectos. Como modelo estadístico, una red neuronal está basada en combinaciones lineales y no lineales de variables predictoras que, a su vez, interaccionan con otras combinaciones lineales o no lineales para explicar una variable respuesta. Entre las redes neuronales estadísticas más populares destaca la denominada feed-forward neural network (Bishop (1995), Hertz, Krogh y Palmer (1991) y Ripley (1993,1996)), que establece que la interacción con la variable respuesta se realiza des de los inputs (variables predictoras) hasta los outputs (variables respuesta) a través de capas ocultas (hidden layers).

A la práctica, ambas técnicas (métodos CART y redes neuronales) pueden proveer resultados válidos para explicar o predecir una variable respuesta, no obstante estos modelos tienden al sobre ajuste, por lo que la validación del modelo resulta esencial. Los métodos ROC, incluyendo un análisis de sensibilidad/especificidad y/o validaciones internas y externas pueden ayudar a evaluar la consistencia de estas soluciones.

Destinatarios:

El curso: Introducción a los árboles de regresión y clasificación y redes neuronales con R está dirigido a universitarios, profesorado y profesionales de cualquier ámbito que deseen descubrir nuevas herramientas de análisis de sus datos, introducirse en las técnicas de redes neuronales y árboles de clasificación/regresión y/o aprender aspectos metodológicos de la minería de datos.
Es necesario poseer conocimientos de inferencia estadística y modelización así como conocimientos básicos del programa estadístico R.
Las personas que hayan cursado el "Curso de introducción a R" (del 4 al 7 de febrero) se les aplicará un descuento equivalente al 25% de la cuota del curso introductorio. Descuentos no acumulables.

Profesorado:

Llorenç Badiella - Director del Servei d'Estadística Aplicada, UAB
                                Profesor asociado del Departamento de Matemáticas, UAB

Joan Valls - Institut de Recerca Biomèdica de Lleida
                     Profesor asociado del Departamento de Matemáticas, UAB

Programa del curso:

En el curso se presentará la teoría básica conceptual necesaria para enfatizar los aspectos más prácticos y aplicados de las técnicas. Las sesiones incluirán ejercicios con datos reales que serán resueltos con el paquete estadístico R.

Sesión 1: Árboles de regresión

  • Introducción a los métodos basados en árboles
  • Variable continua respuesta y descomposición de la suma de cuadrados
  • Algoritmo recursivo binario para la generación de particiones. Criterio de maximización
  • Tamaño del árbol y comparación con los modelos lineales
  • Ejercicios

Sesión 2: Árboles de clasificación

  • Medidas de dispersión para variables categóricas: devianza, entropía y Gini
  • Particiones binarias para respuesta categórica
  • Comparación con el modelo de regresión logística
  • Ejercicios

Sesión 3: Redes neuronales

  • Especificación de una red neuronal: input, output, layers, hidden layers, forward-propagation, función de activación
  • Red neuronal para respuesta continua
  • Redes neuronales con saltos de capa (skip-layers)
  • Entrenamiento (training) de una red neuronal. Métodos numéricos para la estimación
  • Red neuronal para respuesta categórica
  • Métodos de suavizado, parámetro weight decay
  • Ejercicios

Sesión 4: Métodos de validación

  • Validación interna y externa
  • Muestras de entrenamiento y de validación
  • Análisis de sensibilidad y especificidad. Curvas ROC
  • Validaciones cruzadas
  • Validación interna y externa
  • Aplicación a CART y redes neuronales
  • Ejercicios

Detalles de organización:

El curso: Introducción a los árboles de regresión y clasificación y redes neuronales con R se impartirá los días 25, 26, 27 y 28 de Junio de 2013 de 10:00 a 14:00.

La duración total del curso es de 16 horas.

El número máximo de asistentes es de 20.

La preinscripción se podrá formalizar vía el Servei d'Estadística rellenando el formulario de preinscripción que encontrareis a la web. Una vez recibido vuestro formulario, os confirmaremos mediante un correo electrónico si tenéis plaza asignada o bien si estáis a la lista de espera

Cuotas de inscripción (2013):

Concepto Cantidad Importe
    Externo Esfera UAB AIE
Inscripción
(antes del 9 de Junio)
1 asist 450,00 €  450,00 €  270,00 €  100,00 €
Inscripción
(después del 9 de Junio)
1 asist 590,00 €  590,00 €  400,00 €  250,00 €

 

Tarifa UAB: Se podrán acoger a esta tarifa todos los interesados que pertenezcan a la comunidad universitaria (PAS, profesores, estudiantes), así como los estudiantes de otras universidades que lo acrediten enviándonos una copia de la matrícula del curso vigente. En caso de desear factura se deberán inscribir con otra tarifa.

NOVEDAD

     
En conmemoración del Año Internacional de la Estadística todos los alumnos matriculados en un grado, master o doctorado de Estadística se podrán acoger a la tarifa AIE (100 €) en cualquier curso del SEA.

(*) Descuentos especiales para personas en situación de paro. Presentando copia del documento de alta o de renovación de la solicitud de ocupación emitido por la Oficina de trabajo de la Generalitat de Catalunya.

(*) Descuentos especiales para grupos de personas procedentes de la misma empresa/institución.

 

Detalles de pago:

Una vez formalizada la preinscripción, recibiréis un correo electrónico informando de los detalles para realizar el pago de la inscripción.

Las personas interesadas en solicitar la factura a nombre de una empresa, deberán de hacer constar al justificante del pago de su cuota el nombre de su entidad y NO el del propio asistente al curso. Una vez se haya efectuado el pago del curso, y si no hay ningún motivo de fuerza mayor, no se devolverá el dinero de la inscripción.

Antes de efectuar el pago, esperad a recibir nuestra confirmación de la reserva de la plaza para el curso.

Bibliografia

T Hastie, R Tibshirani, J Friedman. (2009) The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer, New York.

B Ripley. (2002) Pattern Recognition and Neural Networks, Cambridge University Press, Cambridge.

L Torgo. (2010) Data Mining with R. Learning with Case Studies, Chapman & Hall, Miami.

J Faraway. (2006) Extending the Linear Model with R, Chapman & Hall, Miami.

J Faraway. (2005) Linear Models with R, Chapman & Hall, Boca Raton.

W Venables, B Ripley. (2002) Modern Applied Statistics with S-PLUS, Springer, New York.

 

Campus d'excel·lència internacional U A B