Aprendizaje Supervisado: Regresión – Minería de Datos y Machine Learning (Módulo 2)

Inicio:
9 diciembre, 2020
Hora:
6:00 pm
DURACIÓN: 32 horas académicas en 8 sesiones
HORARIO: Miércoles de 6.00 pm a 9.15 pm (Hora de Lima, UTC -5)
MODALIDAD: Online en vivo vía streaming
El curso tiene como objetivo presentar los fundamentos del aprendizaje estadístico, discutir estrategias para evaluar la eficiencia predictiva de los modelos supervisados y presentar los principales modelos de regresión.
- Conocer las diferentes técnicas y modelos del aprendizaje estadístico y automatizado, que forman parte del proceso de aprendizaje supervisado y que son esenciales para la minería de datos.
- Aplicar computacionalmente los modelos aprendidos en diferentes campos como la industria, el comercio, la banca, los seguros, biología, etc.
- Comprender el desarrollo de los algoritmos de las principales técnicas de regresión.
- Presentar de manera efectiva los resultados obtenidos.
- Aprendizaje estadístico
- Ideas generales
- Aprendizaje estadístico vs. Machine Learning
- Aprendizaje estadístico vs. Ciencia de datos
- Principales problemas
- Predicción e Inferencia
- Modelos paramétricos y no paramétricos.
- Precisión vs. interpretación: Métodos inflexibles y métodos flexibles.
- Compromiso sesgo-varianza.
- Revisión de conceptos y notación básica
- Vectores aleatorios.
- Momentos de una distribución.
- Valor esperado.
- Matriz de varianza-covarianza y correlaciones.
- Combinaciones lineales.
- Distribución normal multivariada.
TEMA 2: Regresión lineal múltiple (8 horas)
- Definición y notación.
- Modelo lineal clásico.
- Estimación: Mínimos Cuadrados Ordinarios y Máxima Verosimilitud.
- Inferencia.
- Evaluación y selección de modelos.
- Evaluación de supuestos y análisis de residuos.
- Predicción.
- Predictores cualitativos.
TEMA 3: Evaluación de la performance predictiva (8 horas)
- Error de entrenamiento vs. error de prueba.
- Funciones de pérdida.
- Particionamiento del conjunto de datos.
- Técnicas de evaluación por remuestreo
- LOOCV (Leave Oune Out cross-validation)
- KCV (k-fold cross-validation)
- Bootstrap.
- Hiperparámetros.
- Selección de modelos
TEMA 4: Selección de variables (4 horas)
- Selección de Subconjuntos
- Selección de los mejores subconjuntos
- Selección Stepwise.
- Elección del modelo óptimo.
- Métodos de regularización
- Regresión Ridge
- Regresión Lasso
TEMA 5: Extensiones al modelo lineal (4 horas)
- Regresión Polinomial.
- Regresión usando Splines.
- Regresión local.
- GAMs (Modelos Aditivos Lineales)
Enver Tarazona
Enver trabajó como experto de la Dirección de Calidad, Procesos y Lealtad de Telefónica Móviles S.A. Cuenta con más de 12 años de experiencia como docente en las principales universidades del país, desempeñándose actualmente como profesor auxiliar del Departamento Académico de Ciencias de la Pontificia Universidad Católica del Perú (PUCP). Es también profesor contratado en el Departamento Académico de Economía en la Universidad del Pacífico y la maestría de Ciencia de los Datos en la Universidad Ricardo Palma, además de profesor visitante en la maestría de Estadística Aplicada de la Universidad Nacional Agraria La Molina (UNALM).
Enver es Ingeniero Estadístico e Informático de la UNALM y Magíster en Estadística por la Pontificia Universidad Católica del Perú (PUCP), además de estudios culminados de maestría en Educación en la Universidad Peruana Cayetano Heredia (UPCH) y un diploma de segunda especialidad en Medición y Evaluación de Aprendizajes por la Pontificia Universidad Católica de Chile (UC). Cuenta además con diversas especializaciones en Machine Learning, Data Science y Big Data en el MIT, la Universidad de Columbia y la UC.
Se requieren los siguientes conocimientos previos:
- Conocimientos de estadística descriptiva, inferencial y regresión lineal simple.
- Manejo de datos con R.
- Programación básica con R u otro lenguaje (recomendable).
Antes de asistir:
1. Instale Zoom Client for Meetings. Recibirá una invitación a las sesiones de Zoom de parte de los instructores después de registrarse en el curso. El cliente nativo funciona mejor que el complemento del navegador.
2. Instale la última versión de R desde https://www.r-project.org/
3. Instale la última versión de RStudio desde http://www.rstudio.com/ide/download/
4. Asegúrese de tener una conexión a Internet estable y de que su micrófono, auriculares y cámara web funcionen en Zoom. Deberá utilizarlos durante todo el curso para comunicarse con los instructores y otros delegados.
DIRIGIDO A: Analistas de datos. Profesionales relacionados a la inteligencia de negocios, investigación de mercados e interesados en el área de Ciencia de Datos. Académicos e investigadores. Público en general que requiera extraer conocimiento desde diferentes fuentes de información.
METODOLOGÍA: La metodología del curso se basa en una combinación de clases teóricas y análisis de casos prácticos en la computadora, con la finalidad de que el participante comprenda la metodología, la motivación, los supuestos, las fortalezas y las debilidades de los métodos tratados en el curso. Cada sección del curso está motivada por un conjunto de datos en particular, de tal forma que el participante gane experiencia trabajando con una amplia variedad de fuentes de datos similares a los que usa en la realidad. Los contenidos están estructurados en 8 sesiones con un total de 32 horas académicas (24 horas cronológicas).