Minería de Datos y Machine Learning – Módulo I: Fundamentos y Preparación de datos

Inicio:
25 septiembre, 2020
Hora:
6:00 pm
DURACIÓN: 32 horas académicas en 8 sesiones
HORARIO: Miércoles y viernes de 6.00 pm a 9.15 pm (Hora de Lima, UTC -5)
MODALIDAD: Online en vivo
Este módulo del curso tiene como objetivo introducir a los participantes en los fundamentos de la minería de datos y el aprendizaje automatizado, así como presentar diversas técnicas de exploración, visualización y preparación de datos previos al modelamiento.
20% Dscto. Precio Regular: US$ 265
#QuédateEnCasa
- Reconocer los conceptos fundamentales asociados a Minería de Datos, entendiendo cuáles son las diferentes fuentes de información a utilizar.
- Entender las 4 fases fundamentales del aprendizaje automatizado.
- Comprender el Proceso de Descubrimiento de Conocimiento en Bases de Datos(KDD).
- Realizar un pre procesamiento de datos, con la finalidad de posteriormente entender y aplicar las diferentes técnicas de extracción de conocimiento de datos.
- Entender los grandes desafíos del análisis de bases de datos a nivel del Preprocesamiento necesario.
- Aplicar e interpretar adecuadamente las principales técnicas de Minería de Datos usando R y RStudio.
- Comprender el desarrollo de los algoritmos de las principales técnicas de Minería de Datos.
- Presentar de manera efectiva los resultados obtenidos.
TEMA 1: Conceptos básicos (3 horas)
- Breve historia de la analítica de datos.
- Definiciones básicas: Estadística. Ciencia de Datos. Minería de Datos. Aprendizaje automatizado. Relación con otras disciplinas
- Las 4 fases fundamentales del aprendizaje automatizado:
- Entendimiento de datos: ¿Qué nos están diciendo?
- Predicción: ¿Que sucederá?
- Toma de decisiones: ¿Qué hacer?
- nferencia causal: ¿Funcionará?
- Taxonomía de las técnicas de Minería de Datos: Tipos de modelos. Tipos de
aprendizaje. Técnicas no supervisadas y supervisadas. Aplicaciones. - Fases de la Minería de Datos. Descubrimiento de Conocimiento en Bases de
datos (KDD). - CRISP-DM: Estructura Básica. Fases.
- Herramientas de Minería de Datos.
TEMA 2: Entendimientos de datos (5 horas)
- El proceso de Entendimiento de datos.
- Tipos de datos.
- Datos de registro: Atributos y escala de Medición.
- Exploración y Visualización de datos.
- Resumen de datos: medidas estadísticas de tendencia, posición (cuantiles), variabilidad y asimetría.
- Gráficos univariados y bivariados
UNIDAD 2: PREPROCESAMIENTO DE DATOS
TEMA 3: Limpieza y transformación de datos (16 horas)
- Importancia y calidad de datos.
- Principales tareas.
- Datos perdidos: Tipos. Detección. Imputación.
- Outliers (valores atípicos): Outliers univariados. Outliers multivariados. Outliers
- Transformación de datos: Puntajes Z.
basados en densidad local. Otros métodos.
TEMA 4: Reduccion de información (8 horas)
- Discretización.
- Reducción de la dimensionalidad y extracción de nuevas características: Análisis de Componentes Principales.
Enver Tarazona
Enver trabajó como experto de la Dirección de Calidad, Procesos y Lealtad de Telefónica Móviles S.A. Cuenta con más de 12 años de experiencia como docente en las principales universidades del país, desempeñándose actualmente como profesor auxiliar del Departamento Académico de Ciencias de la Pontificia Universidad Católica del Perú (PUCP). Es también profesor contratado en el Departamento Académico de Economía en la Universidad del Pacífico y la maestría de Ciencia de los Datos en la Universidad Ricardo Palma, además de profesor visitante en la maestría de Estadística Aplicada de la Universidad Nacional Agraria La Molina (UNALM).
Enver es Ingeniero Estadístico e Informático de la UNALM y Magíster en Estadística por la Pontificia Universidad Católica del Perú (PUCP), además de estudios culminados de maestría en Educación en la Universidad Peruana Cayetano Heredia (UPCH) y un diploma de segunda especialidad en Medición y Evaluación de Aprendizajes por la Pontificia Universidad Católica de Chile (UC). Cuenta además con diversas especializaciones en Machine Learning, Data Science y Big Data en el MIT, la Universidad de Columbia y la UC.
Se requieren los siguientes conocimientos previos:
- Conocimientos básicos de análisis de datos
- Manejo de datos con R
Antes de asistir:
1. Instale Zoom Client for Meetings. Recibirá una invitación a las sesiones de Zoom de parte de los instructores después de registrarse en el curso. El cliente nativo funciona mejor que el complemento del navegador.
2. Instale la última versión de R desde https://www.r-project.org/
3. Instale la última versión de RStudio desde http://www.rstudio.com/ide/download/
4. Asegúrese de tener una conexión a Internet estable y de que su micrófono, auriculares y cámara web funcionen en Zoom. Deberá utilizarlos durante todo el curso para comunicarse con los instructores y otros delegados.
DIRIGIDO A: Analistas de datos. Profesionales relacionados a la inteligencia de negocios, investigación de mercados e interesados en el área de Ciencia de Datos. Académicos e investigadores. Público en general que requiera extraer conocimiento desde diferentes fuentes de información.
METODOLOGÍA: La metodología del curso se basa en una combinación de clases teóricas y análisis de casos prácticos en la computadora, con la finalidad de que el participante comprenda la metodología, la motivación, los supuestos, las fortalezas y las debilidades de los métodos tratados en el curso. Cada sección del curso está motivada por un conjunto de datos en particular, de tal forma que el participante gane experiencia trabajando con una amplia variedad de fuentes de datos similares a los que usa en la realidad. Los contenidos están estructurados en 8 sesiones con un total de 32 horas académicas (24 horas cronológicas).