Requerimientos

Para comenzar el trabajo se necesita la última versión de R y RStudio (R Core Team 2020).También se requiere de los paquetes pacman, rmarkdown, tidyverse y tinytex. Si no se ha usado R o RStudio anteriormente, el siguiente video muestra cómo instalar ambos programas y los paquetes necesarios para este curso en el siguiente link.

El código para la instalación de esos paquetes es el siguiente:

En caso de necesitar ayuda para la instalación, contactarse con el instructor del curso.

0.1 Antes de comenzar

Si nunca se ha trabajado con R antes de este curso, una buena herramienta es provista por el paquete Swirl (Kross et al. 2017). Para comenzar la práctica, realizar los primeros 7 modulos del programa R Programming: The basics of programming in R que incluye:

  • Basic Building Blocks
  • Workspace and Files
  • Sequences of Numbers
  • Vectors
  • Missing Values
  • Subsetting Vectors
  • Matrices and Data Frames

El siguiente link muestra un video explicativo de cómo usar el paquete swirl Video

0.2 Descripción del curso

El objetivo de este curso es el poder decidir cuando hacer modelos predictivos y cuando modelos explicativos. Cuando usar modelos estadísticos y cuando algoritmos de inteligencia artificial.

0.3 Objetivos del curso

  1. Entender con claridad que es un modelo estadístico como una aproximación al entendimiento de un fenómento

  2. Conocer y entender cuando un modelo es predictivo y/o cuando es explicatico, y que medidas nos permiten establecer que tan bueno es un modelo para predecir y/o explicar

  3. Conocer y aplicar los conceptos de Inferencia Multimodelo, en particular selección de modelos y el saber cuando elegir el “mejor” modelo, y cuando promediar entre varios candidatos.

  4. Entender el como utilizar algoritmos de Machine learning, como mejorarlos y como medir su desempeño.

0.4 Contenidos

  • Capítulo 1 Tipos de modelos: En este capítulo se aprenderá sobre la diferencia entre un modelos predictivo y explicativo. Cuando queremos trabajar con cada uno de ellos, y como usar los criterios de información para encontrar un balance entre predicción y explicación.

  • Capítulo 2 Selección de modelos: En este capítulo se trabajará en la selección de modelos basandonos en criterios de información. Para esto discutiremos cuál es el conjunto de modelos que compiten por ser seleccionados, como elegimos el mejor modelo, y en caso que sea necesario, como promediar entre modelos similares.

  • Capítulo 3 Introducción a los GLMs: Entendiendo cuando y para que usar los distintos GLMs.

  • Capítulo 4 Automatización de selecciond de modelos: En este capítulo entenderemos la diferencia entre variables fijas y aleatorieas, y además veremos como automatizar la selección de modelos.

  • Capítulo 5 Crossvalidation: En este capítulo entenderemos el concepto de crossvalidation, un concepto totalmente necesario para poder entender Machine Learning.

  • Capítulo 6 Crossvalidation: En este capítulo entenderemos el concepto de machine learning.

0.5 Metodología

Todas las clases estarán divididas en dos partes: I. Clases expositivas de principios y herramientas, donde se presentarán los principios de investigación reproducible y tidy data, junto con las herramientas actuales más utilizadas, y II. Clases prácticas donde cada estudiante trabajará con datos propios para desarrollar un documento reproducible. Los estudiantes que no cuenten con datos propios podrán acceder a sets de datos para su trabajo o podrán simularlos, dependiendo del caso.

Además, se deberán generar informes y presentaciones siguiendo los principios de investigación reproducible, en base al trabajo con sus datos. Se realizará un informe final, en el cual se espera un trabajo que compile los conociminetos adquiridos durante el curso.

0.6 Libros de consulta

El libro más importante para los contenidos es el libro de Inferencia Multimodelos (Anderson and Burnham 2004), para la segunda parte (machine learning), el libro más relevante es el de modelos predictivos (Kuhn and Johnson 2013)

0.7 Bibliografía

References

Anderson, D, and K Burnham. 2004. “Model Selection and Multi-Model Inference.” Second. NY: Springer-Verlag 63.

Kross, Sean, Nick Carchedi, Bill Bauer, and Gina Grdina. 2017. Swirl: Learn R, in R. https://CRAN.R-project.org/package=swirl.

Kuhn, Max, and Kjell Johnson. 2013. Applied Predictive Modeling. Vol. 26. Springer.

R Core Team. 2020. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.