8 de junio de 2019

Mundo R

Atajos del teclado

  • CTRL + L: limpiar la consola.
  • CTRL + Enter: ejecutar código.
  • CTRL + Shift + M: operador de tubería (%>%)
  • CTRL + Shift + K: compilar documentos RMardkown.
  • CTRL + Alt + i: insetar chunk o fragmento de R en documento RMarkdown.
  • CTRL + s: guardar de forma rápida.
  • CTRL + Shift + Enter: ejecución del script completo.

Tipos de datos en R

  • Numéricos: todo dato en la escala de los reales - numeric.
  • Enteros: toda información cuantitativa sin decimales - integer.
  • Lógicos: datos dicotómicos con dos posibles resultados (TRUE o FALSE) - logical.
  • Caracteres: datos tipo texto (sin jerarquia) - character.
    • Factores: datos tipo texto (con jerarquia). De gran utilidad para manejar variables categóricas o cualitativas - factor.
  • Complejos: datos numéricos con inclusión del número imaginario (i) - complex.

Objetos estructurados

  • Vector: los vectores tiene la característica de almacenar información de un sólo tipo (por ejemplo, sólo puedo tener numéricos o caracteres, pero no ambos) - c() o vector().
  • Matriz: las matrices son arreglos de dos o más dimensiones con la misma característica de los vectores, sólo permiten almacenar información de un sólo tipo - matrix().
  • Listas: las listas permiten almacenar información de cualquier tipo; son altamente flexibles para procesos iterativos - list().
  • Dataframe: similar a una hoja de cálculo en excel. Constituye la materia prima (bases de datos) para cualquier proceso de Ciencia de Datos.
  • Factores: se definen como vectores de caracteres con estructura jerárquica (niveles) - factor().

Funciones auxiliares generales 1

  • str(): devuelve la estructura interna de un objeto cualquiera.
  • class(): devuelve la clase atómica de un objeto, es decir, el tipo de dato.
  • levels(): devuelve los niveles de un factor.
  • names(): observar o editar los nombres de un objeto.
  • rownames(): observar o editar los nombres de las filas de una matriz o una base de datos (dataframe).
  • colnames():observar o editar los nombres de las columnas de una matriz o una base de datos (dataframe).

Funciones auxiliares generales 2

  • length(): devuelve la longitud de un objeto. La longitud de un vector es el número de datos del mismo, sin embargo, la longitud en un dataframe o una matriz es el número de columnas o variables.
  • dim(): devuelve las dimensiones de una matriz o un dataframe.
  • nrow(): devuelve el número de filas de un objeto.
  • ncol(): devuelve el número de columnas de un objeto.

Funciones auxiliares numéricas 1

  • summary(): resumen numérico general. Es una función genérica.
  • mean(): devuelve la media. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - mean(x, na.rm = TRUE).
  • median(): devuelve la mediana. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - median(x, na.rm = TRUE).
  • min(): devuelve el valor mínimo. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - min(x, na.rm = TRUE).
  • max(): devuelve el valor máximo. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - max(x, na.rm = TRUE).
  • sd(): devuelve la desviación estándar. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - sd(x, na.rm = TRUE).

Funciones auxiliares numéricas 2

  • var(): devuelve la varianza. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - var(x, na.rm = TRUE).
  • IQR(): devuelve el rango intercuartílico. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - IQR(x, na.rm = TRUE).
  • range(): devuelve el rango de un objeto numérico. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - range(x, na.rm = TRUE).
  • quantile(): devuelve cuartiles, deciles o percentiles. La función requiere del valor de probabilidad para las medidas de posición (probs = 0.25). Si hay valores NAs se debe agregar el argumento na.rm = TRUE - quantile(x, probs = 0.25, na.rm = TRUE).

Funcionespara importar datos

  • load(): funcion que permite importar informacion en formato .Rdata (Lenguaje especifico de datos de R).
  • read.csv(): funcion para importar datos en formato csv(separados por comas), donde el decimal esta definido por el punto (.).
  • read.csv2():funcion para importar datos en formato csv(separados por punto y comas), donde el decimal esta definido por la coma (,).
  • read.table(): funcion para importar datos en formato txt (taxto plano o sin formato), donde el decimal está dadpo por el punto(.)
  • Datos en formato office: para importar datos en fromato .xls o .xlsx es necesario instalar la biblioteca readxls e implementar la funcion read_xlsx() o read_xls().
  • Datos en formato ODS: para importar datos en fromato .ods es necesario instalar la biblioteca readODS e implementar la funcion read.ods() o read_ods().

##funciones para exportar datos

  • save(): funcion para exportar datos en formato .Rdata. No olvidar que la funcionsave() permite diferenciar niveles de compresion a traves del argumento compress.level.
  • write.csv(): funcion que permite exportar datos en formato .csv (seprardo por comas) y el decimal esta definido por el punto (.).
  • write.csv2(): funcion que permite exportar datos en formato .csv2 (seprardo por punto y comas) y el decimal esta definido por la coma(,). -write.table(): funcion que permite exportar datos en formato .txt (texto plano o sin formato) y el decimal esta definido por el punto (.).
  • Datos en formato offcie: para exportar datos en formato .xls o .xlsx es necesario instalar las bibliotecas write_xlsx() o writeXLS(), respectivamente.

#Tidyverse

Introduccion

  • Que el tidyverse no es una biblioteca en si misma, es un grupo de bilbiotecas o componentes que conforman el paradigma de programa de datos ordenados (tidydata).
  • los datos ordenados tienen las siguientes tres caracterisiticas: - Cada fila es una observacion, individuo o registro. - Cada columna es una variable. - Cada celda es un dato.
  • Algunas de las bibliotecas que componen el tidyverse son: dplyr, tidyr, ggplot2
  • El tidyverse pose la particularidad de concatenar procesos a traves del operados de tuberia ( %>% )

dplyr

Manejo y gestion de datos

  • filter() : filtar filas bajo una o más condiciones.
  • slice() : seleccionar filas basado en la indexación (posición).
  • arrange() : ordenar filas en función de algun criterio. por defecto la funcion ordena las filas de manera ascendente. sin embargo con el argumento desc es posible cambiar dicho orden.
  • select() : seleccionar columnas por nombre.
  • rename() : editar nombres de variables.
  • mutate() : editar o crear nuevas variables en funcion de las existentes.
  • group_by() : permite conformar grupos “latentes” para resumenes numericos. la gran mayoria de veces esta acompañada de la funcion summarise
  • summarise() : permite obtener resúmenes numéricos para variables de interés (agrupadas o sin agrupar).

##Conversión de formatos con tidyr

La biblioteca tidyr permite conversiones de formatos. Es de utilidad para psar de formatos largos a anchos o vicerversa.

  • gather() : conversión de formato ancho a largo, es decir que permite aumentar la dimensionalidad de los datos (aumentar el nímero de variables)
  • spread() : conversión de formato largo a anacho, es decir, que permite aumentar la dimensionalidad de los datos (amuentar el número de columnas).
  • Caracteristica principal: siempre cualquiera de las dos funciones debe contener una llave (key) y un valor (value) asociando dicha llave.
  • Las funciones separate() y unite() son de utilidad para separar o unir columnas.

##Visualizazion con ggplot2

Permite visualizar gráficos con instrucciones dadas por capas.

  • Sintaxis principal :
    • 1era capa: ggplot(data=datos,mapping= aes (x,y))
    • 2da capa: adignacion de objetos geométricos con las funciones que tiene el prefijo geom_:
      • geom_boxplot(), geom_histogram(), geom_density(), `geom_point(), geom_bar(),geom_col(), entre otras.
    • 3ra capa : asignacion de rótulos. Es posible hacerlo con la funcion labs().
    • Cada capa se adiciona con el simbolo (+).

#Estilo con css

##pasos a seguir…

  1. Crear archivo .css (darle nombre) en el mismo directorio de trabajo.
  2. Editar o inpcorporar clases para formatos especificos de texto.
  3. Dar nombre a la clase en css (puede ser cualquiera) seguido de las llaves {}. Dentro de las llaves se indican los formatos especificos; en este caso, el color. rojo {color:red;}
  4. Incorporar en los meta datos (con la opcion css) el archivo (.css) que determina el estilo del documento.
  5. Hacer uso de la clase especofoca de la siguiente manera: <rojo> cualquier texto </rojo>: cualquier texto
  6. Mayor informacion en W3schools