Exercice 1.1 : Création de vecteurs

  1. Les 3 vecteurs sont créés en utilisant la fonction rep avec les arguments each et times:
vec1 <- rep(1:5,3)
vec1
vec2 <- rep(1:5,each=3)
vec2
vec3 <- rep(1:4,times=(2:5))
vec3
  1. La fonction paste concatène les vecteurs de type character:
vec4 <- paste("A",0:10,")",sep="")
vec4
  1. La position de la lettre q est calculée et ensuite le vecteur de lettre et le vecteur d’indices sont concaténés:
pos.q <- which(letters=="q")
vec5 <- paste(letters[1:pos.q],1:pos.q,sep="") 
vec5

Exercice 1.2 : Travailler avec les valeurs manquantes NA

  1. Créons le vecteur vec1 et calculons sa moyenne et sa variance:
set.seed(007)
vec1 <- runif(100,0,7)
mean(vec1)
var(vec1) 
  1. Allouons les valeurs manquantes
set.seed(008)
vec2 <- vec1
ind <- sample(1:100,10)
vec2[ind] <- NA
indNA <- which(is.na(vec2))
  1. Afin de ne pas obtenir de valeur manquante il est nécessaire d’utiliser na.rm=TRUE:
mean(vec2)
mean(vec2,na.rm=TRUE)
var(vec2)
var(vec2,na.rm=TRUE)
  1. Nous supprimons les valeurs manquantes et nous retrouvons les mêmes valeurs que précédemment avec l’argument na.rm=TRUE:
vec3 <- vec2[-indNA]
mean(vec3)
var(vec3)
  1. Si nous remplaçons les valeurs manquantes par la moyenne, la moyenne reste la même mais la variance est sous-estimée:
vec4 <- vec2
vec4[indNA] <- mean(vec3)
mean(vec4)
var(vec4)
  1. Les valeurs manquantes sont remplacées par des valeurs issues de tirages aléatoires selon une loi normale de moyenne la moyenne empirique de vec3 et d’écart-type empirique de vec3:
vec5 <- vec2
vec5[indNA] <- rnorm(length(indNA),mean(vec3),sd(vec3))
mean(vec5)
var(vec5)
  1. Les valeurs manquantes sont remplacées par des valeurs issues de tirages aléatoires selon une loi uniforme entre le minimum et le maximum des valeurs observées:
vec6 <- vec2
vec6[indNA] <- runif(length(indNA),min(vec3),max(vec3))
mean(vec6)
var(vec6)
  1. Ici nous procédons à un tirage avec remise parmi les valeurs non-manquantes:
vec7 <- vec2
vec7[indNA] <- sample(vec3,10)
mean(vec7)
var(vec7) 

Exercice 1.3 : Création et inversion d’une matrice

  1. Créons la matrice mat} avant de lui affecter des noms de lignes et colonnes:
mat <- matrix(c(1,0,3,4,5,5,0,4,5,6,3,4,0,1,3,2),ncol=4)
rownames(mat) <- paste("ligne",1:4,sep="-")
colnames(mat) <- paste("colonne",1:4)
  1. Les éléments diagonaux sont obtenus avec:
vec <- diag(mat)
vec
  1. Les deux premières lignes de mat:
mat1 <- mat[c(1,2),]
mat1
  1. Les deux dernières colonnes de mat:
mat2 <- mat[,(ncol(mat)-1):ncol(mat)]
mat2
  1. Toutes les colonnes sauf la troisième:
mat3 <- mat[,-3]
mat3
  1. Pour calculer le déterminant, il suffit d’utiliser les fonctions det et solve:
det(mat)
solve(mat)

Exercice 1.4 : Sélection et tri dans un data-frame

  1. Chargeons le jeu de données iris puis créons un nouveau jeu de données en sélectionnant uniquement les individus qui prennent la valeur “versicolor” pour la cinquième variable:
data(iris)
iris2 <- iris[iris[,5]=="versicolor", ]
  1. On trie en fonction de la première variable à l’aide de la fonction order:
iris2[order(iris2[,1],decreasing=TRUE),]

Exercice 1.5 : Utilisation de la fonction apply

  1. Pour calculer les statistiques de base, il suffit d’utiliser la fonction summary:
library(lattice) # appel du package
data(ethanol)
summary(ethanol)
  1. Pour calculer les quantiles, nous pouvons utiliser la fonction apply:
apply(X=ethanol,MARGIN=2,FUN=quantile)
  1. L’instruction de la question précédente donne par défaut les quartiles. En effet, nous n’avons pas spécifié d’argument probs pour la fonction quantile, donc l’argument utilisé est celui défini par défaut: probs=seq(0,1,0.25) (voir l’aide de la fonction quantile). Pour obtenir les déciles, il faut donc spécifier comme argument probs=seq(0,1,by=0.1). L’aide de la fonction apply indique les arguments optionnels via …: optional arguments to ‘FUN’. Il est alors envisageable de passer comme argument probs=seq(0,1,by=0.1) à la fonction FUN=quantile:
apply(ethanol,2,quantile,probs=seq(0,1,by=0.1))

Exercice 1.6 : Sélection dans une matrice avec la fonction apply

  1. La matrice contenant les colonnes de mat qui possèdent uniquement des valeurs plus petites que 6 est obtenue par:
mat <- matrix(c(1,0,3,4,5,5,0,4,5,6,3,4,0,1,3,2),ncol=4)
mat3 <- mat[,apply((mat<6),2,all)] 
mat3
  1. Comme il n’y a qu’une seule ligne qui ne contient pas de 0, nous utilisons drop=FALSE afin que la sélection reste une matrice (et non pas un vecteur, ce qui est le comportement par défaut):
mat4 <- mat[apply((mat>0),1,all),,drop=FALSE]
mat4

Exercice 1.7 Utilisation de la fonction lapply

  1. Le package MASS et le jeu de données Aids2 sont chargés grâce à:
library(MASS)   # chargement du package
data(Aids2)
summary(Aids2)
  1. La fonction is.numeric retourne un booléen: TRUE quand l’objet sur lequel elle est appliquée est de type numeric. Nous allons donc appliquer cette fonction à chaque colonne du data-frame Aids2 et ensuite prendre la négation (opérateur !). Comme un data-frame est une liste où chaque composante est une colonne (en général), appliquer la fonction à chaque colonne est (habituellement) équivalent à appliquer la fonction à chaque composante de la liste; c’est ce que fait la fonction lapply:
ind <- !unlist(lapply(Aids2,is.numeric))
  1. Nous avons juste à sélectionner les variables (i.e. les colonnes du data-frame) avec le vecteur de booléen ind:
Aids2.qual <- Aids2[,ind]
  1. Nous utilisons la fonction levels sur chaque composante (colonne) du data-frame Aids2.qual:
lapply(Aids2.qual,levels)

Exercice 1.8 Modalités des variables qualitatives et sélection

1.Le package MASS et le jeu de données Aids2 sont chargés grâce à:

library(MASS)   # chargement du package
data(Aids2)
  1. Les sélections sont obtenues par:
res <- Aids2[(Aids2[,"sex"]=="M")&(Aids2[,"state"]!="Other"),]

Une autre méthode serait d’utiliser la fonction subset.

  1. Le résumé indique que les modalités sont toujours les mêmes, M et F, mais qu’aucun individu n’est dans la catégorie F:
summary(res)
  1. Les attributs de la variable sex sont:
attributes(res[,"sex"])
  1. Transformons la variable sex en vecteur de caractère et imprimons les attributs du résultat:
sexc <- as.character(res[,"sex"])
attributes(sexc)
  1. Transformons le vecteur de caractères sexc en vecteur de type factor:
sexf <- as.factor(sexc)
attributes(sexf)
  1. Trouvons les indices des variables non quantitatives:
ind <- !unlist(lapply(res,is.numeric))
ind
  1. Transformons ces variables en vecteurs de caractères:
res[,ind] <- lapply(res[,ind],as.character)
  1. Re-transformons ces variables en vecteur de type factor:
res[,ind] <- lapply(res[,ind],as.factor)
summary(res)
