######Etude du fichier banque load("/Users/zani/Documents/Enseignement/L3Miage/FichiersTP/banque.rda") banque summary(banque) nrow(banque) tab1=table(banque$csp,banque$cableue) tab1 barplot(tab1,col=c("green","blue","red","yellow","grey","pink","purple","orange","lightblue")) par(mfrow=c(3,3)) for (k in 1:9) barplot(tab1[k,],col=c('blue','green'), main=row.names(tab1)[k]) par(mfrow=c(1,1)) mosaicplot(tab1,col=c("blue","green")) # le diagramme en mosaique et les barplot laissent penser #que la possession d'une carte bleue dépend de la csp chisq.test(tab1) #p-value = 7.529e-06 la p-value est très petite donc on rejette H0 à plus de 1% #ce qui signifie que les variables ne sont pas indépendantes: #la possession d'une carte bleue dépend de la csp #On étudie csp/porttit tab2=table(banque$csp,banque$porttit) tab2 par(mfrow=c(3,3)) for (k in 1:9) barplot(tab2[k,],col=c('blue','grey','red','green'), main=row.names(tab2)[k]) par(mfrow=c(1,1)) mosaicplot(tab2,col=c('blue','grey','red','green')) ##au vu du mosaic plot il semble qu eles variables csp et porttit #ne sont pas indépendantes chisq.test(tab2) ##La p-value est de l'ordre de 10^(-14) donc on rejette H0 de façon significative à 1% #les variables sont dépendantes # On étudie age/eparlog tab3=table(banque$age,banque$eparlog) tab3 # l'effectif 0 dans la classe age=ai25 et eparlog=for va poser problème pour le test du chi-2 #(effectif de 5 minimum demandé); on peut y remédier en aggrégeant des classes par(mfrow=c(1,1)) mosaicplot(tab3, main="age vs épargne logement",col=c("lightblue","red","pink")) chisq.test(tab3) ##on rejette à 3% #mais la p-value est trop grande, on ne rejette pas H0 à près de 1%, #on peut considérer que les variables sont indépendantes #test avec agrégation des deux premières classes d'age x=c(15,7,224) y=c(8,24,180) z=c(10,14,150) t=c(11,19,148) m=rbind(x,y,z,t) m chisq.test(m) #on rejette H0 à 2%, les variables ne sont pas indépendantes #####Etude du fichier iris data(iris) head(iris) summary(iris) ##faire des boxplot de 'Petal Length' en fonction de l'espère d'iris attach(iris) boxplot(Petal.Length~Species,col=c("blue","green","lightblue")) #ou commande analogue boxplot(iris[,3]~iris$Species) ##Pour Petal Lenght, les distributions semblent très différentes #(le max de setosa est plus petit que le min de versicolor et virginica) ##on vérifie cette hypothèse avec un test anova anova(lm(Petal.Length~Species)) ##on rejette le test de façon significative (p-value à 10^(-16)) boxplot(Sepal.Width~Species,col=c("blue","green","lightblue")) anova(lm(Sepal.Width~Species))