#Exercice 1 données bivariées qualitatives Genre=c(rep("H",2),rep("F",3),"H",rep("F",3), rep("H",2),"F","H",rep("F",2), rep("H",4),rep("F",5),"H",rep("F",2),"H",rep("F",3),"H",rep("F",2)) Vehicule= c(rep("V",2),rep("NV",7),"V","NV","V",rep("NV",6),"V","NV","V","NV", "V","NV","V",rep("NV",2),"V",rep("NV",3),"V","NV","V") length(Genre) length(Vehicule) Enquete=data.frame(Genre,Vehicule) Enquete tablecroisee=table(Enquete$Vehicule,Enquete$Genre)#ou Enquete[,2] et Enquete[,1] tablecroisee barplot(tablecroisee, main="Possession d'un vehicule",xlab="Genre", col=c("green","lightblue"), legend=row.names(tablecroisee)) #####ou bien barplot à la main par(mfrow=c(1,2)) barplot(table(Enquete[Enquete$Genre=="F",2]),cex.names=0.6, col=c("green","lightblue"),main="Popul Femme") barplot(table(Enquete[Enquete$Genre=="H",2]),cex.names=0.6, col=c("green","lightblue"),main="Popul Homme") ##attention aux échelles #les profils-colonnes sont très différents chisq.test(tablecroisee) # p-value = 0.08353 plus grande que 0.05, on ne rejette pas H0 à 5%, #on peut considérer que les variables sont indépendantes. #il y a aussi ici un problème d'effectif: quand un effectif est inférieur à 5, #le test du chi-2 est faussé par(mfrow=c(1,1)) mosaicplot(tablecroisee,col=c("green","lightblue")) tablecroisee2=table(Enquete$Genre,Enquete$Vehicule) mosaicplot(tablecroisee2,col=c("green","lightblue")) ######Etude du fichier banque load("/Users/zani/Documents/Enseignement/L3Miage/FichiersTP/banque.rda") banque head(banque) summary(banque) nrow(banque) tab1=table(banque$csp,banque$cableue) tab1 barplot(tab1,col=c("green","blue","red","yellow","grey","pink","purple","orange","lightblue")) par(mfrow=c(3,3)) for (k in 1:9) barplot(tab1[k,],col=c('blue','green'), main=row.names(tab1)[k]) par(mfrow=c(1,1)) mosaicplot(tab1,col=c("blue","green")) # le diagramme en mosaique et les barplot laissent penser #que la possession d'une carte bleue dépend de la csp chisq.test(tab1) #p-value = 7.529e-06 la p-value est très petite donc on rejette H0 à plus de 1% #ce qui signifie que les variables ne sont pas indépendantes: #la possession d'une carte bleue dépend de la csp #On étudie csp/porttit tab2=table(banque$csp,banque$porttit) tab2 par(mfrow=c(3,3)) for (k in 1:9) barplot(tab2[k,],col=c('blue','grey','red','green'), main=row.names(tab2)[k]) par(mfrow=c(1,1)) mosaicplot(tab2,col=c('blue','grey','red','green')) ##au vu du mosaic plot il semble qu eles variables csp et porttit #ne sont pas indépendantes chisq.test(tab2) ##La p-value est de l'ordre de 10^(-14) donc on rejette H0 de façon significative à 1% #les variables sont dépendantes # On étudie age/eparlog tab3=table(banque$age,banque$eparlog) tab3 # l'effectif 0 dans la classe age=ai25 et eparlog=for va poser problème pour le test du chi-2 #(effectif de 5 minimum demandé); on peut y remédier en aggrégeant des classes par(mfrow=c(1,1)) mosaicplot(tab3, main="age vs épargne logement",col=c("lightblue","red","pink")) chisq.test(tab3) ##on rejette à 3% #mais la p-value est trop grande, on ne rejette pas H0 à près de 1%, #on peut considérer que les variables sont indépendantes #test avec agrégation des deux premières classes d'age x=c(15,7,224) y=c(8,24,180) z=c(10,14,150) t=c(11,19,148) m=rbind(x,y,z,t) m chisq.test(m) #on rejette H0 à 2%, les variables ne sont pas indépendantes