x=c(8.3,8.6,8.8,10.5,10.7,10.8,11.0,11.0,11.1,11.2,11.3,11.4,11.4,11.7,12.0,12.9, 12.9,13.3,13.7,13.8,14.0,14.2,14.5,16.0,16.3,17.3,17.5,17.9,18.0,18.0,20.6) y=c(70,65,63,72,81,83,66,75,80,75,79,76,76,69,75,74,85,86,71,64,78,80,74,72,77,81,82,80,80,80,87) x11() plot(x,y) #on remarque un nuage de point assez allongé, de forme linéaire, avec des points aberrants #autour des abscisses 10-12 et ordonnées 80-85 cor(x,y) # la corrélation est faible, l'hypothèse de modélisation linéaire n'est pas à privilégier x1=c(x,50) y1=c(y,114.75) plot(x1,y1)#les points "semblent" plus alignés, cela est dù au changement d'échelle cor(x1,y1)#la corrélation est bien meilleure mais cela est trompeur car il y a une donnée extrême #Feuille de TP5: 2 variables qualitatives ou 1 qualitative+1 quantitative Genre=c(rep("H",2),rep("F",3),"H",rep("F",3), rep("H",2),"F","H",rep("F",2), rep("H",4),rep("F",5),"H",rep("F",2),"H",rep("F",3),"H",rep("F",2)) Vehicule= c(rep("V",2),rep("NV",7),"V","NV","V",rep("NV",6),"V","NV","V","NV", "V","NV","V",rep("NV",2),"V",rep("NV",3),"V","NV","V") Genre=as.factor(Genre) summary(Genre) Vehicule=as.factor(Vehicule) summary(Vehicule) Enquete=data.frame(Genre,Vehicule) Enquete table(Enquete)#par défaut, le logiciel met en ligne la 1e colonne tablecroisee=table(Enquete$Vehicule,Enquete$Genre)#ou Enquete[,2] et Enquete[,1] tablecroisee x11() barplot(tablecroisee, main="Possession d'un vehicule",xlab="Genre", col=c("green","lightblue"), legend=row.names(tablecroisee)) mosaicplot(tablecroisee,col=c("green","lightblue")) #####ou bien barplot à la main par(mfrow=c(1,2)) barplot(table(Enquete[Enquete$Genre=="F",2]),cex.names=0.6, col=c("green","lightblue"),main="Popul Femme") barplot(table(Enquete[Enquete$Genre=="H",2]),cex.names=0.6, col=c("green","lightblue"),main="Popul Homme") ##attention aux échelles #les profils-colonnes sont très différents chisq.test(tablecroisee) # p-value = 0.08353 plus grande que 0.05, on ne rejette pas H0 à 5%, #on peut considérer que les variables sont indépendantes. #il y a aussi ici un problème d'effectif: quand un effectif est inférieur à 5, #le test du chi-2 est faussé