######Etude du fichier banque
load("/Users/zani/Documents/Enseignement/L3Miage/FichiersTP/banque.rda")
banque
summary(banque)
nrow(banque)
tab1=table(banque$csp,banque$cableue)
tab1
barplot(tab1,col=c("green","blue","red","yellow","grey","pink","purple","orange","lightblue"))
par(mfrow=c(3,3))
for (k in 1:9)
  barplot(tab1[k,],col=c('blue','green'),
          main=row.names(tab1)[k])
par(mfrow=c(1,1))
mosaicplot(tab1,col=c("blue","green"))
# le diagramme en mosaique et les barplot laissent penser 
#que la possession d'une carte bleue dépend de la csp
chisq.test(tab1)
#p-value = 7.529e-06 la p-value est très petite donc on rejette H0 à plus de 1% 
#ce qui signifie que les variables ne sont pas indépendantes: 
#la possession d'une carte bleue dépend de la csp

#On étudie csp/porttit
tab2=table(banque$csp,banque$porttit)
tab2
par(mfrow=c(3,3))
for (k in 1:9)
  barplot(tab2[k,],col=c('blue','grey','red','green'),
          main=row.names(tab2)[k])
par(mfrow=c(1,1))
mosaicplot(tab2,col=c('blue','grey','red','green'))
##au vu du mosaic plot il semble qu eles variables csp et porttit 
#ne sont pas indépendantes
chisq.test(tab2)
##La p-value est de l'ordre de 10^(-14) donc on rejette H0 de façon significative à 1%
#les variables sont dépendantes


# On étudie age/eparlog
tab3=table(banque$age,banque$eparlog)
tab3
# l'effectif 0 dans la classe age=ai25 et eparlog=for va poser problème pour le test du chi-2 
#(effectif de 5 minimum demandé); on peut y remédier en aggrégeant des classes
par(mfrow=c(1,1))
mosaicplot(tab3, main="age vs épargne logement",col=c("lightblue","red","pink"))
chisq.test(tab3)
##on rejette à 3%
#mais la p-value est trop grande, on ne rejette pas H0 à près de 1%, 
#on peut considérer que les variables sont indépendantes
#test avec agrégation des deux premières classes d'age
x=c(15,7,224)
y=c(8,24,180)
z=c(10,14,150)
t=c(11,19,148)

m=rbind(x,y,z,t)
m
chisq.test(m)
#on rejette H0 à 2%, les variables ne sont pas indépendantes


#####Etude du fichier iris
data(iris)
head(iris)
summary(iris)
##faire des boxplot de 'Petal Length' en fonction de l'espère d'iris
attach(iris)
boxplot(Petal.Length~Species,col=c("blue","green","lightblue"))
#ou commande analogue boxplot(iris[,3]~iris$Species)
##Pour Petal Lenght, les distributions semblent très différentes 
#(le max de setosa est plus petit que le min de versicolor et virginica)
##on vérifie cette hypothèse avec un test anova
anova(lm(Petal.Length~Species))
##on rejette le test de façon significative (p-value à 10^(-16))

boxplot(Sepal.Width~Species,col=c("blue","green","lightblue"))
anova(lm(Sepal.Width~Species))