Introduction
Pour ce TP nous allons nous intéresser à la modélisation de la
probabilité de survie lors du naufrage du tristement célèbre Titanic.
Mais avant de nous attaquer à cette tâche, nous allons nous faire les
mains sur le risque de cancer de l’oesophage chez les hommes.
Analyse de l’impact du tabac et de l’alcool sur le cancer de
l’oesophage
- Importez le jeu de données (il se trouve ici)
et faites une analyse descriptive de ce dernier.
- La commande R pour faire une régression logistique avec
uniquement l’age en covariable est la suivante (on suppose que le jeu de
données est stocké dans R sous le nom cancer)
glm(case ~ age, family = binomial, data = cancer)
Ici le premier argument est une formule R que vous
connaissez probablement déjà (sinon j’explique), l’argument family =
binomial précise que nous souhaitons faire une régression
logistique et enfin data = cancer précise le tableau de données
pour l’étude. Essayez donc d’ajuster ce modèle puis un autre où la
covariable est la consommation de tabac. Vous stockerez ce résultat dans
un objet nommé fit.
- Exécutez la commande ci dessous et veillez à bien comprendre tous
les éléments affichés par R–on ne s’intéressera pas à
‘dispersion…’, ‘Number of…’
summary(fit)
Quelles conclusions pouvez vous en tirer ?
- Lisez l’aide de la fonction predict.glm. Que font les
sorties suivantes ?
plot(cancer$tob, predict(fit))
plot(cancer$tob, predict(fit, type = "response"), ylim = c(0, 1))
points(cancer$case)
- A l’aide de la fonction confint, obtenez un intervalle de
confiance à 95% sur les paramètres. Est ce en accord avec vos
conclusions de la question 3 ?
- Commencez par charger la librairie MASS via
library(MASS)
et lisez la documentation de la fonction stepAIC. 7. Faites
une sélection de modèle automatique et faites quelques commentaires sur
le meilleur modèle obtenu.
Application sur la survie à bord du Titanic
Le jeu de données disponible ici
contient les informations sur 891 passagers :
- PassengerId : Identifiant unique du passager
- Survived : 0 = Décès, 1 = En vie
- Pclass : La classe de voyage (1 = 1ere classe, 2 = 2ème classe, 3 =
3ème classe)
- Name : Le nom du passager
- Sex : Le sexe du passager
- Age : L’age du passager
- SibSp : Le nombre de frères et soeurs ou époux / épouses à bord
- Parch : Le nombre de parents ou enfants à bord
- Ticket : Le numéro du billet de voyage
- Fare : Le prix du billet de voyage
- Cabin : Le numéro de la cabine
- Embarked : Lieu d’embarquement du passager (C = Cherbourg, S =
Southampton, Q = Queenstown)
Après avoir fait une analyse descriptive de ces données, vous ferez
une analyse des survivants du Titanic à l’aide de la régression
logistique et commenterez vos résultats.
Bon travail !