Introduction

Pour ce TP nous allons nous intéresser à la modélisation de la probabilité de survie lors du naufrage du tristement célèbre Titanic. Mais avant de nous attaquer à cette tâche, nous allons nous faire les mains sur le risque de cancer de l’oesophage chez les hommes.

Analyse de l’impact du tabac et de l’alcool sur le cancer de l’oesophage

  1. Importez le jeu de données (il se trouve ici) et faites une analyse descriptive de ce dernier.
  2. La commande R pour faire une régression logistique avec uniquement l’age en covariable est la suivante (on suppose que le jeu de données est stocké dans R sous le nom cancer)
glm(case ~ age, family = binomial, data = cancer)

Ici le premier argument est une formule R que vous connaissez probablement déjà (sinon j’explique), l’argument family = binomial précise que nous souhaitons faire une régression logistique et enfin data = cancer précise le tableau de données pour l’étude. Essayez donc d’ajuster ce modèle puis un autre où la covariable est la consommation de tabac. Vous stockerez ce résultat dans un objet nommé fit.

  1. Exécutez la commande ci dessous et veillez à bien comprendre tous les éléments affichés par R–on ne s’intéressera pas à ‘dispersion…’, ‘Number of…’
summary(fit)

Quelles conclusions pouvez vous en tirer ?

  1. Lisez l’aide de la fonction predict.glm. Que font les sorties suivantes ?
plot(cancer$tob, predict(fit))
plot(cancer$tob, predict(fit, type = "response"), ylim = c(0, 1))
points(cancer$case)
  1. A l’aide de la fonction confint, obtenez un intervalle de confiance à 95% sur les paramètres. Est ce en accord avec vos conclusions de la question 3 ?
  2. Commencez par charger la librairie MASS via
library(MASS)

et lisez la documentation de la fonction stepAIC. 7. Faites une sélection de modèle automatique et faites quelques commentaires sur le meilleur modèle obtenu.

Application sur la survie à bord du Titanic

Le jeu de données disponible ici contient les informations sur 891 passagers :

Après avoir fait une analyse descriptive de ces données, vous ferez une analyse des survivants du Titanic à l’aide de la régression logistique et commenterez vos résultats.

Bon travail !