Titanic
Il est possible, dans le cadre d'un projet, de faire travailler les élèves sur un autre jeu de données qui consiste à " Prédire les survivants du Titanic. ".
Le label est " survivant " ou " décédé ".
Il sera nécessaire de retravailler les données comme nous l'avons fait pour le jeu de données " Iris " ( supprimer des colonnes, encodage...). Dans ce projet, il sera possible de faire travailler les élèves sur des vecteurs d'entrée de dimension supérieure à 2 ( le genre, l'âge, la classe occupée par le passager sur le bateau,...).

Importation des modules

On importe " pandas as pd " qui permet l'analyse et la manipulation de données.
On importe " numpy as np " qui permet d’effectuer des calculs numériques.
On importe " matplotlib.pyplot as plt " qui
permet de tracer nos résultats.


On obtient alors à la fin du programme ces histogrammes. On notera les caractéristiques qui seront les plus utiles.

Pclass signifie les passagers des classes, on en a ici trois: la première classe ( plus élevé ), la seconde ainsi que la troisième. Le traitement des passagers varie selon la classe.
On remarque que les passagers de la première classe sont ceux qui survivent le plus et qui possèdent le moins de victime ( environ 140 survivants et 70 victimes ). On note également que les passagers de la première classe se situent plus haut dans le bateau que les autres..
Les passagers de la deuxième classe ont légèrement moins de survivants et un peu plus de victimes.
La 3ème classe possède le nombre de victimes le plus élevé ( 350 ), avec un peu plus de survivants que la 2ème classe, mais le nombre de victime est énorme comparé aux deux autres classes.

Dans cet histogramme, on observe l'âge des passagers, victimes et survivants.
​
On remarque que l'âge où il y a le plus de victimes est entre 20 et 30 ans, pourtant c'est l'âge où on est le plus apte à être en forme. Le nombre de survivants dans cette tranche d'âge reste malgré cela plus élevé que les autres.
La différence du nombre de victimes est encore une fois ahurissant comparée à celles des passagers enfants et âgés.
Les enfants et les personnes âgées sont les plus favorisées à être sauvé.

Fare signifie ticket ( et son prix ).
​
Quand le prix du ticket varie entre 0 et envirion 50, il y a énormement de victimes ( + de 500 ), avec un nombre de survivants correct. Mais quand le prix du ticket varie entre 50 et plus ( 100,200,300...), le nombre de victimes est faible, ainsi que moins élevé que le nombre de survivants. Encore une fois, les riches survivent le plus.

Le chiffre 0 représentent les femmes, le chiffre 1 représentent les hommes.
On remarque qu'il y a plus de survivants chez les femmes que chez les hommes, et plus de victimes chez les hommes que chez les femmes.
Les femmes sont plus favorisées à être sauvé.

Parch signifie le nombre de parents et d'enfants. On observe que quand il s'agit d'une famille, il y a moins de victimes ou autant de victimes que de survivants.
Les familles se soudent entre-elles et s'aident pour survivre.
En revanche, le nombre de victimes quand on est seul est une nouvelle fois énorme, le nombre de survivants reste quand même correct.

SibSp signifie le nombre de frères et soeurs. On remarque également qu'en présence de frères et de soeurs, il y a autant ou moins de victimes que de survivants, ils s'entre-aident. Mais quand on est seul, il n'y a personne pour nous aider, ce qui montre la différence du nombres de victimes énorme ( + de 400 ) comparée aux autres.
On remarque que les personnes plus pauvres ou non accompagnées et seules sont les plus aptes à ne pas survivre. En revanche, ceux qui ont de la famille et qui sont plus riches ont plus de chance de survivre.
Les caractéristiques sont donc toutes importantes. Nous avons remarqué grâce à l'ensemble des histogrammes que les pauvres et les personnes seules sont plus aptes à être victimes que les riches et les personnes accompagnées. Chacune de ces informations sont alors fondamentales.
