Une entreprise possède une grande base de données client. Elle désire envoyer un catalogue à ses clients mais souhaite maximiser les revenus d’une telle initiative.
Cette version de la base de données contient des valeurs manquantes.
Format
Une base de données avec 101000 lignes et 15 variables:
x1sexe de l’individu, soit homme (0) ou femme (1)
x2âge (en année)
x3variable catégorielle indiquant le revenu, soit moins de 35 000$ (1), entre 35 000$ et 75 000$ (2) ou plus de 75 000$ (3)
x4variable catégorielle indiquant la région où habite le client (de 1 à 5)
x5conjoint : le client a-t-il un conjoint (0=non, 1=oui)
x6nombre d’année depuis que le client est avec la compagnie
x7nombre de semaines depuis le dernier achat
x8montant (en dollars) du dernier achat
x9montant total (en dollars) dépensé depuis un an
x10nombre d’achats différents depuis un an
yachatvariable indicatrice,
1si a la personne a acheté,0sinonymontantmontant de l'achat
testvariable catégorielle,
1pour échantillon test,0pour l'échantillon d'apprentissage