Données tirées de l'aide SAS servant à la classification de pourriels.
Format
Une base de données avec 4601 lignes et 59 variables:
testvariable binaire pour données test et entraînement
makemot
addressmot
allmot
_3dchaîne de caractères
ourmot
overmot
removemot
internetmot
ordermot
mailmot
receivemot
willmot
peoplemot
reportmot
addressesmot
freemot
businessmot
emailmot
youmot
creditmot
yourmot
fontmot
_000chaîne de caractères
moneymot
hpmot
hplmot
georgemot
_650chaîne de caractères
labmot
labsmot
telnetmot
_857chaîne de caractères
datamot
_415chaîne de caractères
_85chaîne de caractères
technologymot
_1999mot
partsmot
pmmot
directmot
csmot
meetingmot
originalmot
projectmot
remot
edumot
tablemot
conferencemot
semicolonpoint virgule
parenparenthèses
bracketcrochets
exclamationpoint d'exclamation
dollarsigne de dollar
poundsigne de livre sterling
capavglongueur moyenne des mots en majuscule
caplonglongueur des mots en majuscule
captotalnombre total de majuscules
classindicateur binaire,
1pour un pourriel,0sinon