Bonjour,
Je travaille sur un problème de fouille de données (des stats sans hypothèses), et j'ai un soucis au niveau de la discrétisation de variables centrées réduites. Je m'explique.
J'ai un ensemble de variable issue de centrage-réduction, mais je ne possède pas d'autre élément que cette valeur finale. La fouille de données me permet de faire ressortir les corrélations entre ces variables, par exemple "si j'ai un individu entre a et b pour la variable x, alors j'aurais entre c et d à y dans n% des cas observés".
Comment choisir les intervalles pour discrétiser ces variables ? Y a-t-il une norme en la matière ?
Intuitivement, si je veux N classes, j'aurais tendance à faire mes N intervalles de telle sorte à ce que l'intégrale de Gauss sur chaque classe soit égale aux autres. Il y aurait dans ce cas aussi un problème du choix de N, mais il serait probablement adapté en fonction des résultats observés.
Est-ce que mon cheminement est bon pas du tout ? Qu'en pensez-vous ?
Je pense qu'il y a déjà des éléments de réponses existants, mais je ne les ai pas encore trouvé.
Merci d'avance !
(je ne sais pas si je poste dans le bon forum, aussi...)
À propos de N, j'ai oublié de précisé que le nombre de classe peut être certes choisi, mais devra être identique pour toutes les variables, mêmes si certaines variables concernent beaucoup plus d'individus que d'autre. Je ne sais pas si cette information peut-être utile ou non.
Sans rapport avec le problème : comment éditer un message sur le forum ?
édit Océane : tu ne peux pas
Vous devez être membre accéder à ce service...
Pas encore inscrit ?
1 compte par personne, multi-compte interdit !
Ou identifiez-vous :