logo

Data mining


Data mining : encyclopédie mathématiques

wikipediaCet article est issu de l'encyclopédie libre Wikipedia.
Vous pouvez consulter l'article ici ainsi que son historique.
Les textes et les images sont disponibles sous les termes de la Licence de documentation libre GNU.
Exploration de données
Articles principaux
Exploration de données
Fouille de données spatiales
Fouille du web
Fouille de flots de données
Fouille de textes
Fouille d'images
Fouille audio
Articles annexes
Logiciels de fouille de données
Algorithme de fouille de flots de données
Aide
Glossaire de l'exploration de données
Contextes liés
Probabilités et statistiques
Information géographique
Imagerie numérique
Informatique
Linguistique
Internet

L’exploration de donnĂ©es[Note 1], connue aussi sous l'expression de fouille de donnĂ©es, data mining (« forage de donnĂ©es Â»), ou encore extraction de connaissances Ă  partir de donnĂ©es, « ECD Â» en français, « KDD Â» en anglais, a pour objet l’extraction d'un savoir ou d'une connaissance Ă  partir de grandes quantitĂ©s de donnĂ©es, par des mĂ©thodes automatiques ou semi-automatiques.

L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web.

L'exploration de données[1] fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à l'informatique décisionnelle. Celle-ci permet de constater un fait, tel que le chiffre d'affaires, et de l'expliquer comme par exemple le chiffre d'affaires décliné par produits, tandis que l'exploration de données permet de classer les faits et de les prévoir dans une certaine mesure [Note 2] ou encore de les éclairer en révélant par exemple les variables ou paramètres qui pourraient faire comprendre pourquoi le chiffre d'affaires de tel point de vente est supérieur à celui de tel autre.

Sommaire

[modifier] Histoire

Collecter les données, les analyser et les présenter au client.

La gĂ©nĂ©ration de modèles Ă  partir d'un grand nombre de donnĂ©es n'est pas un phĂ©nomène rĂ©cent. Pour qu'il y ait crĂ©ation de modèle il faut qu'il y ait collecte de donnĂ©es. En Chine on prĂŞte Ă  l'Empereur Tang Yao, la volontĂ© de recenser les rĂ©coltes en 2238 av. J.-C.[2] ; en Égypte le pharaon Amasis organise le recensement de sa population au cinquième siècle av. J.-C.[2]. Ce n'est qu'au XVIIe siècle qu'on commence Ă  vouloir analyser les donnĂ©es pour en rechercher des caractĂ©ristiques communes. En 1662, John Graunt publie son livre « Natural and Political Observations Made upon the Bills of Mortality Â» dans lequel il analyse la mortalitĂ© Ă  Londres et essaie de prĂ©voir les apparitions de la peste bubonique. En 1763, Thomas Bayes montre qu'on peut dĂ©terminer, non seulement des probabilitĂ©s Ă  partir des observations issues d’une expĂ©rience, mais aussi les paramètres relatifs Ă  ces probabilitĂ©s. PrĂ©sentĂ© dans le cas particulier d'une loi binomiale, ce rĂ©sultat est Ă©tendu indĂ©pendamment par Laplace, conduisant Ă  une formulation gĂ©nĂ©rale du thĂ©orème de Bayes. Legendre publie en 1805 un essai sur la mĂ©thode des moindres carrĂ©s qui permet de comparer un ensemble de donnĂ©es Ă  un modèle mathĂ©matique.

De 1919 à 1925, Ronald Fisher met au point l'analyse de la variance comme outil pour son projet d'inférence statistique médicale. Les années 1950 voient l'apparition du calculateur et des techniques de calcul sur ordinateur. Simultanément des méthodes et des techniques voient le jour telles que la segmentation, les réseaux de neurones et les algorithmes génétiques et, puis dans les années 1960, les arbres de décision, la méthode des centres mobiles; ces techniques permettent aux chercheurs d'exploiter et de découvrir des modèles de plus en plus précis. En France, Jean-Paul Benzécri développe l'analyse des correspondances en 1962.

L'arrivée du micro ordinateur stimule la recherche et les analyses statistiques se font plus nombreuses et précises.

L'expression «  data mining Â» avait une connotation pĂ©jorative, au dĂ©but des annĂ©es 1960, exprimant le mĂ©pris des statisticiens pour les dĂ©marches de recherche de corrĂ©lation sans hypothèses de dĂ©part. Elle tombe dans l'oubli, puis Rakesh Agrawal l'emploie Ă  nouveau dans les annĂ©es 80 lorsqu'ils entamait ses recherches sur des bases de donnĂ©es d'un volume de 1Mb. Le concept d'exploration de donnĂ©es fait son apparition, d'après Pal et Jain, aux confĂ©rences de l'IJCAI en 1989[3]. Gregory Piatetsky-Shapiro chercha un nom pour ce nouveau concept dans la fin des annĂ©es 80, aux GTE Laboratories. «  Data mining Â» Ă©tant sous la protection d'un copyright, il employa l'expression «  Knowledge discovery in data bases  Â» (KDD)[4].

Puis, dans les années 1990, viennent les techniques d'apprentissage automatique telles que les SVM[b 1] en 1998, qui complètent les outils de l'analyste.

Au dĂ©but du XXIe siècle, une entreprise comme Amazon.com se sert de tous ces outils pour proposer Ă  ses clients des produits susceptibles de les intĂ©resser[5],[6].

[modifier] Applications industrielles

[modifier] Par objectifs

Un exemple de ce qu'on peut faire avec le logiciel R : ici un corrĂ©logramme

De nos jours, les techniques d'exploration de données peuvent être utilisées dans des domaines complètement différents avec des objectifs bien spécifiques. Les sociétés de vente par correspondance analysent, avec cette technique, le comportement des consommateurs pour dégager des similarités de comportement, accorder des cartes de fidélité, ou établir des listes de produits à proposer en vente additionnelle (vente croisée).

Un publipostage (mailing) servant Ă  la prospection de nouveaux clients possède un taux de rĂ©ponses de 10 % en moyenne. Les entreprises de marketing utilisent la fouille de donnĂ©es pour rĂ©duire le coĂ»t d'acquisition d'un nouveau client en classant les prospects selon des critères leur permettant d'augmenter les taux de rĂ©ponses[7] aux questionnaires envoyĂ©s.

Ces mêmes entreprises, mais d'autres aussi comme les banques, les opérateurs de téléphonie mobile ou les assureurs, cherchent grâce à l'exploration de données à minimiser l’attrition (ou churn) de leurs clients puisque le coût de conservation d'un client est moins important que celui de l'acquisition d'un nouveau.

Les services de polices de tous les pays[8] cherchent Ă  caractĂ©riser les crimes (rĂ©pondre Ă  la question : « Qu'est-ce qu'un crime "normal" ? Â») et les comportements des criminels (rĂ©pondre Ă  la question : « qu'est-ce qu'un comportement criminel "normal" ? Â») afin de prĂ©venir le crime, limiter les risques et les dangers pour la population.

Le scoring des clients dans les banques est maintenant très connu, il permet de repĂ©rer les « bons Â» clients, sans facteur de risque (Évaluation des risques-clients) Ă  qui les organismes financiers, banques, assurances, etc., peuvent proposer une tarification adaptĂ©e et des produits attractifs, tout en limitant le risque de non-remboursement ou de non-paiement ou encore de sinistre dans le cas des assurances.

Les centres d'appel utilisent cette technique[7] pour améliorer la qualité du service[9] et permettre une réponse adaptée de l'opérateur pour la satisfaction du client.

Dans la recherche du génome humain, les techniques d'exploration de données ont été utilisées pour découvrir les gènes et leur fonction[10].

D'autres exemples dans d'autres domaines pourraient être trouvés, mais ce qu'on peut remarquer dès à présent, c'est que toutes ces utilisations permettent de caractériser un phénomène complexe (comportement humain, expression d'un gène), pour mieux le comprendre, afin de réduire les coûts de recherche ou d'exploitation liés à ce phénomène, ou bien afin d'améliorer la qualité des processus liés à ce phénomène.

[modifier] Par secteurs d'activités

L'industrie a pris conscience de l'importance du patrimoine constituĂ© par ses donnĂ©es et cherche Ă  l'exploiter en utilisant l'informatique dĂ©cisionnelle et l'exploration des donnĂ©es. Les compagnies les plus avancĂ©es dans ce domaine se situent dans le secteur tertiaire. Selon le site kdnuggets.com[11] la rĂ©partition aux États-Unis, en pourcentage du total des rĂ©ponses au sondage, de l'utilisation de l'exploration des donnĂ©es par secteurs d'activitĂ©s s'effectue en 2010 comme ceci :

Branches et domaines dans lesquels est utilisée l'exploration des données (%).
GRC/ analyse de la consommation
  26,8
Banque
  19,2
Santé, ressources humaines
  13,1
Détection de fraude
  12,7
Finance
  11,3
Marketing direct, collecte de fonds
  11,3
Télécommunication
  10,8
Assurance
  10,3
Sciences
  10,3
Éducation
  9,9
Publicité
  9,9
Web
  8,9
Médical
  8,0
Produits manufacturés
  8,0
Commerce de détail
  8,0

[modifier] Recherche et groupes de réflexion

Résultats graphiques d'une analyse en composantes principales

Comme le montre l'histogramme ci-dessus, l'industrie est très intĂ©ressĂ©e par le sujet, notamment en matière de standard et d'interopĂ©rabilitĂ©[Note 3] qui facilitent l'emploi d'outils informatiques provenant d'Ă©diteurs diffĂ©rents. En outre, les entreprises, l'enseignement et la recherche ont grandement contribuĂ© Ă  l'Ă©volution et Ă  l'amĂ©lioration (en termes de rigueur par exemple) des mĂ©thodes et des modèles ; un article publiĂ© en 2008 par l'International Journal of Information Technology and Decision Making rĂ©sume une Ă©tude qui trace et analyse cette Ă©volution[12]. Certains acteurs sont passĂ©s de la recherche Ă  l'industrie.

Des universités telles que celles de Constance en Allemagne, de Dortmund en Caroline du Nord, aux États-Unis, de Waikato en Nouvelle-Zélande, et l'Université Lumière Lyon 2 en France, ont effectué des recherches pour trouver de nouveaux algorithmes et améliorer les anciens. Ils ont aussi développé des logiciels permettant à leurs étudiants, enseignants et chercheurs de progresser dans ce domaine, faisant ainsi bénéficier l'industrie de leur progrès.

D’autre part, de nombreux groupements interprofessionnels et d'associations se sont créés pour rĂ©flĂ©chir et accompagner le dĂ©veloppement de l'exploration de donnĂ©es. Le premier de ces groupements professionnels dans le domaine est le groupe d’intĂ©rĂŞt de l'Association for Computing Machinery sur la gestion des connaissances et l'exploration de donnĂ©es, le SIGKDD[13]. Depuis 1989 il organise une confĂ©rence internationale annuelle et publie les nouveaux rĂ©sultats, rĂ©flexions et dĂ©veloppements de ses membres[14]. Ainsi, depuis 1999, cet organisme publie une revue semestrielle dont le titre est « SIGKDD Explorations Â»[15].

D'autres confĂ©rences sur l'exploration de donnĂ©es et l'informatique sont organisĂ©es, comme par exemple :

  • DMIN - International Conference on Data Mining[16],[17],[18],[19],[20]
  • DMKD - Research Issues on Data Mining and Knowledge Discovery
  • ECML-PKDD - European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases
  • ICDM[21] - IEEE International Conference on Data Mining[22],[23],[24],[25],[26],[27],[28],[29]
  • MLDM - Machine Learning and Data Mining in Pattern Recognition
  • SDM - SIAM International Conference on Data Mining
  • EDM - International Conference on Educational Data Mining
  • ECDM - European Conference on Data Mining
  • PAKDD - The annual Pacific-Asia Conference on Knowledge Discovery and Data Mining

Ces recherches et résultats financièrement probants obligent les équipes spécialisées dans l'exploration de données à effectuer un travail méthodique dans des projets structurés.

[modifier] Projet, méthodes et processus

De bonnes pratiques ont émergé au fil du temps pour améliorer la qualité des projets. Parmi celles-ci, les méthodologies aident les équipes à organiser les projets en processus. Au nombre des méthodes les plus utilisées se trouvent la méthodologie SEMMA du SAS Institute et la CRISP-DM qui est la méthode la plus employée dans les années 2010.

[modifier] Méthode CRISP-DM

L'exploration de données se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum de connaissances utiles à l'entreprise.

La méthode CRISP-DM[30] découpe le processus de fouille de données en six étapes permettant de structurer la technique et de l'ancrer dans un processus industriel. Plus qu'une théorie normalisée, c'est un processus d'extraction des connaissances métiers.

Phases du processus CRISP-DM

Il faut d'abord comprendre le métier[30] qui pose la question à l'analyste, formaliser le problème que l'organisation cherche à résoudre en termes de données, comprendre les enjeux, connaître les critères de réussite du projet et mettre en place un plan initial pour réaliser cet objectif.

Ensuite, l'analyste a besoin de données appropriées. Dès que l'équipe de projet sait ce qu'il faut faire, elle doit se mettre en quête des données, des textes et tout le matériel qui lui permettra de répondre au problème. Il lui faut ensuite en évaluer la qualité, découvrir les premiers schémas apparents pour émettre des hypothèses sur les modèles cachés.

Les données que l'équipe de projet a collectées sont hétérogènes. Elles doivent être préparées[30] en fonction des algorithmes utilisés, en supprimant les valeurs aberrantes, ou valeurs extrêmes, en complétant les données non renseignées, par la moyenne ou par la méthode des K plus proches voisins, en supprimant les doublons, les variables invariantes et celles ayant trop de valeurs manquantes, ou bien par exemple en discrétisant les variables si l’algorithme à utiliser le nécessite, comme c'est par exemple le cas pour l'analyse des correspondances multiples ACM, l'analyse discriminante DISQUAL, ou bien la méthode de Condorcet.

Une fois les données prêtes, il faut les explorer[30]. La modélisation regroupe des classes de tâches pouvant être utilisées seules ou en complément avec les autres[31] dans un but descriptif ou prédictif.

La segmentation est la tâche consistant à découvrir des groupes et des structures au sein des données qui sont d'une certaine façon similaires, sans utiliser des structures connues a priori dans les données. La classification est la tâche de généralisation des structures connues pour les appliquer à des données nouvelles[Note 4].

La rĂ©gression tente de trouver une fonction modĂ©lisant les donnĂ©es continues, c'est-Ă -dire non discrètes, avec le plus petit taux d'erreur, afin d'en prĂ©dire les valeurs futures. L'association recherche les relations entre des items. Par exemple un supermarchĂ© peut rassembler des donnĂ©es sur des habitudes d'achats de ses clients. En utilisant les règles d'association, le supermarchĂ© peut dĂ©terminer quels produits sont frĂ©quemment achetĂ©s ensemble et ainsi utiliser cette connaissance Ă  des fins de marketing. Dans la littĂ©rature, cette technique est souvent citĂ©e sous le nom d'« analyse du panier de la mĂ©nagère Â».

Il s'agit d'évaluer ensuite[30] les résultats obtenus en fonction des critères de succès du métier et d'évaluer le processus lui-même pour faire apparaître les manques et les étapes négligées. À la suite de ceci, il doit être décidé soit de déployer, soit d'itérer le processus en améliorant ce qui a été mal ou pas effectué.

Puis vient la phase de livraison[30] et de bilan de fin de projet. Les plans de contrôle et de maintenance sont conçus et le rapport de fin de projet est rédigé. Afin de déployer un modèle prédictif, le langage PMML, basé sur le XML, est utilisé. Il permet de décrire toutes les caractéristiques du modèle et de le transmettre à d'autres applications compatibles PMML.

[modifier] D'autres méthodes

[modifier] SEMMA

La mĂ©thodologie SEMMA[32] (Sample then Explore, Modify, Model, Assess pour « Ă‰chantillonner, puis Explorer, Modifier, ModĂ©liser, Évaluer Â»), inventĂ©e par le SAS Institute, se concentre sur les activitĂ©s techniques de la fouille de donnĂ©es. Bien qu'elle soit prĂ©sentĂ©e par le SAS comme seulement une organisation logique des outils de SAS Enterprise miner[33], SEMMA peut ĂŞtre utilisĂ©e pour organiser le processus d'exploration de donnĂ©es indĂ©pendamment du logiciel utilisĂ©[34].

[modifier] Six Sigma (DMAIC)

Six Sigma[35],[36],[37] (DMAIC est un acronyme caractĂ©risant la mĂ©thode comme suit : Define, Measure, Analyse, Improve, Control pour « DĂ©finir, Mesurer, Analyser, AmĂ©liorer, ContrĂ´ler Â») est une mĂ©thodologie structurĂ©e, orientĂ©e donnĂ©es, dont le but est l'Ă©limination des dĂ©fauts, des redondances et des problèmes de contrĂ´le qualitĂ© de toutes sortes dans les domaines de la production, de la fourniture de service, du management et d'autres activitĂ©s mĂ©tiers. La fouille de donnĂ©es est un domaine dans lequel ce guide mĂ©thodologique peut ĂŞtre appliquĂ©[9].

[modifier] Maladresses à éviter

Sur-ajustement d'un modèle : arbitrage performance / complexitĂ©

Les erreurs font partie de l'expérience, l'exploration de données est une question de pratique, de jugement et d'interprétation. Les méthodes sont faites pour guider, mais n'empêchent pas les écueils dont les plus communément rencontrés par les fouilleurs de données expérimentés ou non, ont été décrits par Robert Nisbet, John Elder et Gary Miner dans leur ouvrage Handbook of Statiscal Analysis & Data Mining Applications[b 2].

La première est le fait de poser la mauvaise question. Ce qui conduit à faire chercher au mauvais endroit. Il faut que la question initiale soit correctement posée pour que la réponse soit utile.

Ensuite, c'est se contenter d'une faible quantitĂ© de donnĂ©es pour un problème complexe[b 2]. Il faut avoir des donnĂ©es pour les explorer, et les cas intĂ©ressants pour le fouilleur sont rares Ă  observer, il faut donc avoir Ă  sa disposition Ă©normĂ©ment de donnĂ©es pour pouvoir faire des Ă©chantillons qui ont une valeur d'apprentissage et qui vont permettre de prĂ©dire une situation, c'est-Ă -dire rĂ©pondre Ă  une question posĂ©e, sur les donnĂ©es hors Ă©chantillon. De plus, si les donnĂ©es ne sont pas adaptĂ©es Ă  la question posĂ©e, la fouille sera limitĂ©e : par exemple si les donnĂ©es ne contiennent pas de variables Ă  prĂ©dire, la fouille sera cantonnĂ©e Ă  la description et l'analyste ne pourra que dĂ©couper les donnĂ©es en sous-ensembles cohĂ©rents (clusterisation) ou trouver les meilleures dimensions qui capturent la variabilitĂ© des donnĂ©es.

Il faut construire l'Ă©chantillon, qui permet l'apprentissage, avec prĂ©caution et ne pas Ă©chantillonner Ă  la lĂ©gère[b 2]. L'apprentissage permet de construire le modèle Ă  partir d'un ou plusieurs Ă©chantillons. ParamĂ©trer l'outil d'exploration de donnĂ©es jusqu'Ă  ce que le modèle renvoie 100 % des cas recherchĂ©s revient Ă  se concentrer sur les particularitĂ©s et se dĂ©tourner de la gĂ©nĂ©ralisation, nĂ©cessaire, qui permet d'appliquer le modèle sur les donnĂ©es hors-Ă©chantillon. Des techniques existent pour Ă©viter le sur-ajustement ou le sur-apprentissage. Il s'agit des mĂ©thodes de rĂ©-Ă©chantillonnage telles que le bootstrap, du jackknife ou de la validation croisĂ©e[38].

Parfois, une seule technique (arbre de décision, réseaux neuronaux, ...) n'est pas suffisante pour obtenir du modèle qu'il donne de bons résultats sur toutes les données[b 2]. Une des solutions, dans ce cas, serait constituée d'un ensemble d'outils, qu'on peut utiliser les uns après les autres et comparer les résultats sur les mêmes données ou bien unifier les forces de chaque méthode soit par l'apprentissage soit par combinaison des résultats[39].

Il faut placer les données et les résultats de la fouille en perspective dans leur contexte[b 2], et ne pas se focaliser sur les données, sans cela des erreurs d'interprétation peuvent survenir ainsi que des pertes de temps et d'argent.

Éliminer à priori les résultats qui paraissent absurdes[40], en comparaison avec ce qui est attendu, peut être source d'erreurs car ce sont peut-être ces résultats qui donnent la solution à la question posée.

Il est impossible d'utiliser et d’interpréter les résultats d'un modèle en dehors du cadre dans lequel il a été construit[b 2]. Interpréter des résultats en fonction d'autres cas similaires mais différents est aussi cause d'erreurs, mais ce n'est pas propre aux raisonnements liés à l'exploration de données. Enfin, extrapoler des résultats, obtenus sur des espaces de faibles dimensions, sur des espaces de dimensions élevés peut aussi conduire à des erreurs.

Deux citations de George Box, « Tous les modèles sont faux, mais certains sont utiles Â» et « Les statisticiens sont comme les artistes, ils tombent amoureux de leurs modèles Â», illustrent avec humour le fait que quelquefois certains analystes en fouille de donnĂ©es ont besoin de croire en leur modèle et de croire que le modèle qu'ils travaillent est le meilleur. Utiliser un ensemble de modèles et interprĂ©ter la distribution des rĂ©sultats est nettement plus sĂ»r[41].

[modifier] Planifier

Dans un projet d'exploration de donnĂ©es, il est essentiel de savoir ce qui est important et ce qui ne l'est pas, ce qui prend du temps et ce qui n'en prend pas ; ce qui ne coĂŻncide pas toujours.

Estimation du temps à consacrer aux différentes étapes[b 3],[42]
Tâches Charge Importance
dans le projet
Inventaire, prĂ©paration et exploration des donnĂ©es 38 % 3
Élaboration - Validation des modèles 25 % 2
Restitution des rĂ©sultats 12 % 4
Analyse des premiers tests 10 % 3
DĂ©finition des objectifs 8 % 1
Documentation - prĂ©sentations 7 % 5

Le cĹ“ur de l'exploration de donnĂ©es est constituĂ© par la modĂ©lisation : toute la prĂ©paration est effectuĂ©e en fonction du modèle que l'analyste envisage de produire, les tâches effectuĂ©es ensuite valident le modèle choisi, le complètent et le dĂ©ploient. La tâche la plus lourde de consĂ©quences dans la modĂ©lisation consiste Ă  dĂ©terminer le ou les algorithmes qui produiront le modèle attendu. La question importante est donc celle des critères qui permettent de choisir cet ou ces algorithmes.

[modifier] Algorithmes

RĂ©soudre un problème par un processus d'exploration de donnĂ©es impose gĂ©nĂ©ralement l'utilisation d'un grand nombre de mĂ©thodes et d'algorithmes diffĂ©rents plus ou moins faciles Ă  comprendre et Ă  employer[43]. Il existe deux grandes familles d'algorithmes : les mĂ©thodes descriptives et les mĂ©thodes prĂ©dictives.

[modifier] Méthodes descriptives

Article dĂ©taillĂ© : Analyse des donnĂ©es.

[modifier] Définition

Les méthodes descriptives[44] permettent d'organiser, de simplifier et d'aider à comprendre l'information sous-jacente d'un ensemble important de données.

Elles permettent de travailler sur un ensemble de données, organisées en instances de variables, dans lequel aucune des variables explicatives des individus n'a d'importance particulière par rapport aux autres. Elles sont utilisées par exemple pour dégager, d'un ensemble d'individus, des groupes homogènes en typologie, pour construire des normes de comportements et donc des déviations par rapport à ces normes telles que la détection de fraudes nouvelles ou inconnues à la carte bancaire ou à l'assurance maladie, pour réaliser de la compression d'informations ou de la compression d'image, etc.

[modifier] Exemples

Repérer les données aberrantes et les éliminer.
Un exemple d'analyse en composante principale faite avec les données disponibles sous R.

Parmi les techniques disponibles, celles qui sont issues de la statistique peuvent ĂŞtre exploitĂ©es. Sont regroupĂ©es sous le vocable analyses factorielles, des mĂ©thodes statistiques qui permettent de dĂ©gager des variables cachĂ©es dans un ensemble de mesures ; ces variables cachĂ©es sont appelĂ©es « facteurs Â». Dans les analyses factorielles, on part du principe que si les donnĂ©es sont dĂ©pendantes entre elles, c'est parce qu'elles sont liĂ©es Ă  des facteurs qui leur sont communs[45]. L’intĂ©rĂŞt des facteurs rĂ©side dans le fait qu'un nombre rĂ©duit de facteurs explique presque aussi bien les donnĂ©es que l'ensemble des variables, ce qui est utile quand il y a un grand nombre de variables[b 4]. Les techniques factorielles se dĂ©composent principalement en analyse en composantes principales, analyse en composantes indĂ©pendantes, analyse factorielle des correspondances, analyse des correspondances multiples et positionnement multidimensionnel[46].

Une classification hiérarchique faite avec les données disponibles sous R.

Pour fixer les idées, l'analyse en composantes principales fait correspondre à m variables quantitatives décrivant p individus, n facteurs, les composantes principales, de telle manière que la perte d'information soit minimum. En effet, les composantes sont organisées dans l'ordre croissant des pertes d'information, la première en perdant le moins, que les composantes soient non corrélées linéairement entre elles et que les individus soient projetés sur les axes définis par les facteurs en respectant la distance qui existe entre eux. Les similitudes et les différences sont expliquées par les facteurs.

L'analyse factorielle des correspondances et l'ACM font correspondre à m variables qualitatives décrivant les caractéristiques de p individus, n facteurs en utilisant le tableau de contingence, ou le tableau de Burt dans le cas de l'ACM, de telle manière que les facteurs soient constitués des variables numériques séparant le mieux les valeurs des variables qualitatives initiales[b 5], que deux individus soient proches s'ils possèdent à peu près les mêmes valeurs des variables qualitatives et que les valeurs de deux variables qualitatives soient proches si ce sont pratiquement les mêmes individus qui les possèdent[b 5].

On peut aussi utiliser des méthodes nées dans le giron de l'intelligence artificielle et plus particulièrement dans celui de l'apprentissage automatique. La classification[46] non supervisée est une famille de méthodes qui permettent de regrouper des individus en classes, dont la caractéristique est que les individus d'une même classe se ressemblent, tandis que ceux de deux classes différentes sont dissemblables. Les classes de la classification ne sont pas connues au préalable, elles sont découvertes par le processus. D'une manière générale, les méthodes de classification servent à rendre homogènes des données qui ne le sont pas à priori, et ainsi permettent de traiter chaque classe avec des algorithmes sensibles aux données aberrantes. Dans cette optique, les méthodes de classification forment une première étape du processus d'analyse.

Ces techniques empruntĂ©es Ă  l'intelligence artificielle utilisent le partitionnement de l'ensemble des informations mais aussi le recouvrement. Le partitionnement est l'objectif des algorithmes utilisant par exemple des mĂ©thodes telles que celles des k-means (les « nuĂ©es dynamiques Â» en français), des k-medoids[b 6], k-modes et k-prototypes, qu'on peut utiliser pour rechercher les aberrations (outliers), les rĂ©seaux de Kohonen, qui peuvent aussi servir Ă  la classification[47], l'algorithme EM ou l'AdaBoost. La classification hiĂ©rarchique est un cas particulier de partitionnement pour lequel les graphiques produits sont facilement comprĂ©hensibles. Les mĂ©thodes ascendantes partent des individus qu'on agrège en classes, tandis que les mĂ©thodes descendantes partent du tout et par divisions successives arrivent aux individus qui composent les classes. Ci-contre le graphique d'une classification ascendante a Ă©tĂ© tracĂ© pour montrer comment les classes les plus proches sont reliĂ©es entre elles pour former des classes de niveau supĂ©rieur.

Le recouvrement à logique floue est une forme de recouvrement de l'ensemble des individus représentés par les lignes d'une matrice où certains d'entre eux possèdent une probabilité non nulle d'appartenir à deux classes différentes. L'algorithme le plus connu de ce type est le FCM (Fuzzy c-means)[48].

En bio-informatique, des techniques de classification double sont employées pour regrouper simultanément dans des classes différentes les individus et les variables qui les caractérisent.

Pour rendre compte de l'utilitĂ© de ces mĂ©thodes de recouvrement, il faut se rappeler que la classification est un problème dont la grande complexitĂ© a Ă©tĂ© dĂ©finie par Eric Bell. Le nombre de partitions d'un ensemble de n objets est Ă©gal Ă  : B_n=\frac{1}{e}\sum_{k=0}^\infty \frac{k^n}{k!} >  e^n . Il vaut donc mieux avoir des mĂ©thodes efficaces et rapides pour trouver une partition qui rĂ©pond au problème posĂ© plutĂ´t que de parcourir l'ensemble des solutions possibles.

Enfin, quand l'analyse se porte non pas sur les individus, les items ou les objets, mais sur les relations qui existent entre eux, la recherche de règles d'associations est l'outil adaptĂ©. Cette technique est, Ă  l'origine, utilisĂ©e pour faire l'analyse du panier d'achats ou l'analyse de sĂ©quences. Elle permet, dans ce cas, de savoir quels sont les produits achetĂ©s simultanĂ©ment, dans un supermarchĂ© par exemple, par un très grand nombre de clients ; elle est Ă©galement appliquĂ©e pour rĂ©soudre des problèmes d'analyse de parcours de navigation de sites web. La recherche de règles d'association peut ĂŞtre utilisĂ©e de manière supervisĂ©e ; les algorithmes APriori, GRI, Carma, mĂ©thode ARD ou encore PageRank se servent de cette technique[49].

[modifier] Méthodes prédictives

Article dĂ©taillĂ© : Analyse prĂ©dictive.
Régression linéaire.

[modifier] Définition

La raison d'être des méthodes prédictives est d'expliquer ou de prévoir un ou plusieurs phénomènes observables et effectivement mesurés. Concrètement, elles vont s'intéresser à une ou plusieurs variables définies comme étant les cibles de l'analyse. Par exemple, l'évaluation de la probabilité pour qu'un individu achète un produit plutôt qu'un autre, la probabilité pour qu'il réponde à une opération de marketing direct, celles qu'il contracte une maladie particulière, en guérisse, les chances qu'un individu ayant visité une page d'un site web y revienne, sont typiquement des objectifs que peuvent atteindre les méthodes prédictives.

En exploration de donnĂ©es prĂ©dictive, il y a deux types d'opĂ©rations : la discrimination ou classement, et la rĂ©gression ou prĂ©diction, tout dĂ©pend du type de variable Ă  expliquer. La discrimination s’intĂ©resse aux variables qualitatives, tandis que la rĂ©gression s’intĂ©resse aux variables continues[b 7].

Les mĂ©thodes de classement et de prĂ©diction permettent de sĂ©parer des individus en plusieurs classes. Si la classe est connue au prĂ©alable et que l'opĂ©ration de classement consiste Ă  analyser les caractĂ©ristiques des individus pour les placer dans une classe, la mĂ©thode est dite « supervisĂ©e[b 8] Â». Dans le cas contraire, on parle de mĂ©thodes « non-supervisĂ©es Â», ce vocabulaire Ă©tant issu de l'apprentissage automatique. La diffĂ©rence entre les mĂ©thodes descriptives de classification que l'on a vues prĂ©cĂ©demment, et les mĂ©thodes prĂ©dictives de classement provient du fait que leur objectif est divergent : les premières « rĂ©duisent, rĂ©sument, synthĂ©tisent les donnĂ©es[b 4] Â» pour donner une vision plus claire de l'amas de donnĂ©es, alors que les secondes expliquent une ou plusieurs variables cibles en vue de la prĂ©diction des valeurs de ces cibles pour les nouveaux arrivants.

[modifier] Exemples

Un exemple d'arbre de décision utilisant la méthode CART, sur les données de la population du Titanic

On peut référencer quelques exemples de méthodes prédictives[Note 5], et les présenter selon le domaine d'où elles proviennent.

Parmi les méthodes issues de l'intelligence artificielle, l'analyste pourra utiliser les arbres de décision[50],[51], parfois pour la prédiction, parfois pour discrétiser les données quantitatives[52], [Note 6], le raisonnement par cas, les réseaux de neurones[Note 7], les neurones à base radiale[53],[54] pour la classification et l'approximation de fonctions, ou peut-être les algorithmes génétiques, certains en appui des réseaux bayésiens[55], d'autres comme Timeweaver en recherche d'évènements rares[56].

Si l'analyste est plus enclin à utiliser les méthodes issues de la statistique et des probabilités, il se tournera vers les techniques de régressions linéaires ou non linéaires au sens large[Note 8] pour trouver une fonction d'approximation, l'analyse discriminante de Fisher, la régression logistique, et la régression logistique PLS pour prédire une variable catégorielle, ou bien le modèle linéaire généralisé (GLM), le modèle additif généralisé (GAM) ou modèle log-linéaire afin de prédire une variable multidimensionnelle.

Quant à l'inférence bayésienne et plus particulièrement les réseaux bayésiens[57],[58], ils pourront être utile à l'analyste si celui-ci cherche les causes d'un phénomène ou bien cherche la probabilité de la réalisation d'un évènement[59],[60].

S'il souhaite compléter les données manquantes, la méthode des k plus proches voisins (K-nn) reste à sa disposition[61]. À moins que l'exploration hypercubique issue de l'aide à la décision ou le filtrage collaboratif issu du marketing ne répondent mieux à ses attentes.

Courbe lift évaluant la performance d'un modèle random forest sur les données Kyphosis.
Courbes ROC comparant la performance en classification de cinq modèles d'apprentissage automatique sur les données du cancer du sein.

La liste des algorithmes Ă©volue chaque jour, car ils n'ont pas tous le mĂŞme objet, ne s'appliquent pas aux mĂŞmes donnĂ©es en entrĂ©e et aucun n'est optimal dans tous les cas. En outre, ils s'avèrent complĂ©mentaires les uns aux autres en pratique et en les combinant intelligemment en construisant des modèles de modèles ou mĂ©tamodèles, il est possible d'obtenir des gains en performance et en qualitĂ© très significatifs. L'ICDM-IEEE a fait en 2006 un classement des 10 algorithmes[49] ayant le plus d'influence dans le monde de l'exploration de donnĂ©es : ce classement est une aide efficace au choix et Ă  la comprĂ©hension de ces algorithmes.

L'UniversitĂ© Stanford a mis en concurrence Ă  sa rentrĂ©e d'automne 2007 deux Ă©quipes sur le projet suivant : en s'appuyant sur la base de films visualisĂ©s par chaque client d'un rĂ©seau de distribution dont les abonnements sont payĂ©s par carte magnĂ©tique, dĂ©terminer l'audience la plus probable d'un film qui n'a pas encore Ă©tĂ© vu. Une Ă©quipe s'est orientĂ©e sur une recherche d'algorithmes extrĂŞmement fins Ă  partir des informations de la base, une autre au contraire a pris des algorithmes extrĂŞmement simples, mais a combinĂ© la base fournie par le distributeur au contenu de l’Internet Movie Database (IMDB) pour enrichir ses informations. La seconde Ă©quipe a obtenu des rĂ©sultats nettement plus prĂ©cis. Un article[62] suggère que l'efficacitĂ© de Google tient moins Ă  son algorithme PageRank qu'Ă  la très grande quantitĂ© d'information que Google peut corrĂ©ler par croisement des historiques de requĂŞtes, et par l'analyse du comportement de navigation de ses utilisateurs sur les diffĂ©rents sites.

Avec les moyens modernes de l'informatique l'une ou l'autre de ces deux solutions peut s'envisager dans chaque projet, mais d'autres techniques sont apparues qui ont prouvé leur efficacité pour améliorer la qualité des modèles et leur performance.

[modifier] Qualité et performance

Un modèle de qualité est un modèle rapide, dont le taux d'erreur doit être le plus bas possible. Il ne doit pas être sensible aux fluctuations de l'échantillon pour ce qui concerne les méthodes supervisées, il doit être robuste et supporter des changements lents intervenants sur les données. En outre, le fait d'être simple, compréhensible et produire des résultats interprétables facilement, augmente sa valeur. Enfin, il est paramétrable pour être réutilisable[63].

Plusieurs indicateurs sont utilisés pour évaluer la qualité d'un modèle, et parmi ceux-ci les courbes ROC et lift, l'indice de Gini et l'erreur quadratique moyenne montrent où se situe la prédiction par rapport à la réalité et donnent ainsi une bonne idée de la valeur de cette composante de la qualité du modèle.

La robustesse et la précision[b 9],[Note 9] sont deux autres facettes de la qualité du modèle. Pour obtenir un modèle performant, la technique consiste à limiter l'hétérogénéité des données, optimiser l’échantillonnage ou combiner les modèles.

La pré-segmentation se propose de classifier la population, puis de construire un modèle sur chacune des classes dans lesquelles les données sont plus homogènes et enfin d'en agréger les résultats.

Avec l'agrégation de modèles, l'analyste applique le même modèle à des échantillons légèrement différents issus de l'échantillon initial, pour ensuite associer les résultats. Le bagging et le boosting étaient les deux techniques les plus efficaces et les plus populaires en 1999[64]. En marketing par exemple, l'algorithme Uplift utilise la technique du bagging pour produire un modèle d'identification de groupes de personnes pouvant répondre à une offre commerciale après sollicitation.

Enfin, la combinaison de modèles conduit l'analyste à appliquer plusieurs modèles sur une même population et à combiner les résultats. Des techniques telles que l'analyse discriminante et les réseaux de neurones par exemple, se marient aisément.

[modifier] Outils informatiques

[modifier] Logiciels

La fouille de données n'existerait pas sans outils. L'offre informatique est présente sous la forme de logiciels[65] et aussi sur quelques plateformes spécialisées[66]. De nombreux logiciels sont présents dans la sphère des logiciels commerciaux, mais il en existe aussi dans celle des logiciels libres. Il n'y a pas de meilleurs logiciels que d'autres, tout dépend de ce qu'on veut en faire[67]. Les logiciels commerciaux sont plutôt destinés aux entreprises, ou aux organismes ayant de gros volumes de données à explorer[b 10], tandis que les logiciels libres sont destinés plus particulièrement aux étudiants, à ceux qui veulent expérimenter des techniques nouvelles, et aux PME[b 10]. En 2009[68], les outils les plus utilisés sont, dans l'ordre, SPSS, RapidMiner, SAS, Excel, R, KXEN, Weka, Matlab, Knime, Microsoft SQL Server, Oracle DM et STATISTICA. En 2010, R[69] est l'outil le plus utilisé parmi les utilisateurs ayant répondu au sondage de Rexer Analytics[70] et STATISTICA apparaît comme l'outil de data mining préféré par la plupart des dataminers (18%). STATISTICA, IBM SPSS Modeler, et R ont reçu les taux de satisfaction les plus élevés à la fois en 2010 et 2009 dans ce sondage de Rexer Analytics .

Article dĂ©taillĂ© : Logiciels de fouille de donnĂ©es.

[modifier] Informatique en nuage

L’informatique en nuage (cloud computing) n’est pas un outil d’exploration de donnĂ©es, mais un ensemble de services web, dĂ©livrĂ©s par des fournisseurs via l'internet, permettant d’accueillir et/ou d’utiliser des donnĂ©es et des logiciels[71]. NĂ©anmoins, il existe des services qui peuvent ĂŞtre utilisĂ©s dans le domaine de l’exploration de donnĂ©es. Oracle Data mining s’expose sur l’IaaS d’Amazon[Note 10] en proposant aux clients une Amazon Machine Image[72] contenant une base de donnĂ©es Oracle incluant une IHM pour la fouille de donnĂ©es ; une image pour R et Python est disponible aussi sur Amazon Web Services [73]. Des acteurs prĂ©sents exclusivement dans le nuage et spĂ©cialisĂ©s dans le domaine de la fouille de donnĂ©es proposent leurs services comme In2Cloud[74], Predixion[75] et Cloud9Analytics[76] entre autres.

[modifier] Limites et problèmes

L'exploration des données est une technique ayant ses limites et posant quelques problèmes[77].

[modifier] Limites

Les logiciels ne sont pas auto-suffisants. Les outils d'exploration des données ne proposent pas d'interprétation des résultats, un analyste spécialiste de la fouille de données et une personne connaissant le métier duquel sont extraites les données sont nécessaires pour analyser les livrables du logiciel.

En outre, les logiciels d'exploration de données donnent toujours un résultat, mais rien n'indique qu'il soit pertinent, ni ne donne une indication sur sa qualité. Mais, de plus en plus, des techniques d'aide à l'évaluation sont mises en place dans les logiciels libres ou commerciaux.

Les relations entre les variables ne sont pas clairement définies. Les outils d'exploration des données indiquent que telles et telles variables ont une influence sur la variable à expliquer, mais ne disent rien sur le type de relation, en particulier il n'est pas dit si les relations sont de cause à effet.

De plus, il peut être très difficile de restituer de manière claire soit par des graphes, des courbes ou des histogrammes, les résultats de l'analyse. Le non-technicien aura quelquefois du mal à comprendre les réponses qu'on lui apporte.

[modifier] Problèmes

Pour un francophone, néophyte de surcroit, le vocabulaire est une difficulté voire un problème. Pour s'en rendre compte, il est intéressant de préciser le vocabulaire rencontré dans les littératures française et anglo-saxonne. En prenant comme référence le vocabulaire anglo-saxon[b 11], le clustering est compris en exploration de données comme une segmentation, en statistiques et en analyse des données comme une classification. La classification en anglais correspond à la classification en exploration de données, à l'analyse discriminante ou au classement en analyse de données à la française et à un problème de décision en statistique. Enfin, les decision trees sont des arbres de décision en exploration de données, et on peut entendre parler de segmentation dans ce cas dans le domaine de l'analyse des données. La terminologie n'est pas claire.

Article dĂ©taillĂ© : Glossaire du data mining.

La qualité des données, c'est-à-dire la pertinence et la complétude des données, est une nécessité pour l'exploration des données, mais ne suffit pas. Les erreurs de saisies, les enregistrements doublonnés, les données non renseignées ou renseignées sans référence au temps affectent aussi la qualité des données. Les entreprises mettent en place des structures et des démarches d'assurance qualité des données pour pouvoir répondre efficacement aux nouvelles réglementations externes, aux audits internes, et augmenter la rentabilité de leurs données qu'elles considèrent comme faisant partie de leur patrimoine[78].

L'interopérabilité d'un système est sa capacité à fonctionner avec d'autres systèmes, créés par des éditeurs différents. Les systèmes d'exploration de données doivent pouvoir travailler avec des données venant de plusieurs systèmes de gestion de bases de données, de type de fichier, de type de données et de capteurs différents. En outre, l’interopérabilité a besoin de la qualité des données. Malgré les efforts de l'industrie en matière d'interopérabilité, il semble que dans certains domaines ce ne soit pas la règle[79].

Les données sont collectées dans le but de répondre à une question posée par le métier. Un risque de l'exploration de données est l'utilisation de ces données dans un autre but que celui assigné au départ. Le détournement des données est l'équivalent d'une citation hors de son contexte. En outre, elle peut conduire à des problèmes éthiques.

La vie privĂ©e des personnes peut ĂŞtre menacĂ©e par des projets d'exploration de donnĂ©es, si aucune prĂ©caution n'est prise, notamment dans la fouille du web et l'utilisation des donnĂ©es personnelles collectĂ©es sur Internet oĂą les habitudes d'achats, les prĂ©fĂ©rences, et mĂŞme la santĂ© des personnes peuvent ĂŞtre dĂ©voilĂ©es. Un autre exemple est fourni par l'Information Awareness Office et en particulier le programme Total Information Awareness (TIA)[80] qui exploitait pleinement la technologie d'exploration de donnĂ©es et qui fut un des projets « post-11 septembre Â» que le Congrès des États-Unis avait commencĂ© Ă  financer, puis qu'il a abandonnĂ© Ă  cause des menaces particulièrement importantes que ce programme faisait peser sur la vie privĂ©e des citoyens amĂ©ricains. Mais mĂŞme sans ĂŞtre dĂ©voilĂ©es, les donnĂ©es des personnes recueillies par les entreprises, via les outils de CRM, les caisses enregistreuses, les DAB, les cartes santĂ©, etc., peuvent conduire, avec les techniques de fouille de donnĂ©es, Ă  classer les personnes en une hiĂ©rarchie de groupes, de bons Ă  mauvais, prospects, clients, patients, ou n'importe quel rĂ´le que l'on joue Ă  un instant donnĂ© dans la vie sociale, selon des critères inconnus des personnes elles-mĂŞmes[81],[82]. Dans cette optique, et pour corriger cet aspect nĂ©gatif, Rakesh Agrawal et Ramakrishnan Sikrant s'interrogent sur la faisabilitĂ© d'une exploration de donnĂ©es qui prĂ©serverait la vie privĂ©e des personnes[83],[Note 11]. Le stockage des donnĂ©es nĂ©cessaire Ă  la fouille pose un autre problème dans la mesure oĂą les donnĂ©es numĂ©riques peuvent ĂŞtre piratĂ©es. Et dans ce cas l'Ă©clatement des donnĂ©es sur des bases de donnĂ©es distribuĂ©es[84] et la cryptographie font partie des rĂ©ponses techniques qui existent et qui peuvent ĂŞtre mises en place par les entreprises.

[modifier] Fouilles spécialisées

Ce qui vient d'être vu concerne l'exploration de données qu'on pourrait qualifier maintenant de classique. Des spécialisations techniques de l'exploration de données telles que la fouille d'images (image mining), la fouille du web (web data mining), la fouille de flots de données (data stream mining) et la fouille de textes (text mining) sont en plein développement dans les années 2010 et concentrent l'attention de nombreux chercheurs et industriels.

[modifier] Par types de données

La fouille audio, technique naissante qui n'est peut-être pas apparentée à la fouille de données, permet de reconnaître des sons dans un flux audio. Elle sert principalement dans le domaine de la reconnaissance vocale.

La fouille d'images[85] est la technique qui s’intéresse au contenu de l'image. Elle extrait des caractéristiques dans un ensemble d'images, par exemple du web, pour les classer, les regrouper par type ou bien pour reconnaître des formes dans une image dans le but de chercher des copies de cette image ou de détecter un objet particulier, par exemple.

La fouille de textes est l'exploration des textes en vue d'en extraire une connaissance de haute qualité. Cette technique est souvent désignée sous l'anglicisme text mining. C'est un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithmes un modèle simplifié des théories linguistiques dans des systèmes informatiques d'apprentissage et de statistiques. Les disciplines impliquées sont donc la linguistique calculatoire, l'ingénierie du langage, l'apprentissage artificiel, les statistiques et l'informatique.

[modifier] Par environnements techniques

Il s'agit d'exploiter, avec la fouille du web, l'énorme source de données que constitue le web et trouver des modèles et des schémas dans l'usage, le contenu et la structure du web. La fouille de l'usage du web (Web usage mining ou Web log mining) est le processus d'extraction d'informations utiles stockées dans les journaux des serveurs. Cette fouille exploite la fouille de textes pour analyser les documents textes. La fouille de la structure du web est le processus d'analyse des relations, inconnues à priori, entre documents ou pages stockés sur le web.

La fouille de flots de donnĂ©es (data stream mining)[86] est la technique qui consiste Ă  explorer les donnĂ©es qui arrivent en un flot continu[87], illimitĂ©, avec une grande rapiditĂ©, et dont certains paramètres fondamentaux se modifient avec le temps : par exemple, l'analyse des flots de donnĂ©es Ă©mis par des capteurs automobiles[88]. Mais des exemples d'applications peuvent ĂŞtre trouvĂ©s dans les domaines des tĂ©lĂ©communications, de la gestion des rĂ©seaux, de la gestion des marchĂ©s financiers, de la surveillance, et dans les domaines d'activitĂ©s de la vie de tous les jours, plus proches des personnes, comme l'analyse des flux de GAB, des transactions par cartes de crĂ©dit, etc.

[modifier] Par domaines d'activités

Représentation graphique des bords de la rivière Neuse aux États-Unis où des concentrations anormales de zinc ont été observées.

La fouille de donnĂ©es spatiales[89] (Spatial data mining) est la technique d'exploration de donnĂ©es gĂ©ographiques Ă  notre Ă©chelle sur Terre, mais aussi astronomiques ou microscopiques, dont le but est de trouver des motifs intĂ©ressants dans les donnĂ©es contenant Ă  la fois du texte, des donnĂ©es temporelles ou des donnĂ©es gĂ©omĂ©triques, telles que des vecteurs, des trames ou des graphes. Les donnĂ©es spatiales donnent des informations Ă  des Ă©chelles diffĂ©rentes, fournies par des techniques diffĂ©rentes, sous des formats diffĂ©rents, dans une pĂ©riode de temps souvent longue en vue de l'observation des changements. Les volumes sont donc très importants, les donnĂ©es peuvent ĂŞtre imparfaites, bruitĂ©es. De plus, les relations entre les donnĂ©es spatiales sont souvent implicites : les relations ensemblistes, topologiques, directionnelles et mĂ©triques se rencontrent frĂ©quemment dans cette spĂ©cialisation. La fouille de donnĂ©es spatiales est donc particulièrement ardue.

On utilise la fouille de données spatiales pour explorer les données des sciences de la terre, les données cartographiques du crime, celles des recensements, du trafic routier, des foyers de cancer[90]etc.

[modifier] Dans le futur

L’avenir de l'exploration de données dépend de celui des données numériques. Avec l’apparition du Web 2.0, des blogs, des wikis et des services en nuages[91], il y a une explosion du volume des données numériques et les gisements de matière première pour la fouille de données sont donc importants.

De nombreux domaines exploitent encore peu la fouille de donnĂ©es pour leurs besoins propres. L’analyse des donnĂ©es venant de la blogosphère n’en est qu’à son dĂ©but. Comprendre l’« Ă©cologie de l’information[Note 12],[b 12]» pour analyser le mode de fonctionnement des mĂ©dias de l’Internet par exemple ne fait que commencer.

Pour peu que les problèmes liés à la vie privée des personnes[b 13],[b 14] soient réglés, la fouille de données peut aider à traiter des questions dans le domaine médical[b 15], et notamment dans la prévention des risques hospitaliers[b 15].

Enfin, avec l’apparition de nouvelles données et de nouveaux domaines, les techniques continuent de se développer[b 16].

[modifier] Notes et références

[modifier] Notes

  1. ↑ Terme recommandé au Canada par l'OQLF, et en France par la DGLFLF (Journal officiel du 27 février 2003) et par FranceTerme
  2. ↑ en suivant le mĂŞme exemple, il permet de rĂ©pondre Ă  la question : « Quel pourrait ĂŞtre le chiffre d'affaires dans un mois ? Â»
  3. ↑ Voir dans ce document les efforts de standardisation et d'interopĂ©rabilitĂ© effectuĂ©s par l'industrie : [PDF] (en) Arati Kadav, Aya Kawale, Pabitra Mitra, « Data Mining Standards Â». ConsultĂ© le 13 mai 2011
  4. ↑ Par exemple, un programme gestionnaire de messages électroniques pourrait tenter de classer un e-mail dans la catégorie des e-mails légitimes ou bien dans celle des pourriels. Les algorithmes généralement utilisés incluent les arbres de décision, les plus proches voisins, la classification naïve bayésienne, les réseaux neuronaux et les séparateurs à vaste marge (SVM)
  5. ↑ Dont ont peut trouver, pour certaines, la description ici : [PDF] Guillaume Calas, « Ă‰tudes des principaux algorithmes de data mining Â», 2009. ConsultĂ© le 14 mai 2011
  6. ↑ Comme CART, CHAID, ECHAID, QUEST, C5, C4.5 et les forêts d'arbres décisionnels
  7. ↑ Tels que les perceptrons mono ou multicouches avec ou sans rétropropagation des erreurs
  8. ↑ Telles que la régression linéaire, linéaire multiple, logistique, PLS, ANOVA, MANOVA, ANCOVA ou MANCOVA.
  9. ↑ Voir Glossaire du data mining pour la dĂ©finition de « robustesse Â» et « prĂ©cision Â».
  10. ↑ IaaS signifiant Infrastructure as a service dénommé Amazon Elastic Compute Cloud chez Amazon
  11. ↑ Puisque les modèles de l'exploration de données concernent les données agrégées d'où sont éliminées les données personnelles.
  12. ↑ Selon Tim Finin, Anupam Joshi, Pranam Kolari, Akshay Java, Anubhav Kale et Amit Karandikar, « The information ecology of social media and online communities Â». ConsultĂ© le 19 juin 2011.

[modifier] Références

  • (en) Cet article est partiellement ou en totalitĂ© issu de l’article de WikipĂ©dia en anglais intitulĂ© « Data mining Â» (voir la liste des auteurs)

[modifier] Ouvrages spécialisés

[modifier] Articles publiés sur internet

  1. ↑ (en) Kurt Thearling, « An Introduction to Data Mining Â» sur thearling.com. ConsultĂ© le 2 mai 2011.
  2. ↑ a et b [PDF] Jean-Claude Oriol, « Une approche historique de la statistique Â». ConsultĂ© le 12 mai 2011
  3. ↑ (en) Nikhil Pal et Lakhmi Jain, Advanced techniques in knowledge discovery and data mining, Springer, 2005, 254 p. (ISBN 978-1-85233-867-1) 
  4. ↑ Carole Albouy, « Il Ă©tait une fois ... le data mining Â». ConsultĂ© le 23 octobre 2011
  5. ↑ [PDF] (en) Patricia Cerrito, « A Data Mining Applications Area in the Department of Mathematics Â». ConsultĂ© le 31 mai 2011
  6. ↑ (en) Maryann Lawlor, « Smart Companies Dig Data Â». ConsultĂ© le 31 mai 2011
  7. ↑ a et b [PDF] Christine Frodeau, « Data mining, Outil de Prediction du Comportement du Consommateur Â». ConsultĂ© le 12 mai 2011
  8. ↑ (en) Colleen McCue, Data Mining and Predictive Analysis, Elsevier, 2007, 313 p. (ISBN 978-0-7506-7796-7) 
  9. ↑ a et b [PDF] Frank audet, Malcolm Moore, « AmĂ©lioration de la qualitĂ© dans un centre d’appel Â». ConsultĂ© le 12 mai 2011
  10. ↑ [PDF] (en) Henry Abarbanel, Curtis Callan, William Dally, Freeman Dyson, Terence Hwa, Steven Koonin, Herbert Levine, Oscar Rothaus, Roy Schwitters, Christopher Stubbs, Peter Weinberger, « Data mining and the human genome Â», p. 7. ConsultĂ© le 12 mai 2011
  11. ↑ (en) Industries / Fields for Analytics / Data Mining in 2010, octobre 2010. Consulté le 12 mai 2011
  12. ↑ (en) Yi Peng, Gang Kou, Yong Shi et Zhengxin Chen, « A Descriptive Framework for the Field of Data Mining and Knowledge Discovery Â», dans International Journal of Information Technology and Decision Making, vol. 7, no 4, 2008, p. 639 Ă  682 [[10.1142/S0219622008003204 texte intĂ©gral] (page consultĂ©e le 19 mai 2011)] 
  13. ↑ (en) SIGKDD : Site officiel. ConsultĂ© le 13 mai 2011
  14. ↑ (en) ACM SIGKDD : Conferences. ConsultĂ© le 13 mai 2011
  15. ↑ (en) ACM, New York, « SIGKDD Explorations Â». ConsultĂ© le 13 mai 2011
  16. ↑ (en) 5th (2009). Consulté le 13 mai 2011
  17. ↑ (en) 4th (2008). Consulté le 13 mai 2011
  18. ↑ (en) 3rd (2007). Consulté le 13 mai 2011
  19. ↑ (en) 2nd (2006). Consulté le 13 mai 2011
  20. ↑ (en) 1st (2005). Consulté le 13 mai 2011
  21. ↑ (en) ICDM : Site officiel. ConsultĂ© le 13 mai 2011
  22. ↑ (en) IEEE International Conference on Data Mining. Consulté le 13 mai 2011
  23. ↑ (en) ICDM09, Miami, FL. Consulté le 13 mai 2011
  24. ↑ (en) ICDM08, Pisa (Italy) . Consulté le 13 mai 2011
  25. ↑ (en) ICDM07, Omaha, NE. Consulté le 13 mai 2011
  26. ↑ (en) ICDM06, Hong Kong. Consulté le 13 mai 2011
  27. ↑ (en) ICDM05, Houston, TX . Consulté le 13 mai 2011
  28. ↑ (en) ICDM04, Brighton (UK). Consulté le 13 mai 2011
  29. ↑ (en) ICDM01, San Jose, CA.. Consulté le 13 mai 2011
  30. ↑ a, b, c, d, e et f (en) CRoss Industry Standard Process for Data Mining, 2007. Consulté le 14 mai 2011
  31. ↑ [PDF] (en) Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, « From Data Mining to Knowledge Discovery in Databases Â», 1996. ConsultĂ© le 14 mai 2011
  32. ↑ (en) STATISTICA, Statistics Glossary, Models for Data Mining. Consulté le 13 mai 2011
  33. ↑ (en) SAS SEMMA. Consulté le 13 mai 2011
  34. ↑ [PDF] (en) Ana Azevedo, Manuel Filipe Santos, « KDD, SEMMA and CRISP-DM: a parallel overview Â», IADIS, 2008, (ISBN 978-972-8924-63-8), p. 184. ConsultĂ© le 14 mai 2011
  35. ↑ isixsigma, « What Is Six Sigma? Â». ConsultĂ© le 15 mai 2011
  36. ↑ StatSoft, « Sigma DMAIC Six Sigma DMAIC Â». ConsultĂ© le 15 mai 2011
  37. ↑ (en) Aveta Business Institute, « Six Sigma on line Â». ConsultĂ© le 15 mai 2011
  38. ↑ (en) fasq.org, « What are cross-validation and bootstrapping? Â». ConsultĂ© le 15 mai 2011
  39. ↑ (en) Jing Gao, Wei Fan, Jiawei Han, « On the Power of Ensemble: Supervised and Unsupervised Methods Reconciled Â». ConsultĂ© le 15 mai 2011
  40. ↑ [PDF] (en) Mary McGlohon, « Data Mining Disasters: a report Â», p. 2. ConsultĂ© le 14 mai 2011
  41. ↑ (en) An Introduction to Ensemble Methods sur RDC. Consulté le 14 mai 2011
  42. ↑ (en) Dorian Pyle, Data Preparation for Data Mining, Morgan Kaufmann, 1999, 560 p. (ISBN 978-1558605299) 
  43. ↑ (en) Kurt Thearling, « ''An Introduction to Data Mining Â», p. 17. ConsultĂ© le 14 mai 2011
  44. ↑ [PDF] StĂ©phane TuffĂ©ry, « Les techniques descriptives Â», 2007, p. 5. ConsultĂ© le 14 mai 2011
  45. ↑ [PDF] Jacques Baillargeon, « Analyse factorielle exploratoire Â», 2003, p. 4. ConsultĂ© le 14 mai 2011
  46. ↑ a et b [PDF] Philippe Besse, Alain Baccini, « Exploration Statistique Â», juin 2010, p. 7 et suiv.. ConsultĂ© le 14 mai 2011
  47. ↑ Alexandre Aupetit, « RĂ©seaux de neurones artificiels : une petite introduction Â», mai 2004. ConsultĂ© le 14 mai 2011
  48. ↑ [PDF] (en) Nikhil R. Pal, Kuhu Pal, James M. Keller, James C. Bezdek, « Fuzzy c-Means Clustering of Incomplete Data Â», aoĂ»t 2005. ConsultĂ© le 14 mai 2011
  49. ↑ a et b [PDF] (en) ICDM Top 10 algorithms in data mining. Consulté le 14 mai 2011
  50. ↑ [PDF] (en) Wei-Yin Loh, Yu-Shan Shih, « Split Selection Methods for Classification Trees Â», 1997. ConsultĂ© le 14 mai 2011
  51. ↑ [PDF] (en) Leo Breiman, « Random Forests Â», 2001. ConsultĂ© le 14 mai 2011
  52. ↑ [PDF] Ricco Rakotomalala, « Arbres de DĂ©cision Â», 2005. ConsultĂ© le 14 mai 2011
  53. ↑ (en) (en) Simon Haykin, Neural Networks: A comprehensive Foundation, Prentice Hall, 1998, 842 p. (ISBN 978-0132733502) 
  54. ↑ [ppt] M. Boukadoum, « RĂ©seaux de neurones Ă  base radiale Â». ConsultĂ© le 14 mai 2011
  55. ↑ [PDF] Jean-Marc TrĂ©meaux, « Algorithmes gĂ©nĂ©tiques pour l'identification structurelle des rĂ©seaux bayĂ©siens Â», 2006. ConsultĂ© le 14 mai 2011
  56. ↑ [PDF] Thomas VallĂ©e, Murat YıldızoÄźlu, « PrĂ©sentation des algorithmes gĂ©nĂ©tiques et de leurs applications en Ă©conomie Â», 2003, p. 15. ConsultĂ© le 14 mai 2011
  57. ↑ [PDF] Olivier Parent, Julien Eustache, « Les RĂ©seaux BayĂ©siens Â», 2006. ConsultĂ© le 14 mai 2011
  58. ↑ [PDF] Gilles Balmisse, « Les RĂ©seaux BayĂ©siens Â», 2006. ConsultĂ© le 14 mai 2011
  59. ↑ [PDF] Samos, « Les RĂ©seaux BayĂ©siens Â», 2003. ConsultĂ© le 14 mai 2011
  60. ↑ Bayesia, « Pour sortir de l'incertitude, entrez dans l'ère des rĂ©seaux bayĂ©siens Â», Bayesia. ConsultĂ© le 14 mai 2011
  61. ↑ ValĂ©rie Monbet, « Les donnĂ©es manquantes Â», p. 27. ConsultĂ© le 14 mai 2011
  62. ↑ Didier Durand, « PageRank de Google : l'algorithme prend en compte 200 paramètres ! Â», 2008. ConsultĂ© le 14 mai 2011
  63. ↑ [PDF] Bertrand Liaudet, « Cours de Data Mining 3 : Modelisation PrĂ©sentation GĂ©nĂ©rale Â». ConsultĂ© le 14 mai 2011
  64. ↑ [PDF] (en) David Opitz, Richard Maclin, « Popular Ensemble Methods: An Empirical Study Â», 1999. ConsultĂ© le 14 mai 2011
  65. ↑ (en) Software Suites for Data Mining, Analytics, and Knowledge Discovery sur kdnuggets. Consulté le 15 mai 2011
  66. ↑ Plateforme de datamining pour les editeurs d'univers virtuels. Consulté le 15 mai 2011
  67. ↑ [PDF] (en) Dean W. Abbott, I. Philip Matkovsky, et John Elder IV, « 1998 IEEE International Conference on Systems, Man, and Cybernetics, San Diego, CA Â», 14 octobre 1998. ConsultĂ© le 15 mai 2011
  68. ↑ (en) Data Mining Tools Used Poll, 2009. Consulté le 15 mai 2011
  69. ↑ (en) Rexer Analytics, « 2010 Data Miner Survey Â». ConsultĂ© le 19 juin 2011
  70. ↑ (en) Rexer Analytics, « Rexer Analytics Â». ConsultĂ© le 19 juin 2011
  71. ↑ (en) Dave Wells, « What’s Up with Cloud Analytics? Â». ConsultĂ© le 2 juin 2011
  72. ↑ [PDF](en) John Smiley, Bill Hodak, « Oracle Database on Amazon EC2 : An Oracle White Paper Â». ConsultĂ© le 4 juin 2011
  73. ↑ [PDF](en) Drew Conway, « Amazon EC2 configuration for scientific computing in Python and R Â». ConsultĂ© le 4 juin 2011
  74. ↑ (en) In2Cloud, « In2Clouds Solutions Â». ConsultĂ© le 5 juin 2011
  75. ↑ (en) Predixion, « Cloud Predixion Solutions Â». ConsultĂ© le 5 juin 2011
  76. ↑ (en) Cloud9, « Cloud9 Solution Overview Â». ConsultĂ© le 14 juin 2011
  77. ↑ [PDF] (en) Jeffrey Seifer, « CRS report for congress Â», 2007. ConsultĂ© le 15 mai 2011
  78. ↑ Laetitia Hardy, « Pourquoi la qualitĂ© des donnĂ©es devient incontournable au sein de l’entreprise? Â» sur Decideo, 2007. ConsultĂ© le 15 mai 2011
  79. ↑ [PDF] (en) Jeffrey Seifert, « CRS report for congress Â», 2007, p. 27. ConsultĂ© le 15 mai 2011
  80. ↑ (en) International Workshop on Practical Privacy-Preserving Data Mining, 2008. Consulté le 15 mai 2011
  81. ↑ [PDF] (en) Martin Meint, Jan Möller, « Privacy Preserving Data Mining Â». ConsultĂ© le 15 mai 2011
  82. ↑ (en) Kirsten Wahlstrom, John F. Roddick, Rick Sarre, Vladimir Estivill-Castro et Denise de Vries, « Legal and Technical Issues of Privacy Preservation in Data Mining Â», 2007. ConsultĂ© le 15 mai 2011
  83. ↑ [PDF] (en) Rakesh Agrawal, Ramakrishnan Sikrant, « privacy-Preserving Data mining Â». ConsultĂ© le 15 mai 2011
  84. ↑ [PDF] (en) Murat Kantarcioglu, « Introduction to Privacy Preserving Distributed Data Mining Â». ConsultĂ© le 15 mai 2011
  85. ↑ [PDF] Patrick Gros, « Nouvelles de l’AS fouille d’images & Émergence de caractĂ©ristiques sĂ©mantiques Â», 16 juillet 2003. ConsultĂ© le 15 mai 2011
  86. ↑ [PDF] (en) Mohamed Medhat Gaber, Arkady Zaslavsky et Shonali Krishnaswamy, « Data Streams: A Review Â», 2005. ConsultĂ© le 15 mai 2011
  87. ↑ [PDF] (en) Chih-Hsiang Li, Ding-Ying Chiu, Yi-Hung Wu, Arbee L. P. Chen, « Mining Frequent Itemsets from Data Streams with a Time-Sensitive Sliding Window Â», 2005. ConsultĂ© le 15 mai 2011
  88. ↑ [PDF] (en) Hillol Kargupta, Ruchita Bhargava, Kun Liu, Michael Powers, Patrick Blair, Samuel Bushra, James Dull, Kakali Sarkar, Martin Klein, Mitesh Vasa et David Handy, « VEDAS : A Mobile and Distributed Data Stream Mining System for Real-Time Vehicle Monitoring Â», 2004. ConsultĂ© le 15 mai 2011
  89. ↑ (en) Spatial Database and Spatial Data Mining Research Group : Site officiel, 2011. ConsultĂ© le 15 mai 2011
  90. ↑ [PDF] (en) Shashi Shekhar, Pusheng Zhang, « Spatial Data Mining: Accomplishments and Research Needs Â», 2004. ConsultĂ© le 15 mai 2011
  91. ↑ IDC pronostique une explosion du volume de données produites dans le monde d'ici 10 ans. Consulté le 21 mai 2011

[modifier] Voir aussi

[modifier] Articles connexes

[modifier] Statistiques

  • Analyse multivariĂ©e
  • Analyse des donnĂ©es

[modifier] Intelligence artificielle

  • Apprentissage automatique
  • Traitement automatique du langage naturel
  • Linguistique calculatoire
  • Carte auto adaptative (exemple de RĂ©seau de neurones : carte de Kohonen (SOM/TOM))

[modifier] Aide à la décision

  • Informatique dĂ©cisionnelle
  • Aide Ă  la dĂ©cision
  • Datawarehouse et Datamart

[modifier] Applications

  • IMSL Bibliothèques NumĂ©riques
  • Recherche d'information
  • Fuite d'information
  • Journalisme de donnĂ©es

[modifier] Liens externes

[modifier] Bibliographie

  • (en) Robert Nisbet, John Elder et Gary Miner, Handbook of Statistical Analysis & Data Mining Applications, Academic Press, 2009, 823 p. (ISBN 978-0-12-374765-5) Ouvrage utilisĂ© pour la rĂ©daction de l'article
  • (en) Hillol Kargupta, Jiawei Han, Philip Yu, Rajeev Motwani et Vipin Kumar, Next Generation of Data Mining, CRC Press, 2009, 605 p. (ISBN 978-1-4200-8586-0)  Ouvrage utilisĂ© pour la rĂ©daction de l'article
  • StĂ©phane TuffĂ©ry, Data Mining et statistique dĂ©cisionnelle, Paris, Ă©ditions Technip, 2010, 705 p. (ISBN 978-2-7108-0946-3) Ouvrage utilisĂ© pour la rĂ©daction de l'article
  • (en) Phiroz Bhagat, Pattern Recognition inndustry, Elsevier, 2005, 200 p. (ISBN 978-0-08-044538-0) 
  • (en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern classification, Wiley-interscience, 2001 (ISBN 0-471-05669-3)  [dĂ©tail des Ă©ditions]
  • (en) Yike Guo et Robert Grossman, High Performance Data Mining: Scaling Algorithms, Applications and Systems, Berlin, Springer, 200, 112 p. (ISBN 978-0-7923-7745-0) 
  • (en) Ingo Mierswa, Michael Wurst, Ralf Klinkenberg, Martin Scholz et Tim Euler, « YALE: Rapid Prototyping for Complex Data Mining Tasks Â», dans Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-06), ACM, 2006, p. 935-940 (ISBN 1595933395) [lien DOI] 
  • Daniel Larose (trad. Thierry Vallaud), Des donnĂ©es Ă  la connaissance : Une introduction au data-mining (1CĂ©dĂ©rom), Vuibert, 2005, 223 p. (ISBN 978-2-7117-4855-6) 
  • RenĂ© LefĂ©bure et Gilles Venturi, Data Mining : Gestion de la relation client : personnalisations de site web, Eyrolles, 2001, 392 p. (ISBN 978-2-212-09176-2) 
  • (en) Pascal Poncelet, Florent Masseglia et Maguelonne Teisseire, Data Mining Patterns: New Methods and Applications, Idea Group Reference, 2007, 307 p. (ISBN 978-1-59904-162-9) 
  • (en) Pang-Ning Tan, Michael Steinbach et Vipin Kumar, Introduction to Data Mining, Pearson Addison Wesley, 2007, 769 p. (ISBN 90-321-32136-7) 
  • (en) Ian Witten et Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 1999, 371 p. (ISBN 978-1-55860-552-7) 
  • (en) StĂ©phane TuffĂ©ry, Data Mining and Statistics for Decision Making, John Wiley & Sons, 2011, 716 p. (ISBN 978-0-470-68829-8) 
  • (en) B. Efron, The Annals of Statistics : Bootstrap methods: Another look at the jackknife, Institute of Mathematical Statistics, 1973 (ISSN 0090-5364) 
  • (en) Leo Breiman, Machine Learning : Bagging predictors, Kluwer Academic Publishers Hingham, 1996 (ISSN 0885-6125) 
Bon article
Cet article est reconnu comme « bon article Â» depuis sa version du 13 juin 2011 (comparer avec la version actuelle).
Pour toute information complémentaire, consulter sa page de discussion et le vote l’ayant promu.
wikipediaCet article est issu de l'encyclopédie libre Wikipedia.
Vous pouvez consulter l'article ici ainsi que son historique.
Les textes et les images sont disponibles sous les termes de la Licence de documentation libre GNU.


maths haut de pagehaut Retrouvez cette page sur ilemaths l'île des mathématiques
© Tom_Pascal & Océane 2012