logo

Data mining


Data mining : encyclopédie mathématiques

wikipediaCet article est issu de l'encyclopédie libre Wikipedia.
Vous pouvez consulter l'article ici ainsi que son historique.
Les textes et les images sont disponibles sous les termes de la Licence de documentation libre GNU.
Aller Ă  : Navigation, Rechercher

L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances (ECD en français, KDD en Anglais), a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l'utilisation industrielle ou opérationnelle de ce savoir.

Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web.

Sommaire

[modifier] Définition générale

Le data mining est un processus d'extraction de connaissances valides et exploitables à partir de grands volumes de données.

Il a vocation Ă  ĂŞtre utilisĂ© dans un environnement professionnel et se distingue de l'analyse de donnĂ©es et de la statistique par les points suivants :

  • Contrairement Ă  la mĂ©thode statistique, le data mining ne nĂ©cessite jamais que l'on Ă©tablisse une hypothèse de dĂ©part qu'il s'agira de vĂ©rifier. C'est des donnĂ©es elles-mĂŞmes que sont dĂ©duites les corrĂ©lations intĂ©ressantes, le logiciel n'Ă©tant lĂ  que pour les dĂ©couvrir (le data mining se situe Ă  la croisĂ©e des statistiques, de l'intelligence artificielle, des bases de donnĂ©es).
  • Les connaissances extraites par le data mining ont vocation Ă  ĂŞtre intĂ©grĂ©es dans le schĂ©ma organisationnel de l'entreprise ou de l'entitĂ© considĂ©rĂ©e. Le data mining impose donc d'ĂŞtre capable d'utiliser de manière opĂ©rationnelle les rĂ©sultats des analyses effectuĂ©es, souvent dans des dĂ©lais très courts. Le processus d'analyse doit permettre Ă  l'organisation une rĂ©activitĂ© (très) importante.
  • Les donnĂ©es traitĂ©es sont issues des systèmes de stockage en place dans l'organisation et sont ainsi hĂ©tĂ©rogènes, multiples, plus ou moins structurĂ©es. Leur raison d'ĂŞtre n'est donc a priori pas l'analyse (sauf dans le cas d'un entrepĂ´t de donnĂ©es). Cela impose de disposer de systèmes performants de prĂ©paration ou de manipulation de donnĂ©es.

Le data mining se propose de transformer en information, en connaissance de grands volumes de données qui peuvent être stockées de manière diverse, dans des bases de données relationnelles, dans un (ou plusieurs) entrepôt de données (datawarehouse), mais qui peuvent aussi être récupérées de sources riches plus ou moins structurées comme internet, ou encore en temps réel (appel à un call center, retrait d'argent dans un distributeur à billets...).

Lorsque la source n’est pas directement un entrepôt de données, il s'agit très souvent de construire une base de données ou un datamart dédié à l'analyse et aux analystes. Cela suppose d'avoir à sa disposition une palette d'outils de gestion de données (data management). On peut également structurer les données de l’entrepôt sous forme d’un hypercube OLAP, même si cela est assez rare en matière de data mining.

[modifier] Exemples d'applications

On peut relever parmi les utilisations du data mining les exemples suivants :

  • Analyser les comportements des consommateurs : ventes croisĂ©es (voir l’anecdote de Wal-Mart ci-après), similaritĂ©s de comportements, cartes de fidĂ©litĂ©, …
  • prĂ©dire la rĂ©ponse Ă  un mailing ou Ă  une opĂ©ration de marketing direct (par exemple pour en optimiser les coĂ»ts)
  • PrĂ©dire l’attrition (ou churn) des clients : quels sont les indices de comportement permettant de dĂ©tecter la probabilitĂ© qu’un client a de quitter son fournisseur (sa banque, son opĂ©rateur de tĂ©lĂ©phonie mobile, …)
  • DĂ©tecter des comportements anormaux ou frauduleux (transactions financières, escroquerie aux assurances, distribution d’énergie, …)
  • Rechercher des critères qui permettront d’établir ensuite une Ă©valuation pour repĂ©rer les « bons Â» clients sans facteur de risque (Évaluation des risques-clients) et leur proposer peut-ĂŞtre une tarification adaptĂ©e (par exemple pour une banque ou une compagnie d’assurance).
  • SuggĂ©rer lors d’un appel Ă  un call center, en temps rĂ©el, une rĂ©ponse de l’opĂ©rateur qui soit adaptĂ©e

Les outils de text mining (fouille de textes) associent en complément aux principes du data mining, l’analyse lexicographique et/ou linguistique multilingue des données non structurées comme les e-mails, les réponses à des questionnaires ou à des enquêtes, les réclamations clients, les blogs Internet, les news en ligne, les tchats… en tentant de déterminer par exemple le degré de satisfaction (ou d’insatisfaction) de la clientèle. Ses applications les plus rudimentaires sont la lutte contre le spam, ou pourriel, ainsi que l’analyse de contenu. De plus ambitieuses concernent l’évaluation par analyse de dépêches de presse, de l’image d’une société, d’un climat politique ou boursier, ou la catégorisation automatique d’informations.

[modifier] Principe et spécificité

[modifier] Principe

Le data mining est un processus d'analyse dont l'approche est différente de celle utilisée en statistique. Cette dernière présuppose en général que l'on se fixe une hypothèse que les données permettent ou non de confirmer. Au contraire, le data mining adopte une démarche sans a priori (approche pragmatique) et essaie ainsi de faire émerger, à partir des données brutes, des inférences que l'expérimentateur peut ne pas soupçonner, et dont il aura à valider la pertinence.

Le data mining tente alors de réaliser un arbitrage entre validité scientifique, interprétabilité des résultats et facilité d'utilisation, dans un environnement professionnel où le temps d'étude joue un rôle majeur et où les analystes ne sont pas toujours des statisticiens.

[modifier] Le data mining est un processus

Plus qu'une thĂ©orie normalisĂ©e, le data mining est un processus d'extraction de connaissances mĂ©tiers comportant les Ă©tapes principales suivantes :

  • Formaliser un problème que l'organisation cherche Ă  rĂ©soudre en termes de donnĂ©es
  • AccĂ©der aux donnĂ©es appropriĂ©es quelles qu'elles soient
  • PrĂ©parer ces donnĂ©es en vue des traitements et utilisations futurs
  • ModĂ©liser les donnĂ©es en leur appliquant des algorithmes d'analyse
  • Évaluer et valider les connaissances ainsi extraites des analyses
  • DĂ©ployer les analyses dans l'entreprise pour une utilisation effective

Ce processus est cyclique et permanent; le data mining rend dès lors plus compréhensible, "visible", l'activité de l'organisation, et permet de rationaliser le stockage de l'information et des données. Le data mining ne consiste pas en une succession d'études ad hoc mais a pour objectif de capitaliser des connaissances acquises sous forme de connaissances explicites.

Il conduit donc Ă  mieux structurer les contenus nĂ©cessaires Ă  l'ingĂ©nierie des connaissances. C'est sa principale raison d'ĂŞtre ; on peut comparer de façon lointaine cette activitĂ© Ă  celle de conceptualisation au cours de l'apprentissage humain : « Une bonne comprĂ©hension est intimement liĂ©e Ă  une bonne compression Â» explique Donald Knuth[1], l'une comme l'autre utilisant une connaissance de corrĂ©lations pour reprĂ©senter - et donc manier - l'information sous forme plus concise.

[modifier] Méthode

Le data mining se propose d'utiliser un ensemble d'algorithmes (voir infra) issus de disciplines scientifiques diverses (statistiques, intelligence artificielle, base de donnĂ©es) pour construire des modèles Ă  partir des donnĂ©es, c'est-Ă -dire trouver des schĂ©mas « intĂ©ressants Â» (des patterns ou motifs de conception en français) selon des critères fixĂ©s au dĂ©part, et extraire de ces donnĂ©es un maximum de connaissances utiles Ă  l'entreprise.

Voir par exemple les articles :

  • Motif de conception
  • algorithmes gĂ©nĂ©tiques,
  • Arbre de dĂ©cision

[modifier] Anecdotes

Les premiers essais de fouilles de données se firent historiquement sur des dépouillements de millions de tickets de caisse de supermarché tels que mémorisés par les caisses enregistreuses.

Ă€ l’origine de la vulgarisation des mĂ©thodes et des algorithmes de la fouille de donnĂ©es (en l’occurrence, l’analyse des associations), il y aurait eu la mise en Ă©vidence par les magasins Wal-Mart d’une corrĂ©lation très forte entre l’achat de couches pour bĂ©bĂ©s et de bière le samedi après-midi[2]. Les analystes s'aperçurent alors qu'il s'agissait des messieurs envoyĂ©s au magasin par leur compagne pour acheter les volumineux paquets de couches pour bĂ©bĂ©. Les rayons furent donc rĂ©organisĂ©s pour prĂ©senter cĂ´te Ă  cĂ´te les couches et les packs de bière ... dont les ventes grimpèrent en flèche ! Cette image plus ou moins vĂ©ridique illustre le retour sur investissement (ROI) des travaux de data mining et plus gĂ©nĂ©ralement d'informatique dĂ©cisionnelle.

D’autres analyses, en particulier d’indices précurseurs de modification des habitudes d’achat, se montrèrent d’un plus grand intérêt dans la pratique.

Un autre exemple souvent citĂ© est le suivant : si on baisse le prix du Coca-Cola de 5%, on va par exemple en augmenter les ventes de 15%, ce que l'on savait sans data mining. Mais le data mining rĂ©vèle l'Ă©lĂ©ment inattendu (bien qu'Ă©vident a posteriori), Ă  savoir que les ventes des cacahouètes vont augmenter dans une proportion voisine (sans doute suite Ă  l'association d'idĂ©es : « Puisque j'achète du Coca, il me faut aussi des cacahouètes Â» ; le data mining ne fait pas d'hypothèse sur le sujet). Si la marge sur le Coca-Cola est relativement faible, et celle sur les cacahuètes importante, la conclusion s'impose d'elle-mĂŞme : baisser le prix du Coca-Cola est un moyen de vendre davantage de cacahouètes.

Par le côté quasi-déterministe qu'elle présente du comportement du consommateur, cette approche provoque souvent une réaction de scepticisme, mais dès lors que les résultats de sa mise en œuvre sont au rendez-vous, ce qui est quelquefois le cas, son adoption ne pose ensuite pas de problème particulier.

[modifier] Algorithmes

RĂ©soudre une problĂ©matique avec un processus de data mining impose gĂ©nĂ©ralement l'utilisation d'un grand nombre de mĂ©thodes et algorithmes diffĂ©rents. On peut distinguer 3 grandes familles d'algorithmes :

[modifier] Les méthodes non-supervisées

Elles permettent de travailler sur un ensemble de données dans lequel aucune des données ou des variables à disposition n'a d'importance particulière par rapport aux autres, c'est-à-dire un ensemble de données dans lequel aucune variable n'est considérée individuellement comme la cible, l'objectif de l'analyse. On les utilise par exemple pour dégager d'un ensemble d'individus des groupes homogènes (typologie), pour construire des normes de comportements et donc des déviations par rapport à ces normes (détection de fraudes nouvelles ou inconnues à la carte bancaire, à l'assurance maladie...), pour réaliser de la compression d'informations (compression d'image)...

Voici une liste non exhaustive des techniques disponibles :

  • Techniques Ă  base de RĂ©seau de neurones : carte de Kohonen (SOM/TOM) (Carte Auto Adaptative)...
  • Techniques utilisĂ©es classiquement dans le monde des statistiques : classification ascendante hiĂ©rarchique, k-means et les nuĂ©es dynamiques (Recherche des plus proches voisins), les classification mixtes (Birch...), les classifications relationnelles...
  • Les techniques dites de recherche d'associations (elles sont Ă  l'origine utilisĂ©es pour faire de l'analyse dite de panier d'achats ou de sĂ©quences, c'est-Ă -dire pour essayer de savoir parmi un ensemble d'achats effectuĂ©s par un très grand nombre de clients et de produits possibles, quels sont les produits qui sont achetĂ©s simultanĂ©ment (pour un supermarchĂ© par exemple ; elles sont Ă©galement appliquĂ©es Ă  des problèmes d'analyse de parcours de navigation de site web). Ces techniques peuvent donc ĂŞtre utilisĂ©es de manière supervisĂ©es) : algorithmes a priori, GRI, Carma, mĂ©thode ARD...
  • Analyses de liens

[modifier] Les méthodes supervisées

Leur raison d'ĂŞtre est d'expliquer et/ou de prĂ©voir un ou plusieurs phĂ©nomènes observables et effectivement mesurĂ©s. Concrètement, elles vont s'intĂ©resser Ă  une ou plusieurs variables de la base de donnĂ©es dĂ©finies comme Ă©tant les cibles de l'analyse. Par exemple, on utilisera ce type de mĂ©thode lorsque l'on cherchera Ă  comprendre pourquoi un individu a achetĂ© un produit plutĂ´t qu'un autre, pourquoi un individu Ă  rĂ©pondu favorablement Ă  une opĂ©ration de marketing direct, pourquoi un individu a contractĂ© une maladie particulière, pourquoi un individu a visitĂ© une page d'un site web de manière rĂ©pĂ©tĂ©e, pourquoi la durĂ©e de vie après la contraction d'une maladie varie selon les malades... Voici une liste non exhaustive des techniques disponibles :

  • Techniques Ă  base d'arbres de dĂ©cision (Arbre de dĂ©cision) : CART, CHAID, ECHAID, QUEST, C5, C4.5, les forĂŞts d'arbres...
  • Techniques statistiques de rĂ©gressions linĂ©aires et non linĂ©aires au sens large : RĂ©gression linĂ©aire, RĂ©gression linĂ©aire multiple, RĂ©gression logistique binaire ou multinomiale, Probit binaire, multinomial ou ordonnĂ©, Tobit, Cauchit, modèle Gamma, binomial nĂ©gatif, log-log, Analyse discriminante linĂ©aire ou quadratique, rĂ©gression de cox, modèle linĂ©aire gĂ©nĂ©ralisĂ©, rĂ©gression PLS, rĂ©gressions non paramĂ©trique, Ă©quations structurelles ... (voir aussi Ă©conomĂ©trie)
  • Techniques Ă  base de RĂ©seau de neurones : perceptron mono ou multicouches avec ou sans rĂ©tropropagation des erreurs, les rĂ©seaux Ă  fonction radiale de base...
  • Techniques Ă  base d'algorithme gĂ©nĂ©tique.
  • Techniques Ă  base d'InfĂ©rence bayĂ©sienne (RĂ©seau bayĂ©sien).
  • Le Raisonnement par cas
  • Le Filtrage collaboratif

[modifier] Les méthodes de réduction de données

Elles permettent de réduire un ensemble de données volumineux à un ensemble de taille plus réduite, épuré de ce que l'on considèrera comme de l'information non pertinente ou non signifiante, comme du bruit. Elles sont ainsi très souvent, mais pas systématiquement, utilisées en amont des techniques supervisées ou non supervisées. Elles sont notamment très complémentaires des techniques non supervisées classiquement utilisées dans le domaine de la statistique.

  • Techniques d'Analyse factorielle : Analyse en composantes principales, Analyse en composantes indĂ©pendantes, analyse factorielle des correspondances, analyse des correspondances multiples, analyses factorielles (maximum de vraisemblance, moindres carrĂ©s non pondĂ©rĂ©s, avec ou sans rotation orthogonale ou oblique)...
  • Techniques de positionnement : positionnement multidimensionnel...

[modifier] Pourquoi tant d'algorithmes ?

Parce que nous venons de voir qu'ils n'ont pas tous le même objet, parce qu'aucun n'est optimal dans tous les cas, parce qu'ils s'avèrent en pratique complémentaires les uns des autres et parce qu'en les combinant intelligemment (en construisant ce que l'on appelle des méta modèles (des modèles de modèles)) il est possible d'obtenir des gains de performance très significatifs, si l'on prend bien garde d'éviter des problèmes de sur-ajustement des modèles ainsi obtenus (voir à ce sujet l'article Arbre de décision et son paragraphe traitant du problème de sur-ajustement des modèles). Encore faut-il être en mesure de réaliser ces combinaisons facilement, ce que permettent les logiciels ateliers de Data Mining, par opposition aux outils de statistiques classiques dans lesquels l'opération est beaucoup plus délicate en pratique.

[modifier] Chercher d'autres algorithmes, ou bien enrichir les donnĂ©es ?

L'universitĂ© de Stanford a mis en concurrence Ă  sa rentrĂ©e d'automne 2007 deux Ă©quipes sur le projet suivant : en s'appuyant sur la base de films visualisĂ©s par chaque client d'un rĂ©seau de distribution (abonnement avec carte magnĂ©tique) dĂ©terminer l'audience la plus probable d'un film qui n'a pas encore Ă©tĂ© vu. Une Ă©quipe s'est orientĂ©e sur une recherche d'algorithme extrĂŞmement fin Ă  partir des informations de la base, une autre au contraire a pris des algorithmes extrĂŞmement simples, mais a combinĂ© la base fournie par le distributeur au contenu de l'Internet Movie Database (IMDB) pour enrichir ses informations. La seconde Ă©quipe a obtenu des rĂ©sultats nettement plus prĂ©cis. Un article Ă©crit Ă  ce sujet suggère que de la mĂŞme façon l'efficacitĂ© de Google tient bien moins Ă  son algorithme de page rank qu'Ă  la très grande quantitĂ© d'information que Google peut corrĂ©ler par croisement des historiques de requĂŞte, de la correspondance et du comportement de navigation sur ses sites de ses utilisateurs. (lien vers l'article en instance)

[modifier] Voir aussi

[modifier] Liens internes

  • Fouille de textes
  • Fuite d'information
  • Datawarehouse et Datamart
  • Arbre de dĂ©cision
  • Traitement automatique du langage naturel
  • IMSL Bibliothèques NumĂ©riques
  • Recherche d'information
  • Linguistique calculatoire
  • Apprentissage artificiel

[modifier] Références

  1. ↑ « good comprehension is closely related to good compression Â», The Art of Computer Programming, Wiley
  2. ↑ Voir l'article sur le Datamining de ZDNet du 27 novembre 2005

[modifier] Bibliographie

  • Dean W. Abbott, I. Philip Matkovsky, and John Elder IV, Ph.D. An Evaluation of High-end Data Mining Tools for Fraud Detection, 1998 IEEE International Conference on Systems, Man, and Cybernetics, San Diego, CA, October 12-14, 1998.
  • Alain Baccini et Philippe Besse, Data mining I - Exploration Statistique, UniversitĂ© de Toulouse : cours au format pdf
  • Philippe Besse, Data mining II - ModĂ©lisation Statistique et Apprentissage, UniversitĂ© Pde Toulouse : cours au format pdf
  • Phiroz Bhagat, Pattern Recognition in Industry, Elsevier, ISBN 0-08-044538-1
  • Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification, Wiley Interscience, ISBN 0-471-05669-3, (voir aussi PrĂ©sentation Powerpoint)
  • Yike Guo and Robert Grossman, editors: High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers, 1999.
  • Mierswa, Ingo and Wurst, Michael and Klinkenberg, Ralf and Scholz, Martin and Euler, Timm: YALE: Rapid Prototyping for Complex Data Mining Tasks, in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-06), 2006.
  • Daniel T. Larose (adaptation française T. Vallaud): Des donnĂ©es Ă  la connaissance² : Une introduction au data-mining (1CĂ©dĂ©rom), Vuibert, 2005
  • RenĂ© LefĂ©bure et Gilles Venturi, Data Mining : Gestion de la relation client, personnalisations de site web, Eyrolles, mars 2001
  • Pascal Poncelet, Florent Masseglia and Maguelonne Teisseire (Editors). Data Mining Patterns: New Methods and Applications, Information Science Reference, ISBN 978-1599041629, (October 2007).
  • Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining (2005), ISBN 0-321-32136-7 (companion book site)
  • Kurt Thearling, An Introduction to Data Mining (voir Ă©galement le tutorial correspondant en ligne)
  • StĂ©phane TuffĂ©ry, Data Mining et Statistique DĂ©cisionnelle, Technip, nouvelle Ă©dition revue et enrichie, juin 2007
  • StĂ©phane TuffĂ©ry, The Data mining Page, mars 2007 : cours au format pdf
  • Ian H. Witten and Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 2005. Site web
  • Ian Witten and Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations (2000), ISBN 1-55860-552-5, (voir aussi Free Weka Software)
wikipediaCet article est issu de l'encyclopédie libre Wikipedia.
Vous pouvez consulter l'article ici ainsi que son historique.
Les textes et les images sont disponibles sous les termes de la Licence de documentation libre GNU.


cours particuliers - cours de maths haut de pagehaut Retrouvez cette page sur ilemaths l'île des mathématiques
© Tom_Pascal & Océane 2008