Voici mon problème, l'énoncé est un peut long mais je pense que cela peut être intéressant.
Merci d avance
Données
Soit N sacs contenant chacun 10 boules de couleurs. Sur chaque sac, une étiquette indique de quelle couleur sont les boules qui se trouvent à l'intérieur. L étiquette liste de 1 a 5 couleurs différentes et il y a en tout N couleurs différentes possible (autant de couleurs que de sacs). H1 : On sait que si une couleur est indiquée sur l étiquette d un sac, cela signifie qu il y a au moins une boule de cette couleur a l intérieur.
De plus, les boules sont emballe dans du papier et il est impossible d en connaître la couleur, seul une machine est capable d effectuer cette opération.
Cette machine capable de trier les boules par couleur. Il suffi de placer des boules dans un conteneur et la machine les trie par couleur et les repartis dans différentes boites. A la fin du procède la seul information dont on dispose est la provenance (Sac i) de chaque boule que contient chaque boite.
Problème, Phase 1
On aimerais trier les boules et les grouper par couleur identique dans les boites, même si l on a plusieurs boites pour une même couleur.
Comme il n y a pas assez de place dans le conteneur pour trier toutes les boules en même temps on procède ainsi :
On vide dans le conteneur tous les sacs qui sont étiquetés avec la couleur C (qui contiennent au moins une boules de couleur C).
La machine fait son travail et trie les boules dans différentes boites. On peut alors lire sur chaque boite le nombre de boules issue de chaque sac qu'elle contient. Ex : La boite ‘A' contient 8 boules provenant du sac 1, 4boules provenant du sac 7 …
A partir de ces donnes, on aimerait pouvoir attribuer une distribution de probabilité de couleur a chaque boite. Ex : La boite ‘A' a une probabilité de 0.75 de contenir des boules rouges, 0.12 de contenir des boules bleu …
Problème, Phase 2
On suppose avoir trouvé une solution pour résoudre la phase 1 et l'on attribue a chaque boule la couleur qui a la plus forte probabilité pour la boite dans laquelle elle se trouve. Ex : Toutes les boules de la boite ‘A' sont rouges.
Mais on a remarque un certain nombre d erreurs dues en partie a des boules qui ont été initialement rangées dans le mauvais sac (néanmoins l'hypothèse H1 est toujours valide) mais aussi a des erreurs de la machine de trie.
On décide donc de répéter l expérience, et de noter le résultat sur l emballage de chaque boule. On peut y noter ce que l on souhaite : La couleurs qui a la plus grande probabilité dans la boite ou elle se trouve / La distribution de probabilité entière …
Puis on replace toutes les boules dans les sacs dans les mêmes conditions initiales que précédemment et on recommence l expérience sauf que cette fois ci, on va vider dans le conteneur tous les sacs qui sont étiqueté avec la couleur C' différente de C. On peut noter a nouveau le résultat et recommencer l opération pour toutes les couleurs de 1 a N.
Une fois en possession de toutes ces donnes, comment croiser au mieux les probabilités pour attribuer avec confiance une couleur a chaque boule ?
Données supplémentaires :
Le nombre de boite a la sortie de la machine n'est pas constant et dépend d'un paramètre inobservable.