Citation :
En réalité, nous voulions chacun répéter une même phrase puis caractériser le spectre de chacun pour qu'à la sortie si l'un de nous répétions cette même phrase en gardant la même voix approximativement, le dispositif puisse identifier l'un de nous. Cela ne reviendrait-il pas à l'étude du son d'une trompette (oui car malheureusement aucun de nous n'a la possibilité d'imiter la trompette ) dans un milieu sonore ?
La difficulté c'est de trouver dans le son une "signature" qui permettent de distinguer une identité sonore (au sens large).
Il est certainement possible de reconnaître une voix parmi d'autres puisque le principe de l'identification vocale existe en criminalistique. Mais c'est très complexe à réaliser et je doute que vous ayez les moyens d'y parvenir dans le cadre d'un simple TIPE.
Cela dit, rien ne vous interdit de vous enregistrer (plusieurs fois chacun) et d'observer si vos spectres respectifs ont des caractéristiques différenciables (et reproductibles). Je crains juste que ce ne soit assez complexe. Et c'est de toutes façons imprévisible a priori.
Citation :
Si vous pensez que la trompette est plus facile à identifier, il serait certes plus judicieux de commencer par les choses les plus simples !
En fait je ne sais pas si une trompette est plus spécialement reconnaissable. Disons simplement que si vous élargissez votre champ d'étude, vous avez plus de chances de repérer une caractéristique différenciatrices. Et effectivement, dans votre recherche, il est de toutes façons plus judicieux de commencer par des choses plus simples, quitte à élever la difficulté ensuite si vous en avez le temps et la possibilité.
Citation :
"Pour faire ça, il faudra plus s'attacher au spectre, qu'à sa dynamique"
Que voulez vous dire par là ? Est ce que vous appelez la "forme" du spectre ?
Un son bouge. Le spectre est un concept instantané : c'est la distribution des fréquences à l'instant t. Une séquence sonore qui n'est pas constante va donc voir cette distribution évoluer dans le temps.
Si tu veux reconnaître une chanson ou une musique, comme dans Shazam, tu vas surtout t'intéresser à l'évolution dans le temps des fréquences dominantes, qui correspondent aux notes de musique jouées. Si tu repères MI MI FA SOL SOL FA MI RE DO DO RE MI MI RE RE ... tu reconnaitras directement la 9ème de Beethoven. Et même si l'air est joué transposé (en partant d'une autre note) ce n'est pas un problème : les rapports de fréquences seront identifiables également. Donc dans ce type de reconnaissance, tu t'intéresses clairement à la dynamique du spectre, c'est à dire à ses variations dans le temps.
Mais si tu t'intéresses plutôt au "timbre" d'un son, il semble raisonnable de considérer un son "stable", c'est à dire avec un spectre qui reste à peu près constant dans le temps. Et dans ce cas c'est la "forme" de la distribution des fréquences qui servira de base à ton travail d'identification.
Par exemple, un "bruit" au sens théorique, correspond à une distribution uniforme des fréquences. C'est une "soupe sonore" où aucune fréquence particulière n'est discernable.
Tandis qu'un son pur (sinusoïde parfaite), par exemple un LA de diapason, correspond à un pic sur la fréquence 440 Hz.
Et une note d'instrument aura un spectre avec des fréquences dominantes qui formeront des pics qui correspondront aux fréquences les plus audibles. Ces fréquences dominantes (celles avec une puissance maximale) seront généralement dans des rapports harmoniques (multiples et sous multiples de fréquences correspondant à la note jouée et à ses harmoniques).
Citation :
"alors ensuite vous pouvez vous ramener à un problème d'apprentissage (ou modélisation mathématique si tu préfères)"
--> Nous ne saisissons pas entièrement ces termes.
Ce n'est ni grave ni important.
C'est juste une piste de réflexion parmi d'autres possibles autour de ton sujet.
L'apprentissage consiste à constituer une base de sons, dont on connait la caractéristique à identifier (en instruisant la base).
Ensuite on cherche un algorithme ou formule mathématique qui exploite les données du spectre pour calculer un score. Si ce score est faible : l'identification n'est pas faite. Si le score est fort, le son est identifié. Tout cela est guidé par une démarche et des outils statistiques (régression, analyse discriminante, etc...).
Dans votre cas, vous pouvez évoquer cette démarche "générale", mais pour votre expérience vous vous limiterez à un algorithme simple qui vous convient pour reconnaître la particularité que vous voulez identifier.
Exemple, si pour une note jouée par une trompette, les trois fréquences dominantes sont dans un rapport donné, et que les niveaux sonores correspondants à ces fréquences sont aussi dans un certain rapport qui est typique, alors le score sera simple à construire : il mesurera si les fréquences dominantes et les niveaux associés respectent ces rapports.