COURS : Analyse des Documents Multimédia                                                              6 ECTS

 

Années d’ouverture : toutes

 

Heure et salle : mercredi de 9h45 à 13h, salle F117 UFRIMA

!!!! pas de cours le 14/11 !!!!

 

Equipe pédagogique :  Laurent Besacier  (Laurent.Besacier@imag.fr),

                                        Georges Quénot (Georges.Quenot@imag.fr)

                                        Philippe Mulhem (Philippe.Mulhem@imag.fr )          

 

Résumé : Ce module a pour objectif de donner aux étudiants des méthodes mathématiques de base pour le traitement des signaux audio, image et vidéo. Après avoir redéfini les notions nécessaires en traitement du signal, nous abordons le traitement de documents audio et de parole, notamment en décrivant les techniques de reconnaissance  automatique de la parole et d'autres objets sonores [1]. Nous abordons ensuite l'analyse automatique des images et des vidéos, du signal vers la sémantique. Non terminons par une séance sur le problème de la fusion multimodale pour intégrer dans l'analyse de la vidéo, l'audio, l'image animée et le texte [2].

 

 

Plan  (Laurent Besacier, Philippe Mulhem, Georges Quénot)

1.     Bases mathématiques et notion nécessaires en traitement du signal (3h).   pdf

2.     Analyse automatique des signaux audio et de parole (9h):

a.     Le signal de parole : analyse, unités pertinentes et variabilité,  pdf

b.     Modélisation stochastique d'objets sonores,  pdf

c.     La reconnaissance automatique de la parole, pdf

d.     La transcription enrichie de documents. pdf                             !!!example de questions d’exam !!!

3.     Analyse d'images (6h):

a.     Descripteurs : couleurs, textures, formes, points d'intérêts, pdf

b.     Indexation par concepts, pdf

4.     Analyse de vidéos (6h),

a.     Séquences d'images : mouvement, segmentation, suivi pdf

b.     Fusion multimodale : indexation sémantique à partir de l'image, de l'audio et du texte. pdf

 

Références :

[1] "La parole : du signal à son interprétation", J.P. Haton & al., Dunod, 2006.

 
[2] Cees G.M. Snoek and Marcel Worring, Multimodal Video Indexing: A Review of the
    State-of-the-art. Multimedia Tools and Applications, 25(1):5-35, January 2005.

    http://staff.science.uva.nl/~cgmsnoek/pub/mmta.pdf.

 

 

Sujets de recherche proposés par l’équipe enseignante :

 

 Utilisation des mouvements de tête pour la reconnaissance de la parole multimodale

 

Méthodes Mixtes pour la Reconnaissance et la Traduction Automatique de Parole

 

Apprentissage actif pour l'indexation des images et des vidéos

 

Indexation par concepts d'images ou de plans vidéo

 

Sélection et optimisation de caractéristiques pour l’indexation vidéo

 

Sujets de travaux pratiques en libre service (vous devez faire un des trois TP au choix sur la parole ET le TP sur l'image) :

 

http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-Parole/tp1.html

 

telechargez la doc praat !!!

 

http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-Parole/tp2.html

http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-Parole/tp3.html


http://clips.imag.fr/mrim/georges.Quenot/cours/adm/tp/