COURS : Analyse des Documents Multimédia 6
ECTS
Années
d’ouverture : toutes
Heure et salle :
mercredi de 9h45 à 13h, salle F117 UFRIMA
!!!!
pas de cours le 14/11 !!!!
Equipe
pédagogique : Laurent
Besacier (Laurent.Besacier@imag.fr),
Georges Quénot (Georges.Quenot@imag.fr)
Philippe Mulhem
(Philippe.Mulhem@imag.fr )
Résumé : Ce module a pour
objectif de donner aux étudiants des méthodes mathématiques de base pour le
traitement des signaux audio, image et vidéo. Après avoir redéfini les notions
nécessaires en traitement du signal, nous abordons le traitement de documents
audio et de parole, notamment en décrivant les techniques de
reconnaissance automatique de la parole et d'autres objets sonores [1].
Nous abordons ensuite l'analyse automatique des images et des vidéos, du signal
vers la sémantique. Non terminons par une séance sur le problème de la fusion
multimodale pour intégrer dans l'analyse de la vidéo, l'audio, l'image animée
et le texte [2].
Plan (Laurent Besacier,
Philippe Mulhem,
Georges Quénot)
1.
Bases mathématiques
et notion nécessaires en traitement du signal (3h). pdf
2.
Analyse automatique
des signaux audio et de parole (9h):
a.
Le signal de parole :
analyse, unités pertinentes et variabilité,
pdf
b.
Modélisation
stochastique d'objets sonores, pdf
c.
La reconnaissance
automatique de la parole, pdf
d.
La transcription
enrichie de documents. pdf !!!example de questions d’exam !!!
3.
Analyse d'images
(6h):
a.
Descripteurs :
couleurs, textures, formes, points d'intérêts, pdf
b.
Indexation par
concepts, pdf
4. Analyse de vidéos (6h),
a. Séquences d'images : mouvement, segmentation, suivi pdf
b. Fusion multimodale : indexation sémantique à partir de l'image,
de l'audio et du texte. pdf
Références :
[1] "La parole : du signal à son interprétation", J.P. Haton & al., Dunod, 2006.
[2] Cees
G.M. Snoek and Marcel Worring,
Multimodal Video Indexing: A Review of the
State-of-the-art. Multimedia Tools and Applications,
25(1):5-35, January 2005.
http://staff.science.uva.nl/~cgmsnoek/pub/mmta.pdf.
Sujets de recherche
proposés par l’équipe enseignante :
Utilisation
des mouvements de tête pour la reconnaissance de la parole multimodale
Méthodes
Mixtes pour la Reconnaissance et la Traduction Automatique de Parole
Apprentissage
actif pour l'indexation des images et des vidéos
Indexation
par concepts d'images ou de plans vidéo
Sélection
et optimisation de caractéristiques pour l’indexation vidéo
Sujets de travaux
pratiques en libre service (vous devez faire un des trois TP au choix sur la parole ET
le TP sur l'image) :
http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-Parole/tp1.html
telechargez la doc praat !!!
http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-Parole/tp2.html
http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-Parole/tp3.html
http://clips.imag.fr/mrim/georges.Quenot/cours/adm/tp/