Indexation automatique des documents audio en vue d'une classification par locuteurs : application à l'archivage des émissions TV et radio

Ouamour Ep. Sayoud, Siham

dc.contributor.author	Ouamour Ep. Sayoud, Siham
dc.contributor.other	Guerti, Mhania, Directeur de thèse
dc.date.accessioned	2020-12-20T09:49:29Z
dc.date.available	2020-12-20T09:49:29Z
dc.date.issued	2009
dc.identifier.other	D001109
dc.identifier.uri	http://repository.enp.edu.dz/xmlui/handle/123456789/1012
dc.description	Thèse de Doctorat : Electronique : Alger, Ecole Nationale Supérieure Polytechnique : 2009	fr_FR
dc.description.abstract	Ce travail de thèse s’intéresse à l’indexation des émissions radio et télé-diffusées en classes de locuteurs, dans le but d’obtenir un archivage hiérarchique des interventions audio en fonction des différents locuteurs. La tâche d’indexation fait appel à deux disciplines différentes, la première s’intéresse à découper le flux audio en segments homogènes: c’est la segmentation, tandis que la deuxième tâche consiste à identifier les différents segments ou bien les regrouper en classes de locuteurs: c’est l’étiquetage ou le regroupement. Pour arriver à cette fin, nous avons proposé et implémenté deux systèmes: • Le premier s’intéresse à l’indexation avec connaissances a priori des locuteurs où les identités des différents locuteurs, sont connues à l’avance par le système; • Le deuxième traite la tâche d’indexation sans aucune connaissance des modèles des locuteurs. Pour réaliser le premier système, nous avons développé un nouvel algorithme d’indexation que nous avons appelé ISI (Interlaced Speech Indexing). Ce dernier est basé sur une indexation entrelacée en utilisant les mesures SOSM (Mesures Statistiques du Second Ordre). Pour le second système, nous avons développé une nouvelle caractéristique relative du locuteur que nous avons appelée RSC (Relative Speaker Characteristic). Nous avons implémenté trois classifieurs différents: un classifieur statistique, un réseau de neurones du type MLP (Multi-Layer Perceptron) et un classifieur SVM (Support Vector Machines). Par la suite, nous avons proposé plusieurs architectures afin de fusionner ces classifieurs. L’évaluation de nos systèmes a été faite sur une base de données de parole réelle: HUB-4 Broadcast News. Les résultats obtenus ont montré la bonne performance de l’algorithme ISI, la pertinence de la nouvelle caractéristique RSC, ainsi que l’intérêt de la fusion quant à l’amélioration de la précision de segmentation et d’indexation. Nous avons organisé notre document en quatre chapitres: • Dans le chapitre 1, nous définissons certaines généralités sur la reconnaissance du locuteur et ses différentes disciplines, ensuite, nous présentons l’indexation par locuteurs et ses applications. Nous détaillons après, les deux tâches principales de l’indexation, notamment la segmentation et le regroupement, tout en définissant les différents algorithmes existants dans la littérature, en rapport avec ces deux tâches; • Le chapitre 2 expose un état de l’art détaillé sur les principales caractéristiques et les différents algorithmes relatifs à la segmentation et au regroupement par locuteurs; • Au chapitre 3, nous définissons les différents classifieurs implémentés durant notre étude. Nous expliquons ensuite les différents algorithmes que nous avons développés pour accomplir la tâche d’indexation avec et sans connaissances a priori des locuteurs. Nous présentons aussi dans ce chapitre les différentes architectures que nous avons développées pour fusionner les différents classifieurs utilisés; • Le dernier chapitre expose les résultats expérimentaux obtenus durant cette étude, avec des interprétations et des conclusions. Une conclusion générale clôture ce travail de thèse, et quelques perspectives concernant les deux tâches étudiées (segmentation et regroupement) sont proposées. Finalement, des références bibliographiques ainsi que des annexes utiles sont mises à la disposition du lecteur pour plus de détails.	fr_FR
dc.language.iso	fr	fr_FR
dc.subject	Indexation audio	fr_FR
dc.subject	Segmentation de la parole	fr_FR
dc.subject	Fusion des classifieurs	fr_FR
dc.subject	Classifieurs statistiques	fr_FR
dc.subject	Réseaux de neurones SVM	fr_FR
dc.title	Indexation automatique des documents audio en vue d'une classification par locuteurs : application à l'archivage des émissions TV et radio	fr_FR
dc.type	Thesis	fr_FR