Abstract:
Notre travail consiste en l’application de la prosodie en vue d’améliorer la qualité de la parole synthétique à partir du texte (Text-To Speech: TTS) de l’Arabe Standard (AS).
Pour cela, nous avons élaboré un corpus de 36 phrases affirmatives, comprenant tous les phonèmes de l’AS.
Un enregistrement dans une chambre sourde, a été fait en mode multilocuteur (2 hommes et 3 femmes).
Après cette étape, nous avons utilisé un logiciel d’analyse et de transcription phonétique, PRAAT.
Ce dernier nous a permis de faire une analyse sonagraphique de tous les phonèmes à étudier, de les transcrire afin de les segmenter et de les aligner d’une manière semi-automatique.
Pour générer automatiquement la prosodie, nous avons proposé deux méthodes:
• La première est basée sur une Classification par Analyse Discriminante (CAD) du paramètre prosodique énergie.
A partir de mots tri-syllabiques, nous avons extrait les différents Accents (Primaires, Secondaires et Tertiaires).
Un pourcentage de détection de l’Accent Primaire (AcP) de 78% a été obtenu.
Ce résultat montre l’efficacité de cette approche qui pourra renforcer les méthodes basées uniquement sur le critère du fondamental.
Deux versions améliorées sont ensuite proposées, donnant un pourcentage de détection de l’AcP égal à 85 %;
• La seconde est une nouvelle approche, permettant, le plus possible, une extraction automatique de l’information micromélodique du signal de parole à l’aide de la courbe issue de la fréquence fondamentale et de sa courbe macromélodique obtenue à l’aide de l’algorithme de modélisation mélodique (MOMEL).
Les résultats obtenus viennent renforcer l’idée que l’effet microprosodique existe bien et qu’au niveau micromélodique, un abaissement relatif à chaque consonne voisée de la courbe macromélodique s’avèrera suffisant pour apporter une amélioration au naturel de la parole synthétique.
Cette thèse est organisée en cinq chapitres:
• Le premier est consacré à la présentation des principes du Traitement Automatique de la Parole (TAP) et celui de l’Arabe Standard (AS).
Une étude sur les principaux paramètres spécifiques à l’AS est exposée avec les problèmes rencontrés en Traitement Automatique;
• Le deuxième s’articule autour des principes de la synthèse vocale, des différents systèmes présents dans l’état de l’art, suivis d’une description détaillée des diverses techniques et méthodes utilisées;
• Le troisième aborde la thématique de la prosodie dans le contexte de la synthèse de la parole à partir du texte (Text-To-Speech: TTS);
• Le quatrième introduit tout d’abord les notions de syllabe et d’accent en AS, suivies du principe de l’Analyse Discriminante.
Une description détaillée de la méthode utilisée pour la détection de l’Accent Primaire à l’aide d’une Classification par Analyse Discriminante du paramètre énergie est développée.
Deux versions améliorées sont proposées et les résultats obtenus sont présentés et commentés;
• Le cinquième est consacré à la présentation de la méthodologie suivie par l’extraction de l’effet microprosodique à partir de la courbe réelle de la fréquence fondamentale et de la courbe de modélisation mélodique obtenue grâce à l’application de l’algorithme MOMEL.
Les résultats obtenus sont exposés et discutés à la fin du chapitre;
• En dernier lieu, nous présentons des conclusions générales et exposons quelques perspectives pour la continuité et l’amélioration de ce travail de recherche.