Abstract:
Ce travail présente le développement d’un système de Synthèse par Sélection d’Unités acoustiques (SSU) de l’Arabe Standard (AS) pour la récitation du Saint Coran (HQ_TTS : Holy Quran Text-To-Speech). La SSU est une méthode de génération automatique de la parole qui se base sur la sélection puis, la concaténation des segments sonores naturels, appelés unités, à partir d’une grande Base de Données (BD). La performance de cette méthode dépend de la richesse de la BD et l’efficacité d’algorithme de sélection. Pour atteindre notre objectif, nous avons, d’abord, élaboré une BD constituée de 11077 unités acoustiques avec leurs caractéristiques prosodiques et contextuelles distinctes. Le HQ_TTS commence par une transcription phonétique du texte. Après cela, l'algorithme de sélection a été divisé en deux parties successives, afin d’optimiser la rapidité de ce système. La première est une sélection contextuelle des unités, qui se base sur l’optimisation d'une fonction de coût cible. Tandis que, la deuxième est une sélection qui se fait par minimisation d'une fonction de coût de concaténation et une recherche par programmation dynamique forward-bakward. Notre contribution principale consiste à proposer une nouvelle approche basée sur l’utilisation des systèmes experts (SE) pour ajuster les paramètres et les caractéristiques associés à cette optimisation. Les résultats d’évaluation du HQ_TTS ont montré sa performance avec une récitation correcte du Coran. La parole synthétisée donne une intelligibilité de 91.38 % et un score du naturel de 3.66 sur 5.