Elaboration d’un système de transcription orthographique-phonétique en vue de la synthèse de la parole à partir du texte en arabe standard

Cherifi, El-Hadi

Elaboration d’un système de transcription orthographique-phonétique en vue de la synthèse de la parole à partir du texte en arabe standard

Cherifi, El-Hadi

URI: http://repository.enp.edu.dz/jspui/handle/123456789/10504

Date: 2022

Abstract:

La synthèse de la parole (Text-To-Speech : TTS) permet de créer un signal de parole à partir d’un texte donné. La Transcription Orthographique-Phonétique (TOP) est un composant nécessaire de tout système TTS. Après avoir formulé les problèmes posés par la langue Arabe Standard (AS) tant au niveau orthographique qu’aux niveaux phonétique et phonologique, nous avons élaboré des règles exhaustives de transcription qui couvrent tous les phénomènes analysés. Avec de tels éléments d’analyse, nous avons proposé un système TOP à base de règles qui a été vérifié à l’aide de corpus bien choisis. Notre système est un automate paramétré appliquant une large gamme de règles de réécriture, qui permettent d'associer un phonème (ou un groupe de phonèmes) à un caractère (ou un groupe de caractères) orthographique(s), en prenant en compte le contexte gauche (caractères ou groupes de caractères précédant le segment à transcrire) et le contexte droit (caractères ou groupes de caractères suivant le segment à transcrire). Après avoir élaboré le formalisme de la TOP ainsi que les algorithmes appropriés correspondants, nous avons mis en oeuvre ces algorithmes, ainsi que les tests d’évaluation qui ont été effectués à partir d’un dictionnaire phonétique de plus de 35 000 mots transcrits phonétiquement avec la norme SAMPA (Speech Assessment Methods Phonetic Alphabet). Ensuite, les tests ont été opérés sur des textes continus soigneusement choisis et renfermant tous les phénomènes phonétiques et phonémiques de l’AS telles que la Nasalisation, coarticulation, emphatisation, pharyngalisation, etc. Les résultats montrent que l’approche proposée donne une précision supérieure à 97% en termes d’erreurs en phonèmes (PER), une précision supérieure à 88% en termes d’erreurs en mots (WER), et une précision supérieure à 85% en termes d’erreurs en phrases (SER). Comme perspectives à cette étude, nous envisagerons dans un futur projet, la détermination des spécifications nécessaires pour l’intégration de notre module (TOP) dans les systèmes de synthèse de la parole existants pour l’AS, telles que la plateforme eSpeak, Festival ou MBROLA.