dc.description.abstract |
Dans cette thèse, nous traitons un sujet d’actualité qui est l’identification de thèmes, tâche essentielle dans plusieurs domaines dont la reconnaissance automatique de la parole.
Dans les travaux de l’état de l’art, l'identification de thèmes est étudiée pour différentes langues comme le Français ou l’Anglais.
Toutefois, il y a eu peu d’études concernant ce sujet pour la langue Arabe.
Nous avons commencé par l’application des méthodes statistiques issues de l’état de l’art, comme la TFIDF (Term Frequency/Inverse Document Frequency) et la SVM (Support Vector Machines), dans le but de les évaluer.
Nous avons utilisé une méthode plus généralisée de la SVM appelée M-SVM (Multi-Category SVM), pour la première fois dans le cadre de l'identification de thèmes afin de contourner l'insuffisance de la SVM, restreinte à la séparation de deux classes uniquement.
Une nouvelle méthode que nous avons baptisée TR-classifier, est proposée dans le but d'améliorer les résultats.
L'information mutuelle moyenne est utilisée pour calculer les triggers sur lesquels est basée notre méthode.
Avec des vocabulaires de tailles très petites, nous avons pu avoir des performances supérieures à celles de la TFIDF et la M-SVM.
Notre travail a nécessité la création d’un corpus en langue Arabe.
Pour cela nous avons procédé à la collecte des textes arabes via le Web dans le but de construire cette matière essentielle sur laquelle notre travail va se baser: le corpus.
La justification de ce choix peut être expliqué par le fait qu’il existe peu de corpus en langue Arabe, ou par le fait que leur prix est élevé (corpus de Linguistic Data Consortium).
Dans le premier chapitre, nous aborderons les méthodes connues en catégorisation de textes et en identification de thèmes.
Nous présenterons également les étapes qui précédent le traitement effectué par ces méthodes, comme la représentation des documents, ainsi que la manière dont nous évaluerons ces méthodes.
Dans le second chapitre, nous détaillons les méthodes de l’état de l’art utilisées dans cette thèse, en l’occurrence TFIDF, SVM [5, 3]et M-SVM.
Ces méthodes sont différentes selon le mode de classification.
Le classifieur TFIDF se base sur le calcul de similarité entre un document et l’ensemble des thèmes, pour ensuite décider l’appartenance au thème correspondant.
Les SVM, qui réalisent la discrimination binaire, reposent sur le principe de séparation par un hyperplan.
Cependant, pour pouvoir traiter un nombre de thèmes supérieur à 2, la M-SVM est utilisée, où plusieurs hyperplans font la séparation.
Dans le troisième chapitre, nous exposons les expériences effectuées sur les méthodes mentionnées dans le paragraphe précédent.
Avant cela, nous y présentons le corpus sur lequel nous nous sommes basés, ainsi que quelques spécificités de la langue Arabe qui nous permet de voir plus clairement les choses, particulièrement dans des situations où l’on est contraint de faire une comparaison entre les corpus des différentes langues.
Nous montrons ensuite les différentes expériences appliquées aux méthodes TFIDF, SVM et M-SVM et les résultats correspondants.
Notons que les tailles des documents d’apprentissage et celles des documents de test varient entre 100 et 1000 mots, voir annexe (A).
Dans ce même chapitre, et dans le souci de réaliser une identification de thèmes rapide et menant à des résultats satisfaisants en même temps, nous avons testé les performances de l’une des méthodes sus-mentionnées, en l’occurrence la TFIDF, en fonction du nombre de mots qui constituent les documents.
Certains thèmes ont atteint les performances espérées en utilisant un nombre très limité de mots, tandis que certains d’autres nécessitent un nombre plus grand.
Ce chapitre englobe aussi l’application de la M-SVM pour la première fois dans un problème d’identification de thèmes.
La M-SVM permet la multi-classes classification au lieu de la séparation binaire que fait la SVM.
Nous exposons dans le quatrième chapitre, la méthode que nous avons proposé, en l’occurrence le TR-classifier.
En effet cette méthode est basée sur l’exploitation du lien existant entre les mots dans le but de caractériser les thèmes faisant l’objet d’étude.
Des expériences sont réalisées en variant le nombre de triggers, ainsi que la taille des vocabulaires de thèmes. |
fr_FR |