Proposals

Analyse et désambigüisation morphosyntaxique de textes en langue Arabe

Research laboratory: 
Research Profile: 
Master
Supervisor (s)
Co-supervisor(s)

L'analyse et la désambigüisation morphosyntaxique (ADM) de textes arabes pose toujours des problèmes, malgré la multitude des travaux dans ce domaine. Les ambigüités morphosyntaxiques limitent les performances des systèmes d'extraction de connaissances et de recherche d'information. L'idée de ce projet consiste à exploiter (i) des approches statistiques comme les outils de classification et les modèles de langues; et, (ii) les règles de la grammaire Arabe, afin de (i) analyser les mots arabes et reconnaitre leurs attributs morphologiques (genre, nombre, catégorie grammaticale, etc.) en contexte;  (ii) construire un lexique statistique qui couvre les différents niveaux dérivationnels et flexionnels de la langue arabe; et, (iii) Construire une ontologie morposyntaxique pour la langue arabe.Pour postuler, voir la description ci-jointe.

File Attachment: 
Topics:

Large-Scale Hadith text mining

Research laboratory: 
Research Profile: 
Licence
Supervisor (s)
Co-supervisor(s)

Description

Le projet vise à fouiller un encyclopédie qui contient des centaines de livres de hadith pour construire une base de connaissances générique, afin d'appuyer les processus d'extraction de connaissance et de recherche d'information (RI ) dans le corpus hadithien. Il s'agit de i) construire un modèle générique qui regroupe toutes les entités présentes dans le corpus (narrateurs, versets coraniques, commentaires, régions, etc.); ii) restructurer le corpus en XML; iii) appliquer des algorithmes de fouille de textes pour extraire des connaissances; et, iv) utiliser les connaissances acquise dans les domaines de classification de textes et de traitement de requêtes en RI.

Conditions de recrutement

Le candidat doit être 100% disponible pour le projet et avoir de bonnes compétences en développement. Une expérience en développement Dot Net est souhaitée.

Méthode d'enrichissement multilingue (anglais, français, arabe) d'Agrovoc

Research laboratory: 
Research Profile: 
Engineer
Supervisor (s)
Co-supervisor(s)

Description :


L'objectif du projet consiste à développer un outil d'enrichissement de terminologies de domaine multilingues, en utilisant des corpus et d'autres ressources langagières telles que les dictionnaires et les thésaurus. Ayant en entrée une ou plusieurs terminologies de domaine initiales (Ti) et des ressources langagières qui permettent de reconnaitre le contexte d'usage des candidats-termes, identifier les termes pertinents susceptibles d'enrichir les Ti en utilisant des mesures de similarité. Ce processus est renforcé par des interfaces de visualisation et de validation des termes extraits et leurs relations.

En particulier, l'objectif consiste à enrichir des terminologies existantes qui incluent  la langue Arabe; un intérêt particulier sera accordé au traitement de textes arabes et en particulier à la désambigüisation morphologique (pour extraire les termes simples) et à l'analyse syntaxique (pour extraire les termes composés). Le cas d'application choisi est AgroVoc est un thésaurus structuré et multilingue créé en 1980. Ce thésaurus concerne tous les domaines ayant un rapport avec l'agriculture, la foresterie, la pêche, l'alimentation et l'environnement. Agrovoc dispose d'une liste de 35161 mots-clés disponibles dans les six langues officielles de la FAO (Organisation des Nations unies pour l'alimentation et l'agriculture) : arabe, anglais, chinois, espagnol, français et russe.



Termes clés :  Terminologies multilingues, pondération de termes, mesure de similarité, TALN arabe.


Technologies et Langages : Java/J2EE, Web Service (SOAP/WSDL), RDF, OWL


Préservation de la vie privée par prédiction des types de messages courts (public/privé) échangés

Research laboratory: 
Research Profile: 
Engineer
Supervisor (s)
Co-supervisor(s)

Contexte:

L'objectif du projet « sms4science » est de contribuer à l'étude de la communication par SMS et du langage qu'elle véhicule. Pour y parvenir, des chercheurs de plusieurs pays et disciplines se sont associés afin d'entreprendre la constitution, pour un grand nombre de langues, de vastes corpus de SMS pour la recherche scientifique (http://www.sms4science.org/). À Montpellier, les chercheurs travaillent dans le cadre du projet scientifique « sud4science Languedoc-Roussillon. Mutations des pratiques scripturales en communication électronique médiée » à la Maison des Sciences de l'Homme de Montpellier (MSH-M). L'objectif du projet est d'effectuer des recherches pluridisciplinaires sur un corpus de 93.114 SMS authentiques, en langue française, recueillis en 2011 puis anonymysés (corpus disponible : http://88milsms.huma-num.fr). L'objectif du travail est de mener une étude comparative de ce corpus avec un corpus de tweets afin de déterminer les types de messages courts (conversations à visée public et/ou privé) qui peuvent être échangées. Ceci peut avoir des applications liées à la préservation de la vie privée.