lundi 7 décembre 2009

TreeTagger pour l'étiquetage morpho-syntaxique et la lemmatisation

L'étiquetage morpho-syntaxique d'un texte (Part-of-Speech tagging ou POS tagging en anglais), est souvent l'une des premières étapes en traitement automatique des langues (TAL). Il consiste à identifier pour chaque mot sa classe morpho-syntaxique (catégorie grammaticale, genre, nombre, temps...) à partir de son contexte. La lemmatisation désigne l'analyse lexicale consistant à retrouver la forme canonique d'un mot fléchie appelée le lemme.
TreeTagger permet d'effectuer les opérations décrites ci-dessus et peut également être utilisé comme un « chunker » pour identifier des parties du discours et délimiter des groupes syntaxiques.

Installation de TreeTagger
La procédure est décrite sur le site de TreeTagger. Pour l'installer sous Linux pour l'anglais et le français, il suffit de :

0 commentaires: