Extrait d'une page de dictionnaire

Thésaurus de catégorisation et de classification des données

Intégrer un thésaurus comme vocabulaire contrôlé pour organiser les connaissances en vue d'un rappel ultérieur.

Gérer des données, c’est comme garder des chats. Il est très difficile de contrôler, de coordonner et d’organiser. Heureusement, il y a quelques mécanismes qui prennent en charge la partie de données. Pour les chats, désolé, vous vous débrouillez seul.

Une façon d’organiser les données est d’utiliser des thésaurus. Sans être trop ésotérique ou détaillée, la définition la plus simple du thésaurus est «un vocabulaire contrôlé utilisé pour organiser la connaissance en vue d’une consultation ultérieure.» Insistance sur «contrôlé.» Cela signifie essentiellement que les concepts ou les mots clés doivent correspondre à un ensemble prédéfini de mots (c’est-à-dire du vocabulaire). Le problème que les thésaurus résolvent est la catégorisation et la classification non organisées, spontanées ou ad hoc. Une personne peut utiliser un mot-clé pour un thème, tandis qu’une autre personne utilise un mot-clé différent. Au fil du temps, cela crée un ensemble de données désorganisé qui rend très difficile la compréhension et la recherche de vos données. Le principal avantage de l’utilisation de thésaurus réside dans le respect de normes dans un domaine de connaissance.

Le Getty Art & Architecture Thesaurus (AAT) ® est un bon exemple de vocabulaire contrôlé (c’est-à-dire thésaurus). Ce thésaurus est utilisé par les bibliothécaires, le personnel des musées, les archivistes et les éditeurs de catalogues pour décrire les objets d’art et d’architecture. Le thésaurus est disponible ici: https://www.getty.edu/research/tools/vocabularies/aat/

Pour illustrer l’utilisation du thésaurus «Getty Art and Architecture» (AAT), un exemple de scénario: Un chercheur qui étudie comment la céramique a été utilisée au cours de l’histoire. Les céramiques sont généralement fabriquées en touchant des mélanges d’argile et d’eau et en les amenant dans les formes souhaitées, comme des pots ou des statues. Le chercheur souhaitera peut-être décrire la tonalité d’un objet en céramique en limitant la description des tonalités à un vocabulaire standard. Voici une entrée abrégée du thésaurus de l’AAT pour les matériaux céramiques, en particulier «l’argile».


Matériaux Formes de représentation 
… Matériaux (nom de la hiérarchie) 
…… Matériaux (Substance)
……… <Matériaux , combiné>
………… matériau inorganique
…………… Argile
……………… <Argile , combiné ou d'origine)
………………… Gault (Type d'argile)
………………… Kaolin
………………… Argile rond
………………… Argile naturelle 
………………… Tube d'argile
………………… “Terre de Lorraine”


Dans ce cas, le vocabulaire contrôlé est un ensemble standard de valeurs de données décrivant des matériaux argileux (par exemple Gault, kaolin, argile rond, argile naturelle, tube d'argile, «Terre de Lorraine»). Il s’agit d’un exemple simplifié, mais qui illustre la valeur des normes et de la cohérence.

Les thésaurus montrent généralement des liens entre les «concepts»: qu’ils se présentent sous la forme de concepts apparentés, de concepts plus larges ou de concepts plus restreints. Ces relations sont formulées sous forme d’arbres hiérarchiques avec un titre principal dans la structure de l’arborescence. 

eyebase contient un éditeur de thésaurus. Cela inclut les fonctions d’importation d’un thésaurus ou de création d’un nouveau thésaurus. Il est ensuite utilisé dans des listes déroulantes pour faciliter la saisie des termes du thésaurus pour un enregistrement ou un groupe d’enregistrements particulier. La profondeur des hiérarchies et le nombre de termes sont techniquement illimités. Les thésaurus peuvent être exportés sous forme de fichier CSV. Chaque thésaurus peut être affiché en plusieurs langues.