.
|
|
La troncature
est un signe qui remplace une ou plusieurs lettres d'un mot. En
recherche
dans une banque de données de textes libres et non
structurés comme en contient le web, l'opérateur de
troncature est capital.
Dans ce contexte général, cet opérateur sert
à trouver des mots ayant des variantes, les fautes d'orthographe
étant les plus répandues en français.
En général, la troncature est
représentée par l'astérisque
«*». Selon les auteurs, la troncature est
appelée «troncation», «joker»,
«wildcard» ou «masque».
Spécifiquement, il y a trois formes de troncature: la troncature
à gauche, la troncature interne et
la troncature à droite.
La troncature à gauche n'est pas
courante. Aucun des automates ne l'a. Dans le cas de
variantes au début d'un mot comme «herminette» et
«erminette», «kasher» et «casher»,
«karakul» et «caracul»
ou «acon» et «accon», la solution est
d'utiliser
l'opérateur d'union.
La troncature interne est surtout utilisée
pour la recherche en anglais qui a les variantes états-unienne
et britannique. En français, il y a peu de variantes
orthographiques, si ce n'est
les erreurs relatives aux accents et aux coquilles. Les mots ou
locutions comme «a capella» et «a cappella»,
«béluga» et «bélouga»,
«curetage» et «curettage»,
«emmenthal» et «emmental»,
«orcanette» et «orcanète»,
«scincidé» et «scincoïde»,
«sanscrit» et «sanskrit»,
«valdéisme» et «valdisme» sont des
candidats à cet opérateur.
La troncature à droite est utile pour
chercher les mots au singulier et au pluriel irrégulier comme
«cheval» et «chevaux» au lieu d'utiliser
l'opérateur logique OU. Il est aussi utile pour remplacer
les lettres accentuées bien que
la plupart des logiciels passe outre aux signes diacritiques.
Cependant, la troncature doit être utilisée avec
discernement. Il n'est pas recommandé de faire une troncature
à partir d'un mot composé d'une racine, surtout si ce mot
est le seul terme de recherche. Par exemple, le mot «talon
» est une racine d'où dérivent «talonnade,
talonnage, talonner, talonnette, talonneur et talonnière»,
déclinaison verbale et pluriels compris. Dans l'exemple
ci-dessus,
la troncature à «talon» n'aurait apporté
aucun
effet significatif : il aurait donné sensiblement le même
résultat.
La discrimination aurait été sur les autres mots. Il en
va
autrement avec des troncatures comme «psycho*» qui est la
racine
d'une vingtaine de mots. Avant d'utiliser la troncature, il est
bon
de vérifier la famille du terme dans un dictionnaire.
Les automates de recherche
Parmi les automates de
recherche, il en a trois qui offrent l'opérateur de troncature:
AltaVista, Inktomi/MSN et Northern Light.
AltaVista a été le premier automate
à offrir l'opérateur de troncature interne et à
droite. Pour que celui-ci soit actif chez AltaVista, il faut que le
symbole de troncature, l'astérisque, soit placé
après la troisième lettre à l'intérieur du
mot ou à la fin. Par
exemple, le mot «grecque» peut être tronqué
ainsi
: grec*. En faisant cette troncature, le logiciel recherchera les mots
«grec, grecs, grecque et grecques, grécité,
gréco-latin, gréco-latine, gréco-latins et
gréco-latines, et gréco-romain, gréco-romains,
gréco-romaines». Si l'astérisque est
placé dans le mot, le logiciel cherchera les variantes,
notamment de fautes d'orthographe. Par exemple, la requête
«gre*que» trouvera les mots «greque» et
«grecque».
Chez Inktomi/MSN, l'opérateur de troncature
est activée en cochant «Enable stemming» ou
«Activer le filtre Racine du mot» chez HotBot
France/Inktomi. En fait, il s'agit plus d'une fonction qu'un
opérateur parce qu'il agit en principe sur la «racine
du mot». Son efficacité n'est pas convaincante.
Il y a quelques années Inktomi offrait sur le site de
HotBot USA la
troncature interne et à droite.
Chez Northern Light, la troncature à droite
pour le pluriel régulier est par défaut. Comme avec
AltaVista, la troncature à droite est représentée
par l'astérisque et remplace une lettre et plus. Chez NL,
la troncature interne est
représentée par le symbole de pourcentage (%) qui
remplace
une seule lettre.
Les automates de recherche
|
Les
répertoires
Parmi les principaux
répertoires, Nomade, La Toile du Québec et Yahoo!, seul
Yahoo! peut prétendre à la troncature. En fait, le
logiciel de Yahoo! travaille avec une chaîne de caractères
où qu'elle soit dans le mot
alors que les autres logiciels rechercheront une chaîne de
caractères correspondant exactement au mot.
Les
portails
Parmi les principaux portails -
AOL, Excite France, GlobeTrotter, Lycos et Sympatico - AOL France ressort du groupe avec
l'automate Exalead. Exalead est le nouvel automate choisi
récemment par AOL France. Il n'a pas de site de recherche en
propre, sauf sur le site
de la société
Exalead. Malgré qu'Exalead n'ait pas
d'opérateurs de troncature, il a la particularité de
rechercher automatiquement les variantes d'un mot. Par exemple,
la requête «cheval» apportera des pages contenant
autant «cheval» que «chevaux» avec
prépondérance du mot de la requête.
|