SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Les langages
des automates de recherche:

Les opérateurs de troncature

Dernière mise à jour 2002-12-30

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions

.
Accueil
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Les langages de recherche
Le classement des automates de recherche
Les répertoires
Les banques de données
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités
Les brèves

La troncature est un signe qui remplace une ou plusieurs lettres d'un mot. En recherche dans une banque de données de textes libres et non structurés comme en contient le web, l'opérateur de troncature est capital.  Dans ce contexte général, cet opérateur sert à trouver des mots ayant des variantes, les fautes d'orthographe étant les plus répandues en français.
    En général, la troncature est représentée par l'astérisque «*».  Selon les auteurs, la troncature est appelée «troncation», «joker», «wildcard» ou «masque».  Spécifiquement, il y a trois formes de troncature: la troncature à gauche, la troncature interne et la troncature à droite.
    La troncature à gauche n'est pas courante.  Aucun des automates ne l'a.  Dans le cas de variantes au début d'un mot comme «herminette» et «erminette», «kasher» et «casher», «karakul» et «caracul» ou «acon» et «accon», la solution est d'utiliser l'opérateur d'union.
    La troncature interne est surtout utilisée pour la recherche en anglais qui a les variantes états-unienne et britannique.  En français, il y a peu de variantes orthographiques, si ce n'est les erreurs relatives aux accents et aux coquilles.  Les mots ou locutions comme «a capella» et «a cappella», «béluga» et «bélouga», «curetage» et «curettage», «emmenthal» et «emmental», «orcanette» et «orcanète», «scincidé» et «scincoïde», «sanscrit» et «sanskrit», «valdéisme» et «valdisme»  sont des candidats à cet opérateur.
    La troncature à droite est utile pour chercher les mots au singulier et au pluriel irrégulier comme «cheval» et «chevaux» au lieu d'utiliser l'opérateur logique OU.  Il est aussi utile pour remplacer les lettres accentuées bien que la plupart des logiciels passe outre aux signes diacritiques.  Cependant, la troncature doit être utilisée avec discernement. Il n'est pas recommandé de faire une troncature à partir d'un mot composé d'une racine, surtout si ce mot est le seul terme de recherche. Par exemple, le mot «talon » est une racine d'où dérivent «talonnade, talonnage, talonner, talonnette, talonneur et talonnière», déclinaison verbale et pluriels compris.  Dans l'exemple ci-dessus, la troncature à «talon» n'aurait apporté aucun effet significatif : il aurait donné sensiblement le même résultat. La discrimination aurait été sur les autres mots. Il en va autrement avec des troncatures comme «psycho*» qui est la racine d'une vingtaine de mots.  Avant d'utiliser la troncature, il est bon de vérifier la famille du terme dans un dictionnaire.

Les automates de recherche

    Parmi les automates de recherche, il en a trois qui offrent l'opérateur de troncature: AltaVista, Inktomi/MSN et Northern Light.
    AltaVista a été le premier automate à offrir l'opérateur de troncature interne et à droite. Pour que celui-ci soit actif chez AltaVista, il faut que le symbole de troncature, l'astérisque,  soit placé après la troisième lettre à l'intérieur du mot ou à la fin.  Par exemple, le mot «grecque» peut être tronqué ainsi : grec*. En faisant cette troncature, le logiciel recherchera les mots «grec, grecs, grecque et grecques, grécité, gréco-latin, gréco-latine, gréco-latins et gréco-latines, et gréco-romain, gréco-romains, gréco-romaines».  Si l'astérisque est placé dans le mot, le logiciel cherchera les variantes, notamment de fautes d'orthographe.  Par exemple, la requête «gre*que» trouvera les mots «greque» et «grecque».
    Chez Inktomi/MSN, l'opérateur de troncature est activée en cochant «Enable stemming» ou «Activer le filtre Racine du mot» chez HotBot France/Inktomi.  En fait, il s'agit plus d'une fonction qu'un opérateur parce qu'il agit en principe sur la «racine du mot».  Son efficacité n'est pas convaincante.  Il y a quelques années Inktomi offrait sur le site de HotBot USA la troncature interne et à droite.
    Chez Northern Light, la troncature à droite pour le pluriel régulier est par défaut.  Comme avec AltaVista, la troncature à droite est représentée par l'astérisque et remplace une lettre et plus.  Chez NL, la troncature interne est représentée par le symbole de pourcentage (%) qui  remplace une seule lettre.


Les automates de recherche

Troncature 1 caractère
Troncature gauche
Troncature interne
Troncature droite
AlltheWeb n.d.
n.d.
n.d.
n.d.
AltaVista
n.d.
n.d.
mod*le
mot-cl*
AntiSearch
n.d.
n.d.
n.d.
n.d.
Gigablast
n.d.
n.d.
n.d.
n.d.
Google
n.d.
n.d.
n.d.
n.d.
HotBot.com
(Inktomi)
n.d.
n.d.
n.d.
n.d.
HotBot.fr
(Inktomi)
n.d.
n.d.
n.d.
Activer le filtre Racine du mot
MSN Search (Inktomi)
n.d.
n.d.
n.d.
Enable stemming
Northern Light
Par défaut
n.d.
mod%le
mot*
OpenFind
n.d.
n.d.
n.d.
n.d.
Teoma
n.d.
n.d.
n.d.
n.d.
Tout le web francophone (Voila)
n.d.
n.d.
n.d.
n.d.
WiseNut
n.d.
n.d.
n.d.
n.d.

Les répertoires

    Parmi les principaux répertoires, Nomade, La Toile du Québec et Yahoo!, seul Yahoo! peut prétendre à la troncature.  En fait, le logiciel de Yahoo! travaille avec une chaîne de caractères où qu'elle soit dans le mot alors que les autres logiciels rechercheront une chaîne de caractères correspondant exactement au mot.

Les portails

    Parmi les principaux portails - AOL, Excite France, GlobeTrotter, Lycos et Sympatico - AOL France ressort du groupe avec l'automate Exalead.  Exalead est le nouvel automate choisi récemment par AOL France. Il n'a pas de site de recherche en propre, sauf sur le site de la société Exalead.  Malgré qu'Exalead n'ait pas d'opérateurs de troncature, il a la particularité de rechercher automatiquement les variantes d'un mot.  Par exemple, la requête «cheval» apportera des pages contenant autant «cheval» que «chevaux» avec prépondérance du mot de la requête.


Page précédente: les opérateurs de proximité
Accueil
Page suivante: Les champs de recherche


Service de recherche documentaire DSI. 1280-4, boulevard de Montarville Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info@dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 1er août 2000).  «Les opérateurs de troncature». [En ligne]. Longueuil. Québec, ©2000-2002. http://www.dsi-info.ca/moteurs-de-recherche/langages/operateurs-de-troncature.html
Cette page a été éditée le 1er août 2000.
Mots clés :  Bibliothèques  (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références  /  Nomade : recherche sur le Web  / ODP :  recherche sur le Net /  Toile du Québec :  Internet - Guides ; guides perfectionnement à la recherche  / Voila :  internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation

Hit-Parade
©2000-2002. Marc Duval