un système personnalisé de requête à des bases de données en texte intégral.
Bat 721, Université Claude Bernard LYON I
43, Bd du 11 Novembre 1918
69622 VILLEURBANNE CEDEX
Tel : 04 72 43 13 91
Grâce aux systèmes documentaires manipulant du texte intégral, l'interrogation des bases s'est révélée être beaucoup plus conviviale et transparente pour l'utilisateur. Mais la production d'information en augmentation régulière, la prolifération des sources étend considérablement le volume d'information à consulter pour obtenir une information pertinente. " On peut faire un constat simple : si le bruit et le silence sont toujours à peu près les mêmes, par exemple de 50%, un utilisateur qui reçoit dix documents en réponse à une question, en trouvera cinq pertinents. Un utilisateur qui obtiendra cent documents, en trouvera sans doute cinquante pertinents, mais aussi cinquante hors sujet. Le facteur bruit devient une gêne très réelle pour l'utilisateur dès que le volume des réponses dépasse un certain seuil " tolérable " " [Lain 94]. D'une manière très schématique, dans une opération de recherche documentaire classique, l'utilisateur se contente de formuler une requête, puis le système apparie les mots de la requête avec ceux du dictionnaire qu'il possède et génère ainsi une réponse. Dans les systèmes référentiels, la structure de la base assure un certain tri au niveau de la réponse. Au contraire, dans le cas des systèmes documentaires en texte intégral, il est toujours possible de trouver des documents contenant un des termes de la question, mais cela ne veut pas dire qu'ils seront vraiment pertinents pour l'utilisateur. Si ces systèmes savent presque toujours proposer une réponse à la demande de l'utilisateur, ils ne répondent que partiellement à ses besoins. " La tâche d'interrogation s'inscrit à l'intérieur d'une activité de recherche d'information. En effet, la particularité de la recherche d'information provient du fait que l'utilisateur collecte des données pour un problème qu'il va résoudre par la suite, en dehors du système. Sur ce problème, sur le contexte dans lequel il effectue sa recherche, sur les buts qu'il poursuit nous avons très peu d'information. Pour qu'un système fournisse des réponses satisfaisantes, il faut qu'il ait une certaine connaissance du problème que l'utilisateur se pose. La recherche d'information ne peut pas être considérée comme une tache d'exécution, indépendante du contexte dans lequel elle se passe. " [Poli 94] Si l'on cherche l'information sur un réseau un autre fait vient amplifier le bruit. En effet, si un serveur particulier structure généralement l'information d'une manière cohérente ; sur un réseau comme Internet où circulent des informations issues de multiples serveurs répartis un peu partout dans le monde, les documents qui sont hétérogènes, sont présentés au même niveau, sans distinction particulière de domaine (la physique , la chimie, l'économie ...), de nature (on retrouve pêle-mêle des images, du texte, du son), de contenu (pages personnelles, catalogues publicitaires, publications scientifiques, ...), ou de format (HTML, Postscript, texte, ...). De plus, la nature transversale de certaines sciences, en particulier les sciences de l'information et de la communication, rend inévitable une recherche étendue à plusieurs champs disciplinaires.
Pour pallier aux limites de l'" indexation " et avoir une meilleure connaissance du fonds, les systèmes documentaires traditionnels et automatiques ont tenté de décrire les documents par des critères externes à leurs contenus. Ainsi en bibliothéconomie classique, la dimension d'un ouvrage, son nombre de pages, ..., sont autant de critères supplémentaires permettant de gérer le fonds, mais il est rare qu'un utilisateur se serve de ces critères pour sélectionner des documents. Grâce aux systèmes de gestion de fichiers ou aux systèmes de gestion de bases de données, la recherche d'une notice par l'ensemble des champs (zones) la décrivant est devenue possible ; des champs définissant des caractéristiques externes au contenu ont ainsi pu être rajoutés : le pays et le champ disciplinaire de l'auteur, le nom du laboratoire, etc.
Une étude approfondie1 sur un certain nombre de textes, livres, thèses, articles de revues scientifiques, a montré qu'on pouvait trouver, pour chacun d'eux, une structure générique facilement identifiable. En effet, dans la majorité des cas, un texte (article, conférence, rapport, ouvrage, etc.) a une structure générale, il forme une unité car il est construit pour faire passer un message : résultats de synthèse, nouvelles pistes de recherche, etc. Cette unité matérielle et intellectuelle est le résultat d'un lien parfaitement établi entre ses différentes parties, celles-ci pouvant former à leur tour des unités indépendantes remplissant une fonction bien déterminée. Ainsi, par exemple, la bibliographie est utilisée généralement pour étayer les propos cités dans les différentes parties du texte et pour donner au lecteur une idée plus ou moins exhaustive de tout ce qui a été écrit sur le sujet traité, ce qui représente d'une certaine manière le contexte du texte. Cette constatation, nous a conduit à admettre que " l'éclatement " du document en unités documentaires nous permet, tout en préservant l'unité globale du document (le lien entre l'unité documentaire et le document auquel elle appartient), de présenter à l'usager une information plus affinée et plus facile à saisir.
Mais cette structuration de document n'est pas unique ; en effet, on peut aussi considérer les différents types de textes (publicitaires, scientifiques), le mode d'organisation du discours (narratif, argumentatif, etc.) ou même encore la structure physique (attributs typographiques, polices, espaces, etc.) comme des caractéristiques propres à discriminer une fraction du document. Le projet Profil-doc [Lain 96] utilise ces différentes structures pour décrire les documents en unités documentaires, au sein d'un système documentaire en texte intégral. Chacune des unités est alors accessible par des index bien sûr, mais aussi par ses propriétés. Le découpage est basé sur la fonction remplie par ces parties du document et non sur leur contenu. Au niveau de l'utilisateur, ces propriétés seront autant d'outils supplémentaires utilisables lors de la requête, pour sélectionner l'information " pertinente ". En effet, on peut remarquer que l'utilisateur, face à un système en texte intégral qui lui fournit généralement trop d'information, va développer une stratégie de recherche empirique. Il va par exemple se limiter à certaines bases de données, selon la discipline ou le type de revues répertoriées, ou encore, selon la langue, pays ou année. Toutes ces stratégies ont deux caractéristiques : elles portent sur des critères (la forme, le support, le style, ...) autres que le contenu du document, elles sont très fortement individualisées et permettent une personnalisation de la recherche [Lain 96].
Dans cette optique, le système Profil-doc veut aller plus loin que l'utilisation simple de ces critères pour la description et sélection des documents. En effet, ces propriétés nous permettront de sélectionner un corpus " personnalisé " suivant les caractéristiques de l'utilisateur, corpus sur lequel portera la question. En d'autres termes, ces propriétés, appariées avec le profil de l'utilisateur, nous permettent de présélectionner un ensemble de documents.
Nous venons de voir l'utilité du découpage et de la caractérisation des documents.
Le " profil " de l'utilisateur est défini par diverses caractéristiques : son niveau éducationnel, son champ disciplinaire, le type de recherche souhaitée (recherche exhaustive, pointue, etc.), la situation de la recherche (réalisation d'un projet, mise à jour des connaissances, etc.). Cette caractérisation nous permet de cerner ses besoins informationnels. Le système d'aiguillage est le coeur du processus, en effet, c'est cette fonction qui va nous permettre de définir l'ensemble des propriétés des unités documentaires souhaitables en fonction d'un profil donné. Nous n'expliciterons pas en détail dans ce travail le processus d'aiguillage, une thèse [Bena 97] est en cours de réalisation sur le sujet.

Figure 1 : Processus d'interrogation
A partir d'un profil donné, ces propriétés2 sont utilisées comme nous l'avons dit précédemment pour présélectionner automatiquement certains types d'unités documentaires. Cependant, elles peuvent être utilisées directement par l'utilisateur lors de sa requête. Prenons un exemple simple : un utilisateur veut savoir comment les travaux de Chomsky ont été exploités par les chercheurs. Il va questionner sur les unités documentaires ayant le type logique " bibliographie " avec la requête " Chomsky". Le corpus C1 renvoyé est donc uniquement composé des bibliographies comportant des références à Chomsky. L'utilisateur choisit de voir les unités documentaires de type " introduction ". Le système remonte aux documents pères des unités sélectionnées et en extrait les unités " bibliographies " qu'il présente à l'utilisateur.
En nous basant sur les études de P. J. DANIELS [Dani 86], nous avons choisi les quatre caractéristiques suivantes : Niveau éducationnel, Champ disciplinaire, Etapes de recherche, Type de recherche. Lorsque l'usager " entre " sur le système il renseigne donc à partir des listes suivantes, chaque caractéristique3.
| Niveau éducationnel | Maîtrise DEA Recherche4 |
| Champ disciplinaire | SIC Informatique Agronomie Pharmacie |
| Etapes de recherche | Constitution d'une bibliographie Définition du sujet Faisabilité Expérimentation Interprétation des données Rédaction Repérage des approches expérimentales Plan de travail Compréhension de la problématique Etat de l'art Synthèse bibliographique Dégagement des nouveaux axes de recherche Mise à jour des connaissances |
| Type de recherche | Recherche pointue Recherche généraliste |
La fonction d'aiguillage est le coeur du système, c'est elle qui va extraire les unités documentaires du corpus, en fonction du profil donc de l'usage fait par l'utilisateur. Brièvement, nous nous sommes basés sur la littérature ainsi que sur une enquête [Bena 97] que nous avons effectuée sur les usages et habitudes des chercheurs en SIC, sciences pharmaceutiques et sciences physiques, pour construire une matrice " profil-utilisateurs ". La sélection, dans cette matrice, des colonnes décrivant le profil de l'utilisateur permet d'obtenir un ensemble de propriétés, utilisées pour présélectionner un ensemble d'unités documentaires, ensemble sur lequel portera la requête de l'utilisateur [Bena 97].
Par exemple ; considérons deux utilisateurs ayant les profils distincts P1 et P2 qui sont :
| P1 | P2 |
| Etudiant en maîtrise en Sciences de l'Information et de la Communication, voulant approfondir la problématique d'un sujet. | Chercheur en Sciences de l'Information et de la Communication, effectuant l'état de l'art sur un sujet où il n'est pas spécialiste. |
Nous aurons donc comme caractéristiques :
| P1 | P2 | |
| Niveau éducationnel | Maîtrise | Chercheur |
| Champ disciplinaire | Sciences de l'Information et de la Communication | Sciences de l'Information et de la Communication |
| Etapes de recherche | Compréhension de la problématique | Constitution de bibliographie |
| Type de recherche | Recherche pointue | Recherche généraliste |
Ces caractéristiques nous permettent de sélectionner certaines propriétés que doivent valider les unités documentaires, elles sont répertoriées dans le tableau ci-dessus. Nous appellerons ce tableau le vecteur résultant.
| P1 | P2 | |
| Type d'unité logique | Résumé Introduction Description de méthode Discussion Conclusion |
Résumé Introduction Description de thème Conclusion |
| Forme discursive du document | Argumentatif Descriptif |
Argumentatif |
| Style | Littéraire avec données numériques Schémas Formalisation |
Littéraire avec données numériques Littéraire pur |
| Type d'environnement éditorial | Thèse / Mémoire Revue primaire |
nul* |
| Champs disciplinaire de l'auteur | SIC | SIC |
| Profession de l'auteur | Etudiant Enseignant chercheur |
Etudiant Enseignant chercheur |
| Communauté de l'auteur | Etudiant Universitaire Industriel |
Etudiant Universitaire Industriel |
Nous pensons choisir de proposer une lecture de type navigationnelle car la lecture de l'article scientifique s'y prête du fait de sa structure et de "l'indépendance sémantique" de ses différentes parties. En termes grossièrement simplifiés, la lecture navigationnelle traduit une démarche "naturelle" de compréhension. Ainsi un chemin donné de lecture reflète, généralement, un sens voulu par l'utilisateur (le lecteur).
Nous proposons ici trois scénarios de navigation qui ne sont pas limitatifs.

Le second scénario consisterait à définir des chemins de navigation en fonction des propriétés de l'unité d'appel, en présentant en premier par exemple les unités validant des propriétés type de l'unité logique, forme discursive et/ou style, puis les unités validant l'environnement de production puis celle validant le support de diffusion.
Le dernier type de scénario suit la lecture séquentielle de l'article, en présentant les unités, lorsqu'elles sont extraites du même document, selon leur ordre dans le document initial.
Observons à présent la distribution du type d'unité logique qui lui est présenté.
| annexe | 4 |
| bibliographie | 7 |
| conclusion | 12 |
| contexte | 18 |
| développement | 13 |
| discussion | 13 |
| expérimentation | 5 |
| introduction | 14 |
| méthode | 25 |
| résultat | 6 |
| résumé | 9 |
| thème | 4 |
| Total | 130 |
L'utilisateur n'a aucun moyen de faire le tri rapidement entre les unes et les autres.
Effectuons à présent la même requête avec un filtre préalable sur les unités de type logique " méthode ". Nous obtenons uniquement 5 unités documentaires.
Cet exemple montre bien l'utilité pour l'utilisateur de préciser si les mots de sa requête portent sur des éléments structurels (les propriétés) des unités documentaires, ou bien effectivement, s'ils concernent le contenu du document.
De multiples exemples peuvent être construits sur ce modèle, " Je voudrais des textes descriptifs (Style du document) sur ... " " Je voudrais des résultats de recherche (Type de l'unité logique) sur ... ". Nous pouvons augmenter l'effet en construisant des requêtes composant les divers attributs " Je voudrais des résultats de recherche (Type de l'unité logique) descriptifs (Style du document) des travaux des laboratoires de Lyon (Affiliation) sur la circulation de l'information ".
1er cas : L'utilisateur ne dispose d'aucun outil de filtrage, il pose une question en langue naturelle du type " Je voudrais connaître l'ensemble des travaux sur la circulation de l'information effectués dans les laboratoires de Lyon ou de Villeurbanne ".
2eme cas : L'utilisateur dispose de l'outil de filtrage il renseigne donc son profil. Nous allons procéder aux deux types d'interrogation, dans le cas du profil 1 et 2 décrit précédemment. La question de l'utilisateur sera alors, " la circulation de l'information ", il aura précisé préalablement dans le champ affiliation de l'auteur, qu'il souhaite avoir des travaux de laboratoires de Lyon ou de Villeurbanne.
Nous appellerons R le corpus d'unités documentaires présenté à l'utilisateur lorsqu'il pose sa question sans aucun filtrage et R1 (respectivement R2), le corpus d'unités documentaires lorsqu'il renseigne son profil P1 (respectivement P2).
Rappelons que SPIRIT présente des classes de documents, ordonnées suivant le degré de pertinence des mots informationnels qui ont servi à les créer. Par exemple pour R nous avons la classe 1 caractérisée par " information, circulation, Lyon, Villeurbanne ", et la classe 2 par " information, circulation, travaux ". La constitution des classes est entièrement liée au logiciel SPIRIT, l'utilisation d'un autre système de recherche nous donnerait des résultats différents et donc le système influe sur notre évaluation. Cependant, nous avons construit notre protocole pour qu'il puisse être réutilisable sur un autre système.
Nous avons choisi de comparer les classes de même niveau, par exemple la classe 1 de R, R1 et R2. Ces trois classes ne sont pas forcément définies par les mêmes mots informationnels, cependant, nous partons du principe que l'utilisateur va visionner les documents en respectant ce classement, nous pouvons donc les comparer.
Nous obtenons comme résultats :
| Nombre total d'unités documentaires rapatriées | Nombre total de classes effectuées par spirit | |
| Sans filtrage | 308 | 18 |
| avec P1 | 5 | 4 |
| avec P2 | 26 | 9 |
Nous observons qu'effectivement le profil filtre en volume d'une manière conséquente les unités documentaires. Nous passons de 308 unités à 5 pour P1 et 26 pour P2. De plus, si l'on considère que la question est analysée d'une manière similaire dans tous les cas, le sens contenu dans chaque document sera identiquement évalué. Les différences que nous observons tiennent donc d'une part à l'absence de présélection, et d'autre part à l'ajout de classes supplémentaires ; celles constituées de mots non informationnels pour l'utilisateur comme " travaux " ou " laboratoires ".
Nous présenterons des résultats nous permettant de saisir les différences entre les sous corpus d'unités documentaires présentés à l'utilisateur avec et sans pré-filtrage. Nous utiliserons deux indicateurs évaluant d'une part les recoupements d'éléments entre R, R1 et R2 (comme le feraient des calculs de distance usuels entre ensembles) mais aussi l'ordre de présentation des unités documentaires.
Nous noterons BrR1(x) le ratio d'éparpillement de la classe x de R par rapport au référentiel R1.


Le ratio est maximum (BrR1 = 1) si l'ensemble des classes sélectionnées ne contient aucun des documents de R1 et est minimum (BrR1 =0) s'il les contient exactement tous. Cet indicateur nous permet de savoir dans quelle classe de R nous allons retrouver les éléments considérés comme pertinents dans le sous corpus référentiel R1 ou R2.
| Groupement des classes | R | R1 | R2 | BrR1 | BrR2 |
| R1-R5 | 16 | 5 | 9 | 1 | 11/16=0.85 |
| R6-R10 | 14 | 0 | 17 | 1 | 12/14=0.85 |
| R11-R15 | 29 | 0 | 0 | 28/29=0.96 | 28/29=0.96 |
| R16-R18 | 249 | 0 | 0 | 245/249=0.98 | 231/249=0.92 |
L'indice de proximité est calculé en se basant sur l'indice de Jaccard :

| Groupement des classes | R | R1 | R2 | card(R U R1) | card(R inter R2) | card(R U R2) | Prox.(R,R1) | Prox.(R,R2) | |
| R1-R5 | 16 | 5 | 9 | 0 | 21 | 3 | 22 | 0 | 0.13 |
| R6-R10 | 14 | 0 | 17 | 0 | 14 | 1 | 30 | 0 | 0.033 |
| R11-R15 | 29 | 0 | 0 | 0 | 29 | 0 | 29 | 0 | 0 |
| R16-R18 | 249 | 0 | 0 | 0 | 249 | 0 | 249 | 0 | 0 |
Le tableau 8 (respectivement tableau 9) présente les unités documentaires7 de R1 (respectivement R2) selon leur ordre de présentation (rang), le numéro de leur classe dans R1 (respectivement R2) et dans R.
| Rang dans R1 | R1 | No des classes dans R1 | No des classes dans R |
| 1 | docu494 | 1 | 15 |
| 2 | docu449 | 2 | 13 |
| 3 | docu424 | 3 | nul8 |
| 4 | docu450 | 3 | nul |
| 5 | docu95 | 4 | 15 |
| Rang dans R2 | R2 | No des classes dans R2 | No des classes dans R | |
| 1 | docu30 | 1 | 5 | |
| 2 | docu28 | 1 | 2 | |
| 3 | docu465 | 2 | 2 | |
| 4 | docu446 | 3 | 6 | |
| 5 | docu51 | 4 | 18 | |
| 6 | docu45 | 4 | 15 | |
| 7 | docu44 | 4 | 18 | |
| 8 | docu32 | 4 | 18 | |
| 9 | docu247 | 5 | 3 | |
| 10 | docu208 | 6 | 6 | |
| 11 | docu119 | 6 | 11 | |
| 12 | docu117 | 6 | 2 | |
| 13 | docu464 | 7 | 15 | |
| 14 | docu485 | 7 | 18 | |
| 15 | docu495 | 7 | 18 | |
| 16 | docu231 | 8 | 15 | |
| 17 | docu232 | 8 | 15 | |
| 18 | docu407 | 8 | 18 | |
| 19 | docu150 | 9 | 18 | |
| 20 | docu145 | 9 | 15 | |
| 21 | docu143 | 9 | 15 | |
| 22 | docu139 | 9 | 15 | |
| 23 | docu136 | 9 | 18 | |
| 24 | docu132 | 9 | 18 | |
| 25 | docu60 | 9 | 18 | |
| 26 | docu59 | 9 | 18 |
Dans le tableau 9 nous voyons que le 1er document de R2 n'apparaît qu'en 16eme position dans la 5ème classe R, le 2ème en 3ème position, le 3ème en 9ème position ...
Nous pouvons remarquer qu'aucun document de la classe 1 de R n'apparaît dans R1 et R2, cette classe est caractérisée par les mots informationnels " information, circulation, Lyon, Villeurbanne ", et ne contient en fait qu'un seul document. Celui ci n'apparaît pas, en dépit de sa proximité avec la requête car il est défini par des propriétés non conformes à P1 et P2.
Nous voyons bien que l'ordre de présentation des unités documentaires est complètement modifié par l'utilisation des profils. Il nous reste à déterminer un indicateur nous permettant de quantifier le " retard " de lecture, c'est à dire prenant en compte la différence d'ordre des éléments de R et R1 ou R2. Pour cela nous travaillons avec les indicateurs de Tague-Sutcliffe [Tagu95] que nous sommes en train d'adapter à notre système.
Notre problème actuellement est de construire des outils pour effectivement mesurer l'impact de ces différents processus sur la recherche d'information. Nous aurons à mesurer les différences de volume, d'enregistrements rapatriés, et d'ordre de présentation. Les deux indicateurs se rapprochant du bruit et de la proximité que nous avons présentés, ne sont qu'un exemple et doivent être accompagnés pour une étude plus approfondie. C'est la tâche à laquelle nous nous employons maintenant.
[Bena 97] N. Ben Abdallah. Analyse et structuration de documents scientifiques pour un accès personnalisé à l'information utile : vers un système d'information évolué. (Thèse à soutenir le 7 juillet 97 à l'université Lyon 1)
[Blan 94] Blanquet Marie-France. Intelligence artificielle et système d'information. ESF. 1994. 269 p.
[Dani 86] Daniels P.J. Cognitive models in information retrieval an evaluative review. Journal of documentation , Vol. 42, N°4, Décembre 1986, pp. 272-304.
[Lain 94] Lainé-Cruzel Sylvie. Vers de nouveaux systèmes d'information prenant en compte le profil des utilisateurs. Documentaliste. Sciences de l'information - 1994 - 31 (3) - pp. 143-147.
[Lain 96] Lainé-Cruzel Sylvie, Lafouge Thierry, Lardy Jean-Pierre, Ben Abdallah Nabil. Improving information retrieval by combining user profile and document segmentation. Information Processing and management -1996- vol 32 n 3 - pp. 305-315.
[Poli 94] Polity Y. Evaluation des modes de recherche en langage naturel. Documentaliste. Sciences de l'information - 1994 - 31 (3) - pp. 136-142.
[Rada 88] Radasoa H. Méthodes d'amélioration de la pertinence des réponses dans un système de bases de données textuelles. Thèse. Université Paris Sud. Centre d'Orsay - 28 Novembre 1988 - pp. 156.
[Tagu95] Tague-Sutcliffe J. Mesuring information. An information services perspectives. Academic Press. - 1995 - pp. 206.
1 Norme 5963 : Méthode d'analyse des documents - Norme ISO 2145 : Numérotation des divisions et subdivisions dans les documents écrits - Norme ISO 8613 : Architecture du document.
Norme ISO 7144 : Présentation des thèses et des documents assimilés.
Norme ISO 5966 : Présentation des documents scientifiques et techniques.
2 Ces propriétés sont fixées pour les besoins de l'étude, cette liste n'est cependant pas exhaustive, elle pourra être complétée dans le futur.
3 La définition des modalités s'est fait en suivant les résultats d'un questionnaire que nous avons effectué auprès de chercheurs en SIC, sciences pharmaceutiques, et sciences physiques
4 Comprend les doctorants, chercheurs, enseignants chercheurs, ... considérés comme spécialistes dans un domaine.
* Le type d'environnement éditorial n'est pas renseigné pour le profil 2, cette caractéristique n'intervient pas dans la discrimination des unités documentaires présentées.
5 Développé par la société T-GID - 84-88 Bd de la mission Marchand 92411 Courbevoie Cedex.
6 Sur une base plus large nous effectuerons les calculs pour chacune des classes.
7 Les numéros sont seulement des références à nos unités documentaires dans la base.
8 Ces deux éléments de R1 ne se retrouvent pas dans R car nous avons, en plus du profil, fait un pré-filtrage sur l'affiliation de l'auteur. Si aucun pré-filtrage direct n'est effectué et que seul les propriétés renseignées dans le profil trient l'information alors on a R1 C R et R2 C R