Modèle de recherche d`information

Étant donné que la représentation est ce qui est stocké, la représentation est également celle qui pourrait, en principe, être recherchée et, après la sélection, produite comme sortie pour l`affichage ou d`autres fins. Mais cela n`est pas nécessairement soutenu dans la pratique. Les catalogues de bibliothèques en ligne actuels, par exemple, limitent généralement la recherche à quelques champs (notamment l`auteur, le titre et les en-têtes d`objet) dans les représentations qui contiennent plusieurs autres champs dans lesquels la recherche n`est pas prise en charge. C`est une raison suffisante pour laquelle il est nécessaire de faire une distinction entre la représentation et l`index indexable. L`index consultable, dans ce sens technique, est la partie interrogeable de la représentation. Nous utilisons des «règles d`indexation indexables» pour désigner ce qui détermine ce qui doit être consultable. Les systèmes de récupération ont généralement en outre une structure syndétique pour cartographier les recherches admissibles (voir, voir aussi, arrêter les mots, etc.), que nous traitons également comme un deuxième composant de l`index indexable. Encore une fois, dans le cas d`un texte intégral non édité, l`index indexable sera co-étendu avec la représentation et, par conséquent, avec l`objet source (le texte original). Mais, comme indiqué, dans d`autres cas, tels que les catalogues de bibliothèques, les règles de création d`index peuvent restreindre les parties de la représentation disponibles dans l`index indexable. L`index indexable (comme la représentation et l`objet source) peut être partitionné en index (Sub) distincts, pour permettre une recherche plus précise et ciblée. L`extraction d`informations (IR) est l`activité d`obtenir des ressources du système d`information pertinentes à un besoin d`information à partir d`un ensemble de ressources d`information. Les recherches peuvent être basées sur le texte intégral ou sur d`autres indexations basées sur le contenu.

L`extraction d`informations est la science de la recherche d`informations dans un document, la recherche de documents eux-mêmes, et également la recherche de métadonnées qui décrivent les données, et pour les bases de données de textes, d`images ou de sons. On trouve couramment des modèles de systèmes de récupération d`information dans les textes et les documents de recherche d`informations (p. ex., [Lancaster 79, page 8,]; [Meadow 92, p. 5,]; [Soergel 85, p. 58,]; [& Vickery 87, p. 11,]; de Vickery [van Rijsbergen 79, p. 7,]). Ces modèles sont généralement sous la forme illustrée à la figure 1, avec des quantités variables de détails descriptifs supplémentaires en fonction de la finalité de la description. En 1992, le département de la défense des États-Unis avec l`Institut national des normes et de la technologie (NIST), a coparrainé la Conférence de recherche de texte (TREC) dans le cadre du programme de texte TIPSTER. L`objectif était de se pencher sur la communauté d`extraction de l`information en fournissant l`infrastructure nécessaire à l`évaluation des méthodologies de récupération de texte sur une très grande collection de textes. Cette recherche catalysée sur des méthodes qui s`adapter à d`énormes corpus.

L`introduction de moteurs de recherche sur le Web a renforcé encore plus le besoin de systèmes de récupération à très grande échelle. La sortie de récupération, traditionnellement sous la forme d`un affichage, mais de plus en plus sous la forme d`un flux d`objets à utiliser ailleurs ou à d`autres fins, complète le cycle de récupération de base. Ces flux peuvent être dirigés vers des outils de visualisation, le stockage pour le traitement ultérieur, ou l`utilisation comme flux d`entrée à d`autres systèmes de sélection, ou comme rétroaction dans le système lui-même.

Les commentaires sont fermés.