Examen IFT6255 ? Recherche d'information - Recherche : Service ...

Bien que l'examen ne sera pas fait dans une salle sous surveillance, cet examen
... Qu'est-ce que vous pouvez proposer pour intégrer plus de traitements de LN ...

Part of the document


Examen final - H2007
IFT6255 - Recherche d'information Directives :
1. Cet examen se fait à la maison. Vous devez envoyer les réponses au
plus tard le lundi 7 mai à midi.
2. Bien que l'examen ne sera pas fait dans une salle sous surveillance,
cet examen est un exercice individuel.
3. Vous êtes autorisés de consulter toute documentation, y compris le
Web. Mais vous devez citer la source.
4. Chaque question correspond à 10%. Vous êtes encouragés à apporter des
réflexions personnelles. 1. Décrivez les différentes mesures pour évaluer un système de RI. Comparez-
les et discutez de leurs avantages et inconvénients. Est-ce que vous
pouvez proposer une solution de rechange ? 2. La pondération de termes est un aspect clé dans l'indexation des
documents et de requêtes. Expliquez quels aspect doit-on prendre en
compte dans la pondération de termes et pourquoi. Comment ces aspects sont reflétés dans différents modèles de recherche :
modèle Booléen, modèle vectoriel, modèle probabiliste et modèle de
langue ?
Est-ce que vous voyez d'autres aspects importants, qui ne sont pas pris
en compte dans les pondérations actuelles ? Lesquels ? Expliquez
pourquoi. 3. Quels sont les apports des traitements des langues naturelles à la RI ?
A votre avis, est-ce que ces traitements sont suffisamment exploités en
RI ? Expliquez les raisons. Qu'est-ce que vous pouvez proposer pour intégrer plus de traitements de
LN dans les systèmes de RI ? Vous devez justifier votre proposition, par
exemple, par rapport à son apport et sa faisabilité. 4. Pour implanter un modèle vectoriel, typiquement, on utilise des fichiers
inversés. Décrivez la procédure pour évaluer une requête dans ce modèle. Comment peut-on implanter un modèle de langue ? Est-ce qu'on peut
utiliser une procédure similaire ? Expliquez comment. 5. Comparez le modèle probabiliste indépendant (Binary Independent Model)
et les modèles de langues utilisés dans la RI. Quelles similarités et
différences observez-vous ? Si on compare ces deux modèles au niveau de la performance expérimentale,
on constate que les modèles de langues sont souvent plus performants que
le modèle probabiliste indépendant sans aucun paramètre heuristique (ceci
exclut le modèle OKAPI qui intègre plusieurs paramètres heuristiques).
Comment pouvez-vous expliquer cette différence de performance ? 6. Quelles sont les similarités et les différences entre la classification
et le clustering des documents? Où est-ce qu'on peut trouver une utilité
de ces deux méthodes ? Décrivez brièvement les principales approches présentées dans la
littérature. Quels sont les problèmes clés à résoudre dans ces deux
tâches ? Quelles sont les difficultés principales ?
Observez le système clusty.com (anciennement vivisimo.com) qui fait le
clustering des résultats de recherche. Que pouvez-vous proposer comme
améliorations ? Vous pouvez consulter la description de technologie
utilisée par Clusty : http://vivisimo.com/html/velocity 7. Quel est le but de l'expansion de requête? Pourquoi doit-on faire une
expansion de requête ? La pseudo rétroaction de pertinence (pseudo relevance feedback) utilise
les premiers documents retrouvés comme s'ils sont pertinents, pour
étendre la requête. Il est connu que les premiers documents ne sont pas
tous pertinents. En effet, typiquement, la précision des premiers
documents ne dépasse pas 0.5 dans les expérimentations TREC. Malgré ce
fait, l'utilisation de ces documents pour l'expansion de la requête
s'avère souvent bénéfique. Quelles sont les raisons qui expliquent cela ? Dans une expérimentation effectuée par Chris Buckley et al. dans
TREC3[1], il est montré qu'une exploitation massive de ces documents
retrouvé pour l'expansion de la requête est très utile : ils ajoute
beaucoup de termes dans la requête, entre 300 et 530. Comment expliquez-
vous cet effet bénéfique avec ce grand nombre de termes ajoutés ? 8. Une des tendances actuelles dans le domaine de la RI et dans le
développement des engins de recherche est la personnalisation. Expliquez
ce qu'est la personnalisation, et en quoi elle peut être utile. Quelles sont les approches proposées dans la littérature pour faire la
personnalisation ? Comparez ces approches, et discutez de leurs avantages
et inconvénients. En fonction de ce que vous remarquez sur ces approches, quelle nouvelle
approche pouvez-vous proposer pour la personnalisation des engins de
recherche sur le Web ? 9. Latent Semantic Indexing (LSI) est utilisé en RI depuis 1990. Les
expérimentations sur les corpus de TREC montrent que LSI peut améliorer
la qualité de recherche par rapport au modèle vectoriel standard. Quelles sont les raisons qui font que la performance de LSI est meilleure
que le modèle vectoriel standard? Pourquoi les engins de recherche comme Google et Yahoo! n'utilisent pas
cette technique? Quels sont les problèmes ? 10. Vous avez sûrement utilisé différents engins de recherche sur le Web.
D'après vous, comment ces engins de recherche fonctionnent ? Quels
modèles utilisent-t-ils ? Quels sont les points sur lesquels on peut
apporter des améliorations avec les techniques étudiées dans ce cours?
Expliquer comment. -----------------------
[1] http://trec.nist.gov/pubs/trec3/papers/cornell.new.ps.gz