Examen IFT6255 ? Recherche d'information - Recherche : Service ...

La formule d'examen décrit pour chaque étudiant et pour chaque étape de
diplôme à laquelle il est ..... Parcours 2.2 : ? Traitement automatique des langues
?.

Part of the document


Examen IFT6255 - Recherche d'information Notes : Cet examen dure 3 heures. Les documentations sont autorisées. Les
questions doivent être répondues individuellement.
Question 1. (Indexation) 15%
Pourquoi doit-on effectuer une indexation des textes avant de faire une
recherche? Quels sont les traitements spécifiques durant l'indexation d'un texte? Comment est-ce que le processus de recherche utilise le résultat de
l'indexation? Comment est-ce qu'on pondère les mots durant l'indexation? Pourquoi? Question 2. (Modèles) 15%
Comparer le modèle booléen classique et le modèle vectoriel sur les aspects
suivants :
- facilité d'utilisation
- performance (la qualité de réponses)
- difficulté d'implantation Quels sont les problèmes que vous pouvez observer sur ces deux modèles? Que
pouvez-vous proposer pour résoudre ces problèmes? Question 3 (LSI) 15%
Latent Semantic Indexing (LSI) est utilisé en RI depuis 1990. Les
expérimentations sur les corpus de TREC montrent que LSI peut améliorer la
qualité de recherche par rapport au modèle vectoriel standard. Quelles sont les raisons qui font que la performance de LSI est meilleure
que le modèle vectoriel standard? Pourquoi les engins de recherche comme Google et Yahoo! n'utilisent pas
cette technique? Question 4. (Traitement de la langue naturelle) 15%
Dans l'état actuel de la RI, dans quels processus les traitements de la
langue naturelle sont-ils utilisés? Quels sont ces traitements? Quels sont
les buts de ces traitements? Pourquoi les traitements de la langue naturelle ne sont-ils pas utilisés
plus largement en RI, étant donné que la RI concerne étroitement la langue
naturelle? Donnez des explications. Dans quels autres cadres ou applications reliés à la RI peut-on utiliser
plus de traitements de la langue naturelle? Expliquer ces traitements. Question 5. (Modèle de langue) 15%
Comment est-ce qu'on utilise un modèle statistique de langue pour effectuer
la RI? Explique intuitivement pourquoi cette utilisation est raisonnable,
en d'autres mots, pourquoi un modèle de langue nous permet de retrouver des
documents pertinents? Le lissage est une opération importante dans un modèle de langue. Expliquer
pourquoi cette opération est nécessaire sur un modèle de documents. Un lissage typique est de combiner un modèle de document avec un modèle de
collection. Étant donné que tous les documents sont lissés de la même
façon, est-ce que le lissage n'aura pas tendance d'effacer les différences
entre les documents? Mais pourquoi après ce lissage, nous arrivons à mieux
retrouver les documents pertinents? Question 6. (Classification) 15%
Décrivez le principe de classification automatique de textes, en
particulier, avec la méthode Bayesienne naïve (Naïve Bayes). Cette
classification fait partie de l'apprentissage automatique. Décrivez ce que
la machine tente d'apprendre, et comment elle utilise ce qu'elle a appris
pour classer de nouveaux textes. Quels peuvent être des problèmes pour cette méthode de classification?
Quelles solutions pouvez-vous proposer? Question 7. (Engin de recherche) 10%
Vous avez sûrement utilisé au moins un engin de recherche sur le Web.
D'après vous, comment cet engin de recherche fonctionne? Quel modèle
utilise-t-il? Quels sont les points sur lesquels on peut apporter des
améliorations avec les techniques étudiées dans ce cours? Expliquer
comment.