Examen Final
30-636-01 Analyse et forage de données en commerce électronique Hiver 2003
... Basé sur la proportion d'hommes et de femmes qui ont répondu au sondage ...
Part of the document
30-636-01 Analyse et forage de données en commerce électronique Hiver
2003 Examen Final Les données nécessaires pour répondre aux questions de l'examen sont dans
le fichier Excel intitulé 'examen final', qui doit préalablement être
téléchargé dans votre portable. Pour l'examen, vous avez le droit à toute
documentation papier ou électronique. Question 1 (35 points) L'équipe du marketing d'un fournisseur Internet vient tout juste de
compléter une étude en ligne parmi sa clientèle. Le fichier excel 'durée'
contient les réponses des 100 clients interrogés au cours de l'étude. Plus
spécifiquement, le fichier contient le sexe des répondants ainsi que le
lieu de navigation sur le web. En utilisant ces informations, a) Déterminer le pourcentage des répondants qui naviguent à la maison. (3
points) b) Parmi les hommes, déterminer le pourcentage qui naviguent à la maison.
De même, parmi les femmes, déterminer le pourcentage qui naviguent à la
maison. (6 points) c) Obtenez un intervalle de confiance (95%) pour estimer la différence
entre la proportion des hommes qui naviguent sur Internet et la
proportion des femmes qui naviguent sur Internet. Veuillez indiquer les
proportions pour les deux groupes, les bornes inférieures et supérieures
de l'intervalle et interpréter l'intervalle. (12 points) d) D'après votre réponse obtenue en c), pouvez-vous conclure que la
proportion d'hommes qui naviguent sur Internet est statistiquement
différente de celle des femmes? (3 points) e) Après avoir pris connaissance du type de clientèle de ce fournisseur
Internet, vous réalisez que leur clientèle (tous les clients) est
composée de 50 % d'hommes et 50 % de femmes. Basé sur la proportion
d'hommes et de femmes qui ont répondu au sondage (question c), quelle est
l'impact de cette constatation sur les projections qui seront faites à
partir de cette étude de marché? (6 points) f) Le directeur du département décide de subventionner une nouvelle étude
de marché auprès de ces clients. Il vous mandate de déterminer, avec une
erreur d'au plus 2 %, la proportion des clients qui naviguent à la
maison. Vous devez donc déterminer la taille de l'échantillon minimale
pour estimer cette proportion. Puisque la précision est importante, vous
utiliserez un niveau de confiance de 99 %. (5 points)
Question 2 (25 points) La compagnie XYZ vous a mandaté pour améliorer sont site Internet. Ayant
suivi le cours d'analyse et forage de données en commerce électronique,
vous présentez à votre client l'approche suivante. Tout site Internet est
composé d'attributs : couleur de fond, grosseur des caractères, effets
visuels, etc. En ces termes, votre mission consiste donc à déterminer
quelle est la '' meilleure'' combinaison de ces attributs auprès de leur
clientèle. Ainsi, vous recommandez de faire une analyse conjointe auprès
de leurs clients. Pour l'étude, vous convenez d'étudier les 4 attributs suivants : 1- couleur de fond : bleu ou vert
2- grosseur des caractères : 10, 14
3- bannière dans le haut : oui ou non
4- effets visuels : oui ou non Vous avez donc à étudier l'effet de 4 attributs à deux niveaux chacun. Pour
ce faire, vous avez généré le plan d'expérience suivant, effectué l'étude
de marché auprès d'un panel représentatif de 100 clients et obtenu les
résultats suivants pour chacune des combinaisons proposées. L'échelle
d'appréciation variait de 1 à 7. |combinaiso|Couleur |Grosseur |Bannière |Effets |Appréciation |
|n |de fond |des |dans le |visuels|moyenne (n=100)|
| | |caractères |haut | | |
|1 |Bleu |10 |Oui |Oui |6.5 |
|2 |Bleu |10 |Non |Non |5 |
|3 |Bleu |14 |Oui |Non |5.5 |
|4 |Bleu |14 |Non |Oui |6.5 |
|5 |Vert |10 |Oui |Non |3.5 |
|6 |Vert |10 |Non |Oui |3.5 |
|7 |Vert |14 |Oui |Oui |4.5 |
|8 |vert |14 |Non |Non |3.25 | a) Recodez le plan d'expérience suivant à l'aide de variables binaires (0
ou 1), en omettant le dernier niveau pour chacun des attributs
(vert,14,non,non). Dans le cahier de réponses, veuillez bien indiquer
chacun des attributs au haut des colonnes. (10 points) b) À l'aide de votre matrice obtenue en a) et de l'appréciation moyenne des
100 répondants pour chacune des combinaisons (dernière colonne du
tableau), utilisez la régression linéaire multiple pour déterminer la
meilleure combinaison des différents attributs proposés. Veuillez
inscrire dans le cahier les coefficients pour chacun des niveaux des
attributs de l'étude et la constante, de même que l'estimé du score moyen
de la combinaison gagnante. (15 points)
Question 3 - (40 points) Votre compagnie vend des collections de livres éducatifs pour enfants.
Comme les coûts associés aux ventes par publipostage sont élevés, votre
organisation a décidé d'effectuer ses ventes en lignes, à l'aide de
campagnes promotionnelles ciblées. Votre base de données compte 120 000
clients (actuels et anciens). Pour éviter le 'spaming' et améliorer la
relation avec votre clientèle, votre entreprise a adopté une politique
visant à mieux cibler les produits qui sont susceptibles d 'intéresser vos
clients, basée sur leurs préférences ou encore leurs achats antérieurs. Le fichier excel intitulé 'ventes' contient un échantillon aléatoire de 3
000 clients ayant reçu votre prochaine campagne promotionnelle. À partir
de cet échantillon, vous devrez donc obtenir un modèle de régression
logistique qui vous permettra de déterminer les caractéristiques des
acheteurs potentiels basées sur les informations contenues dans votre base
de données. Le tableau suivant vous indique le nom de chacune des variables
du fichier excel. |Colonne |Description |
|A |Variable dépendante (Y) 1 = a commandé |
|B |Variable indicatrice -lieu de résidence: 1= |
| |urbain; 0 = rural |
|C |Variable indicatrice - Âge : 1 = moins de 40 ans |
|D |Variable indicatrice - Sexe : 1 = homme 0 = femme |
|E |Variable indicatrice - province : 1 = Québec |
|F |Nombre de promotions Internet reçues par clients |
|G |Nombre de commandes à vie |
|H |Nombre de commandes dans les 12 derniers mois |
|I |Montant dépensé à vie |
|J |Montant dépensé au cours des 12 derniers mois |
|K |Nombre de jours depuis la dernière commande |
a) Classez les variables indépendantes en deux catégories : celles qui
augmentent la probabilité de commander et celles qui la diminuent. De
plus, pour chacun de ces deux groupes, ordonnez de façon décroissante, en
valeur absolue, (plus grand au plus petit) les variables explicatives en
basant vos choix d'après leur indice de corrélation avec la variable
dépendante. (10 points) b) À partir de votre échantillon aléatoire, estimez la proportion d'homme
ayant moins de quarante ans dans votre population (120 000 clients) et
obtenez un intervalle de confiance (95 %).Indiquez les bornes inférieures
et supérieures de l'intervalle. (5 points) c) En vous servant de la matrice de corrélation, déterminez s'il y a risque
de multicolinéarité parmi les variables explicatives. Si tel est le cas,
est-ce logique? (5 points)
d) Le tableau suivant vous propose un modèle de régression logistique. À
l'aide de l'information contenue dans le tableau, des critères
statistiques et de la matrice de corrélation, discutez la validité du
modèle et identifiez tous les problèmes potentiels. (10 points)
|Variables explicatives |coefficients|P-value |
|Constante |-1.3456 |0.12 |
|Nb commandes 0-12 Mois |0.3678 |0.02 |
|$ dépensé à vie |.01274 |0.01 |
|Nb jours depuis le |-0.125 |0.02 |
|dernier achat | | |
|Sexe |1.2312 |0.05 |
|Indicateurs - zone |1.2312 |0.25 |
|urbaine | | |
e) Compléter l'information requise dans l'arbre de régression suivant. Pour
chacun des n?uds, obtenez le nombre de clients possédants la
caractéristique ainsi que le taux de réponse. (10 points)
| | |variable | | |
| | |dépendante | | |
| | |taux de | | |
| | |réponse (Y): | | |
| | |n: | | |
| | | | | |
| | | | | |
| | | | | |
| |nb commandes 0-12M = 0,1 |nb commandes 0-12M >= 2|
| |taux de | |taux de | |
| |réponse (Y): | |réponse (Y): | |
| |n: | |n: | |
| | | | | |
| | | | |