Le cours de Techniques quantitatives est structuré autour de la réplication d’une partie d’un article scientifique, à l’aide de différentes techniques (estimation, analyse en composantes principales, modèle linéaire et logistique) et du logiciel R.
hugo.harari@ens-paris-saclay.fr
Séance du 2 novembre (enregistrement)
- Présentation du cours et de l’article
- Téléchargez R puis Rstudio
- 11h-11h30
- lancer l’installation de R.
- Lire la première partie du Désastre des chiffres jusqu’à la 1ere vidéo. Il vous faudra peut-être autoriser l’exécution de “Adobe Flash player”.
- Regarder la 1ere vidéo. Prendre des notes sur l’usage des chiffres.
- 12h-12h15 idem jusqu’à la 2e vidéo inclue.
- pour le 9/11 : finir de lire le désastre des chiffres, vérifier que Rstudio se lance.
- Voici une petite base de données pour se préparer à la réplication, et une base plus complète, avec les données 2019 et les noms des établissements. Télécharger les données et les importer dans R.
Séance du 9 novembre (enregistrement)
- En cas de difficulté pour installer R et Rstudio, regarder cette vidéo
- Prise en main de R (voir ici pour aller plus loin ou là pour une video basique)
- Une petite base de données sur laquelle utiliser R. Le script utilisé (il faut changer l’extention de .TXT en .R).
- Enregistrement du cours
- Pour la semaine prochaine :
- Que se passe-t-il si on prend le pourcentage de femmes en x et le pourcentage d’hommes en y ?
Séance du 16 novembre (enregistrement)
- Rappels de statistiques
- Voici un framapad pour échanger du code pendant la séance
- Voici une base plus complète, avec les données 2019 et les noms des établissements.
- Quel est le taux de bacheliers S moyen ?
- Faire un intervalle de confiance à 95%.
- Testez si ce taux est égal à 0,2.
Séance du 23 novembre (enregistrement)
- Modèle linéaire : la présentation
- Application :
- Importez la base complète dans R
- faire un modèle linéaire modélisant le taux de bachelier S par le taux d’hommes.
- continuer suivant les consignes du rapport intermédiaire, ci-dessous.
Séance du 30 novembre
- Modèle logit : une vidéo ici et une autre avec des maths ici et un poly (voir en particulier p. 23, les odd-ratio).
- Voici une base complétée. Faire un modèle logit expliquant le fait d’être classé à Shanghai par le nombre d’étudiants.
Pour le 7 décembre : rapport intermédiaire
Envoyer votre rapport, enregistré avec votre nom de famille.pdf, dans un mail avec pour objet “Rapport intermédiaire techniques quantitatives”
- Résumé brièvement l’article, en particulier les données utilisées
- Représenter les établissements dans un plan avec le taux d’enfants de professions supérieures en X, le taux de bacheliers S en y.
- Faire un modèle linéaire expliquant le taux de bacheliers S par la part des hommes dans la population étudiante et les différentes origines sociales.
- Faire un modèle logit expliquant le fait d’être classé à Shanghai à l’aide des variables explicatives de votre choix.
Vous pourrez coller un tableau de sortie statistique (obtenu grâce à “summary”) pour chaque modèle, et si possible un graphique permettant de visualiser les estimations du modèle. commenter brièvement les résultats.
Séance du 7 décembre :
- Questions sur le rapport intermédiaire
- Modèle Tobit
Comment interpréter un tableau de résultat d’un modèle économétrique :
- regarder les p-value et ne garder que les lignes pour lesquelles la p-value est “petite” (au moins <0,1). C’est ce qu’indiquent les étoiles (plus il y d’étoiles, plus la p-value est petite et plus la variable est significative). Les variables correspondantes sont celles qui sont corrélées à Y, “toutes choses égales par ailleurs” (c’est-à-dire qu’elles sont corrélés à Y quand on a pris en compte l’effet des autres variables explicatives).
- on peut alors commenter le signe des variables qui apparaissent significatives : on commence par dire en mot quelles variables ont un effet positif et quelles variables un effet négatif. Et, si c’est intéressant, quelles variables n’ont pas d’effet significatif alors qu’on s’attendait à ce qu’elles en aient un.
- Ensuite, on analyse ces résultats d’un point de vue économique. On ne parle plus des variables mais des phénomènes économiques auxquels elles correspondent.
- Enfin, on discute la théorie, est-ce que ça correspond ? Est-ce que les autres chercheurs ont trouvé la même chose ?
Modèle Tobit
- un petit cours, un peu technique, ici
- ouvrez R, réimportez les données si besoin, et installer le package “AER”
- faire un modèle expliquant le rang au classement de Shanghai par les variables sur les populations étudiantes des universités.
- mon script
Séance du 14 décembre :
pas de cours, des rendez-vous en petits groupes :
- 10h : HABIBI JAMSHED, TRICHET MATTHIEU, ELKHAMLICHI SOUKAINA, RAIES SOUHIR, SCHLEGEL JULIETTE
- 10h30 : OUMI SALMA AHMED, FALL RAMATOULAYE, KAHIRI BI GUESSAN JEAN, OSMAN YOUSSEF, CHEVREUX CHARLES, GARCIA BARRIOS EFRAIN
- 11h : TAMZARTI CHAIMAE, TIROT ANTOINE, LEONOVA KSENIIA, MORA ARBOLEDA ROBERT ALONSO, SERNA LOPEZ BRAYAN
- 11h30 : GAULTIER AUGUSTIN, KOLANI TADANDJOA, ZEMZAMI AHMED, GOURICH RIM, MEKBEL SARA
- 12h: ABBOUD CHLOE, ALBERT PIERRE, BACHELOT MATHIS, BENOUAHI HAMZA, BLALATE SAMIA, BOUREIMA BARKIRE HASSANE, BOUREIMA BARKIRE OUSSEINI, brayan lopez, CAROTINE ARTHUR, DIALLO MADY, DIALLO IBRAHIMA KHALIDOU, HODONOU FOLAKEMI, JONVILLE MARCO, NACERI AMEL, NGANSOP KWAMOU LARISSA, PARK SEUNGJUN, PROSPER BINARD, ROCHA MARIANA, SBRENNA GIACOMO, SOURADJ FATAHALDJELIL, VICENCIO ANTONIO, Yann Donnat
Séance du 11 janvier : Analyse en composante principale
(enregistrement)
- Le framapad pour échanger du code est toujours ici
- Lancer R, importer cette base de données. Ici, la même base mais sans accent.
- Introduction à l’ACP : voir cette vidéo.
- Faire une ACP des établissements en 2019 à partir de la base et représenter les établissements dans le plan principal.
- Pour jeudi
- Regarder les 3 vidéos de la série sur l’ACP, ici , à nouveau celle-ci et là.
- Ajouter d’autres variables dans l’ACP (les bacs, le genre, etc)
Séance du 14 janvier (enregistrement)
- Pour le rapport : on reprend le plan de l’article
- un petit résumé et une petite introduction
- l’éboulie des valeurs propres (figure I)
- la représentation des variables dans le plan principal de l’ACP (figure II de l’article)
- puis celle des individus (les universités, figure III de l’article)
- on a vu comment faire l’éboulie des valeurs propres
- pondérer par les effectifs.
- ajouter des variables supplémentaires.
Séance du lundi 18 janvier (enregistrement)
- voir ici pour beaucoup d’options grâce à cette vidéo de F. Husson.
- finaliser la première partie du rapport avec les figures I, II et III, aussi proches que possibles de l’article qu’on réplique.
- commenter les différences, et si vous avez une idée d’amélioration, faire autrement et commenter vos résultats.
Séance du jeudi 21 janvier
Etat d’avancement du rapport : rendez-vous en petits groupes, pour présenter l’avancement de rapport (les consignes sont ci-dessus “Séance du 18 janvier”). Vous pouvez m’envoyer votre rapport par mail si vous le souhaitez, ou me le montrer directement sur Gotomeeting.
- 10h : HABIBI JAMSHED, TRICHET MATTHIEU, ELKHAMLICHI SOUKAINA, RAIES SOUHIR, SCHLEGEL JULIETTE, PARK SEUNGJUN, ABBOUD CHLOE
- 10h30 : OUMI SALMA AHMED, FALL RAMATOULAYE, KAHIRI BI GUESSAN JEAN, OSMAN YOUSSEF, CHEVREUX CHARLES, GARCIA BARRIOS EFRAIN
- 11h : TAMZARTI CHAIMAE, TIROT ANTOINE, LEONOVA KSENIIA, MORA ARBOLEDA ROBERT ALONSO, SERNA LOPEZ BRAYAN
- 11h30 : GAULTIER AUGUSTIN, KOLANI TADANDJOA, ZEMZAMI AHMED, GOURICH RIM, MEKBEL SARA, HODONOU FOLAKEMI,
- 12h: ALBERT PIERRE, BACHELOT MATHIS, BENOUAHI HAMZA, BLALATE SAMIA, BOUREIMA BARKIRE HASSANE, BOUREIMA BARKIRE OUSSEINI, brayan lopez, CAROTINE ARTHUR, DIALLO MADY, DIALLO IBRAHIMA KHALIDOU, JONVILLE MARCO, NACERI AMEL, NGANSOP KWAMOU LARISSA, PROSPER BINARD, ROCHA MARIANA, SBRENNA GIACOMO, SOURADJ FATAHALDJELIL, VICENCIO ANTONIO, Yann Donnat
Séance du jeudi 28 janvier 13h30 (enregistrement)
A partir d’aujourd’hui, seulement cours le jeudi après-midi 13h30.
- Voici un script permettant de faire une ACP avec nos données et obtenir les Figures I, II et III, pour celles et ceux qui auraient pris du retard. La base remise à jour est ici.
- Il est conseillé de changer scriptACP.txt en scriptACP.R
- Il faut peut-être installer un package qui vous manque en effaçant le # des 2 premières lignes.
Cette semaine nous commencerons la classification.
- regarder cette vidéo jusqu’à la minute 12:37 (diapo 11). Quel lien avec le R² ?
- Terminer la vidéo.
- Essayer de faire une classification, en choisissant le nombre de groupe que vous voulez, et de faire un graphique avec les noms des établissements et une couleur pour chaque groupe Voir en bas du framapad
- Regarder la vidéo présentant un exemple de classification.
Séance du jeudi 4 février 13h30
- Ici un script pour l’ACP et la classification
- Choisissez le nombre de groupes qui vous parait pertinent. Une fois que votre graphique ou vos graphiques vous plaisent, exportez les dans votre rapport, et commentez-les en comparant avec les figures IV, V et VI de l’article.
Séance du jeudi 11 février 13h30 (enregistrement)
- Nous avons réalisé l’ACP et la classification, que l’on a représenté dans le plan principal. On peut passer à la description statistiques des classes (la table 1 de l’article, p. 17).
- mon script jusqu’à la production de la table 1, incluse.
Séance du jeudi 4 mars 13h30
- On va ensuite sauter la partie sur l’évolution de la polarisation (fin de la p.17 jusqu’à la p.23) pour reprendre à l’analyse du classement de Shanghai. Ici une base avec le classement des établissements. Reproduire le modèle logit p. 26 avec comme variable expliquée Y= ranked (qui vaut “TRUE” si l’établissement est classé à Shanghai) et en variables explicatives Dim., Dim.2 et effectif
- Pour regrouper les résultats de plusieurs régressions en un unique tableau, par exemple plusieurs logit, le package stargazer. Voir cette video.
Séance du jeudi 11 mars 13h30 (enregistrement)
- L’améliorer avec un modèle tobit du rang au classement de Shanghai.
Séance du jeudi 25 mars 13h30 (pas de séance le 18 : séminaire)
- rendez-vous en petits groupes sur l’avancement du rapport
- Merci de vous inscrire en bas du framapad dans l’un des créneaux
- 15h30 :
- vous pourrez me montrer où vous en êtes du rapport, et surtout vérifier que vos interprétations des graphiques et résultats sont valides
8 avril : rendez-vous individuel, sur demande par mail, si besoin.
Date limite pour rendre le rapport : 2 mai