Ce que les essais de contrôle randomisés peuvent et ne peuvent pas faire

Le prix Nobel 2019 des sciences économiques a été décerné conjointement à Abhijit Banerjee, Esther Duflo et Michael Kremer pour leur approche expérimentale de la réduction de la pauvreté dans le monde ». Cette colonne décrit leur impact sur la recherche en économie du développement et les actions pratiques pour réduire la pauvreté. Il considère également certaines des critiques des essais contrôlés randomisés comme une approche du développement. Abhijit Banerjee, Esther Duflo et Michael Kremer ont remporté le prix Nobel 2019. Leur victoire était inévitable, et pour une raison simple: toute une branche de l’économie – le développement – est absolument différente de ce à quoi elle ressemblait il y a 30 ans. Le développement était essentiellement une branche de la croissance économique. Les chercheurs ont étudié des sujets tels que la productivité des grandes et des petites exploitations, la nature de la «commercialisation» (ou la nature des marchés et le lien économique entre les différentes régions d’un pays) ou la nécessité des exportations par rapport à l’industrialisation. Les études étaient presque entièrement observationnelles, des collectes de données approfondies avec des références jetables à la théorie de la croissance à l’ancienne. La politique était largement motivée par l’impression subjective des donateurs ou des gestionnaires de programme au sujet des projets qui «fonctionnaient». Pour être un peu trop honnête – c’était un champ terne, et donc un marigot. Et pire que terne, c’était un domaine où le progrès scientifique faisait sérieusement défaut. L’économie du développement transformée Banerjee (2005) a une belle description de la situation lorsqu’il est entré dans le domaine de l’économie du développement. Beaucoup d’idées probablement bonnes ont été financées, profondément informées par l’histoire, mais avec très peu de preuves convaincantes que les projets hautement financés atteignaient leurs objectifs déclarés. Dans le recueil des projets recommandés de la Banque mondiale, tout, des bourses aux filles aux bons pour les enfants pauvres en passant par les bulletins des citoyens, a été recommandé. Est-ce que cela a réellement fonctionné? Banerjee cite un programme fournissant des terminaux informatiques dans les zones rurales du Madhya Pradesh, qui explique qu’en raison d’un manque d’électricité et d’une mauvaise connectivité, seuls quelques kiosques se sont révélés commercialement viables ». Sans ironie, suite au succès de l’initiative », des programmes similaires seraient financés. De toute évidence, cette situation n’était pas satisfaisante. Nous devrions sûrement être en mesure d’évaluer les projets que nous avons déjà financés? Et mieux, nous devrions sûrement structurer ces évaluations pour informer les futurs projets? Banerjee encore: la chose la plus utile qu’un économiste du développement puisse faire dans cet environnement est de défendre des preuves tangibles ». Et où trouvons-nous des preuves tangibles? Si nous entendons par là la validité interne – c’est-à-dire si l’effet que nous prétendons avoir vu est effectivement causé par une politique particulière dans un contexte particulier – les économétriciens appliqués de la « révolution de la crédibilité » du travail dans les années 1980 et 1990 ont fourni une réponse. Soit profiter de la variation naturelle avec des propriétés statistiques utiles, comme la fameuse discontinuité de régression ou bien randomiser un traitement comme une étude médicale. L’idée ici est que les hypothèses nécessaires pour interpréter un «effet de traitement» sont souvent moins exigeantes que celles nécessaires pour interpréter le paramètre estimé d’un modèle économique, donc plus susceptibles d’être «réelles». Le problème du développement est que la plupart de nos préoccupations ne peuvent pas être randomisées. Comment devons-nous, par exemple, déterminer aléatoirement si un pays adopte ou non une industrialisation de substitution des importations, ou randomiser la taille des exploitations dans le cadre de la réforme agraire – et à une échelle suffisamment grande pour permettre une inférence statistique? Ce que Banerjee, Duflo et Kremer ont remarqué, c’est qu’une grande partie de ce que font les agences de développement dans la pratique n’a rien à voir avec ces interventions à grande échelle. Le travail de développement au quotidien consiste à s’assurer que les enseignants se présentent au travail, que les vaccins sont distribués et pris par les enfants, que la corruption n’empêche pas la création de nouvelles entreprises, etc. En décomposant le travail de développement à l’échelle macro à des évaluations de développement à l’échelle micro, nous pouvons au moins dire quelque chose de crédible sur ce qui fonctionne dans ces pièces de petite taille. Le Sourcebook de la Banque mondiale ne devrait plus donner une liste des programmes recommandés, basés sur l’ondulation manuelle. Au contraire, si nous devons dépenser 100 millions de dollars pour envoyer des ordinateurs à des écoles dans un pays en développement, nous devrions au moins être en mesure de dire quand nous avons dépensé cinq millions pour un pilote, nous avons conçu le pilote de manière à apprendre que les ordinateurs dans ce contexte particulier conduit à une baisse de 12% du taux d’abandon, et donc à un retour sur investissement de 34 à 62% selon les estimations standard du lien entre capital humain et productivité ». L’approche expérimentale Comment exécuter ces expériences? Comment devrions-nous les mettre en place? Qui pouvons-nous obtenir pour les payer? Comment traitons-nous le «biais de pilotage», où l’ONG initiale avec laquelle nous pilotons est plus capable que le gouvernement auquel nous nous attendons d’agir sur la base des preuves apprises dans la première étude? Comment gérer les retombées des expériences randomisées, économétriquement? Banerjee, Duflo et Kremer ont non seulement dirigé certaines des premières expériences célèbres, mais ils ont également créé la première institution universitaire pour mener ces expériences – J-PAL au MIT – et ont également écrit certains des guides pratiques les plus connus pour les expériences de développement ( par exemple Duflo et al.2007). Il n’est pas exagéré de dire que le prix Nobel a été attribué non seulement pour le travail direct des lauréats, mais aussi pour les contributions collectives du domaine qu’ils ont construit. Néanmoins, bon nombre des expériences écrites directement par les trois gagnants sont maintenant canoniques. Commençons par l’article de Michael Kremer sur le déparasitage avec Ted Miguel (Miguel et Kremer 2004). Tout le monde a convenu que le traitement des enfants infectés par des ankylostomes présente de grands avantages pour la santé des enfants eux-mêmes. Mais comme les vers se propagent par l’utilisation des toilettes à l’extérieur et d’autres mauvaises pratiques d’hygiène, un enfant infecté peut également nuire aux enfants à proximité en propageant la maladie. Kremer et Miguel soupçonnaient qu’une des raisons pour lesquelles la fréquentation scolaire est si faible dans certains pays en développement est à cause du fardeau de la maladie, et donc que la réduction des infections chez un enfant profite à l’ensemble de la communauté, et aux voisins également, en réduisant l’infection globale. En randomisant le déparasitage en masse dans les écoles et en mesurant la fréquentation scolaire à la fois dans les écoles focales et dans les écoles voisines, ils ont constaté que les villages jusqu’à 4 km de distance avaient une fréquentation scolaire plus élevée (4 km plutôt 6 km dans le document d’origine en raison d’une correction d’une erreur – Clemens et Sandefur 2015 – dans l’analyse). Notez la bonne économie ici: un passage de la vermifugation individuelle à l’école aide à identifier les retombées dans les écoles, et une certaine attention est accordée à la gestion du problème économétrique spatial selon lequel la densité des écoles voisines est égale à la densité de la population voisine égale les taux d’infection de base différentiels dans ces écoles. Une année supplémentaire de fréquentation scolaire pourrait donc être «achetée» par un donateur pour 3,50 $, beaucoup moins cher que d’autres interventions telles que des programmes de manuels ou des enseignants supplémentaires. Des organisations comme GiveWell (2018) classent toujours le déparasitage parmi les interventions éducatives les plus rentables au monde. En termes d’impact à court terme, il s’agit certainement de l’un des éléments les plus importants de l’économie appliquée du 21e siècle. Les lauréats ont également utilisé une conception expérimentale pour apprendre que certains programmes auparavant très appréciés ne sont pas aussi importants pour le développement que vous ne le pensez. Banerjee et al. (2015) ont étudié le déploiement de la microfinance à Hyderabad, en randomisant les quartiers qui avaient accès à un important microcrédit de première génération. Ces programmes sont généralement des prêts à intérêt élevé axés sur les femmes et à responsabilité conjointe, à l’instar de la Grameen Bank, lauréate du prix Nobel de la paix. Environ 2 800 ménages de la ville ont été initialement interrogés sur leurs caractéristiques familiales, leur comportement de prêt, leur consommation et leur esprit d’entreprise; puis des suivis ont été effectués un an après le déploiement de la microfinance; puis trois ans plus tard. Alors que les femmes dans les zones traitées étaient 8,8 points de pourcentage plus susceptibles de prendre un microcrédit et que les entrepreneurs existants augmentent en fait les dépenses de leur entreprise, il n’y a pas d’impact à long terme sur l’éducation, la santé ou la probabilité que les femmes prennent des décisions familiales importantes, pas plus que cela rend les entreprises plus rentables. Autrement dit, les contraintes de crédit, du moins dans les quartiers pauvres d’Hyderabad, ne semblent pas être le principal obstacle au développement. Cela n’est peut-être pas très surprenant, car les entreprises à productivité plus élevée en Inde dans les années 2000 avaient déjà accès à des marchés du crédit raisonnablement bien développés, et ces entreprises sont sûrement le principal moteur du revenu national (travaux de suivi – Banerjee et al.2019 – ne voit certains avantages pour les très grands talents, les entrepreneurs très pauvres, mais le résultat clé à long terme reste). Réalisons à quel point ce document est sauvage: un prix Nobel de la paix a été décerné pour une forme de prêt qui n’avait pas vraiment été rigoureusement analysée. Cette forme de prêt n’existait effectivement pas dans les pays riches au moment de leur développement, elle n’est donc pas une condition nécessaire à la croissance. Pourtant, d’énormes sommes d’argent sont allées dans une structure financière quelque peu étrange parce que les donateurs étaient néanmoins convaincus, sur la base de preuves très fragiles, que le microcrédit était essentiel. Critiques des essais contrôlés randomisés En remplaçant les conjectures par des preuves et en montrant que les essais contrôlés randomisés (ECR) peuvent effectivement être menés dans de nombreux paramètres de développement importants, la réforme du développement économique par les lauréats a été incontestablement positive. Ou bien? Avant de revenir aux aspects (vraiment!) Positifs du programme de recherche de Banerjee, Duflo et Kremer, nous devons nous attaquer aux critiques de ce programme et de son influence. Parce que si Banerjee, Duflo et Kremer sont incontestablement les leaders du domaine du développement et les chercheurs les plus influents des jeunes économistes travaillant dans ce domaine, la prééminence de la méthode RCT a conduit à des débats virulents au sein de l’économie. Les donateurs adorent les ECR, car ils aident à sélectionner les bons projets. Les journalistes adorent les ECR, car ils sont simples à expliquer (Wired 2013, dans un exemple typique de cette hyperbole: mais dans le domaine du comportement humain, tout comme dans le domaine de la médecine, il n’y a pas de meilleure façon de mieux comprendre que de comparer les effet d’une intervention ayant pour effet de ne rien faire du tout. C’est-à-dire: vous avez besoin d’un essai contrôlé randomisé. « ) Mais bien que les ECR soient utiles, comme nous l’avons vu, ils ne sont en aucun cas un » étalon-or « par rapport à d’autres formes de comprendre le développement économique. Les critiques sont triples. Premièrement, bien que la méthode des essais aléatoires soit idéale pour l’impact ou l’évaluation de programme, elle n’est pas idéale pour comprendre comment des réplications similaires mais pas exactes fonctionneront dans différents contextes. C’est-à-dire que les essais aléatoires n’ont aucune prétention spécifique à la validité externe, et sont en effet pires que les autres méthodes à ce titre. Deuxièmement, le développement est bien plus qu’une simple évaluation de programme, et la raison pour laquelle de vrais pays s’enrichissent n’a essentiellement rien à voir avec les types de politiques étudiées dans les articles dont nous avons discuté ci-dessus: « l’économiste comme plombier » popularisé par Duflo (2017), qui diagnostique rigoureusement les petits problèmes et propose des solutions, est un travail important, mais pas aussi important que l’ingénieur qui invente et installe la plomberie en premier lieu. Troisièmement, même si nous ne nous soucions que de la validité interne et ne nous soucions que de la validité interne de certains effets qui peuvent en principe être étudiés expérimentalement, la conception expérimentale optimale n’est généralement pas un ECR. Abordons ces questions tour à tour. Le problème de validité externe est souvent considéré comme étant lié à l’échelle: les ONG partenaires bien gérées sont tout simplement meilleures dans la mise en œuvre d’une politique donnée que, par exemple, un gouvernement, de sorte que le bénéfice des interventions à plus grande échelle peut être beaucoup plus faible que celui identifié par une expérience. Nous appelons cela «biais de pilotage», mais ce n’est pas vraiment le problème principal. Le problème principal est que la cartographie d’un environnement ou d’une fois à l’autre dépend de nombreux facteurs et, par définition, l’expérience ne peut pas reproduire ces facteurs. Une intervention sur le marché du travail dans un pays à fort taux de chômage ne peut pas renseigner de manière interne valable sur un pays à faible taux de chômage, ou un pays avec différentes options extérieures pour les travailleurs urbains, ou un pays avec un autre filet de sécurité sociale ou des traditions culturelles sur le partage des revenus au sein des familles. Pire encore, la cartographie d’un équilibre partiel à un monde d’équilibre général n’est pas du tout évidente, et les expériences ne renseignent pas sur la cartographie. Donner des transferts en espèces à certains villageois peut les améliorer, mais donner des transferts en espèces à tous les villageois peut entraîner une augmentation des prix des terres, une augmentation de l’extraction des rentes par des gouvernements corrompus ou provoquer toutes sortes d’autres changements dans les prix relatifs. Vous pouvez voir ce numéro dans le résumé scientifique du Nobel de cette année (Académie royale suédoise des sciences 2019). Littéralement, la justification introductive des ECR est que, pour ne donner que quelques exemples, la théorie ne peut pas nous dire si l’emploi temporaire d’enseignants contractuels supplémentaires avec une possibilité de réemploi est un moyen plus rentable d’améliorer la qualité de l’éducation que de réduire la classe tailles. Elle ne peut pas non plus nous dire si les programmes de microfinance stimulent efficacement l’entrepreneuriat chez les pauvres. Cela ne révèle pas non plus dans quelle mesure les produits de santé subventionnés augmenteront l’investissement des pauvres dans leur propre santé. » La théorie ne peut pas nous donner les réponses à ces questions, mais un ECR valide en interne le peut? Le salaire de l’enseignant contractuel par rapport à celui des enseignants plus réguliers et donc des classes plus petites est-il important? Il importe certainement de savoir à quel point ces enseignants contractuels sont bien formés? Il importe certainement quelles sont les incitations à l’investissement dans le capital humain par les étudiants dans le lieu donné? En d’autres termes: exécutez littéralement l’expérience que vous souhaitez exécuter sur cette question dans, disons, la Zambie rurale en 4e année en 2019. Ensuite, prédisez le rapport coûts-avantages d’avoir des enseignants contractuels supplémentaires par rapport à des enseignants plus réguliers au Bihar au lycée en 2039. Qui pourrait penser qu’il existe un lien? En fait, soyons plus précis: qui penserait qu’il existe un lien entre ce que vous avez appris en Zambie et ce qui se passera au Bihar qui n’est pas principalement théorique? N’ayant effectué aucun ECR, je peux vous dire que si les enseignants contractuels sont beaucoup moins chers par unité de capital humain, nous devrions en utiliser davantage. Je peux vous dire que si les élèves parlent deux langues différentes, il y a un plus grand avantage à avoir un assistant enseignant à traduire. Je peux vous dire que si le gouvernement ou un autre mandant a la capacité d’annuler des incitations extérieures avec un contrat parallèle, et par conséquent n’est pas engagé dans le mécanisme, les mécanismes dynamiques ne fonctionneront pas aussi bien que prévu. Ces types d’énoncés sont théoriques: de bons effets de substitution à l’ancienne en raison des prix relatifs, ou des problèmes de fonction de production a priori, ou la conception de mécanismes de base. Maintenant, le problème de la validité externe est un problème qui se lie à tout type d’étude. Les essais randomisés, les études observationnelles, la théorie et les modèles structurels doivent tous traiter de la cartographie du paramètre A au paramètre B. La différence avec les ECR est que, bien que la randomisation soit un outil statistique puissant pour comprendre un effet du traitement dans le paramètre A, elle n’a aucun avantage particulier pour comprendre les «paramètres profonds» ou mécanismes qui vont de A à B. Les effets de Duhem-Quine signifient que les modèles avec plus de structure sont généralement moins susceptibles d’être valides en interne – si les hypothèses auxiliaires sont terriblement trompeuses, nous avons peut-être appris très peu. Cependant, ils sont plus susceptibles d’être valides à l’extérieur, car la cartographie logique implicite A à B, et les données empiriques pertinentes nécessaires pour effectuer la cartographie, ont été établies et rassemblées. La simple réalisation de nombreuses expériences dans de nombreux contextes ne résout pas ce problème: comment savez-vous que les paramètres que vous avez choisis ont eux-mêmes été randomisés, ou que vous stratifiez sur l’hétérogénéité qui importe pour la validité externe? Par exemple, pour répondre à la question de l’organisation industrielle, les entreprises, en général, amélioreraient-elles les bénéfices en abaissant ou en augmentant leurs prix? », Il ne serait pas utile de randomiser les variations de prix individuelles et de mesurer le profit la semaine suivante! Et si nos entreprises partenaires dans le RCT se trouvaient être celles qui évaluent la partie inélastique de la courbe de demande, nous ne voudrions certainement pas rédiger un document suggérant que les entreprises en général amélioreront leurs bénéfices en augmentant les prix! Même si la validité externe n’est pas une préoccupation, nous pouvons nous inquiéter des distorsions dans les questions sur lesquelles les chercheurs se concentrent. Il est impossible de répondre à certaines des questions importantes du développement avec les ECR. Tous ceux qui travaillent dans le développement ont entendu cette critique. Mais ce n’est pas parce qu’une critique est souvent répétée qu’elle est fausse. Comme le soutient Lant Pritchett (Manik 2018), le développement national est un processus social impliquant les marchés, les institutions, la politique et les organisations. Les ECR se sont concentrés, selon lui, sur des sujets qui représentent à peu près zéro de la variation observée dans les résultats du développement humain ». Cela ne veut pas dire que les ECR n’étudient pas les questions utiles! Améliorer la fonction des écoles du monde en développement, comprendre pourquoi les moustiquaires contre le paludisme ne sont pas utilisées, étudier comment réintégrer les combattants de la guerre civile: ce ne sont pas des problèmes mineurs, et il est bon que des gens comme les prix Nobel de cette année et leurs partisans fournissent des preuves solides sur ces sujets. La question est d’équilibre. Sommes-nous, comme les économistes ont coutume de le faire, simplement à la recherche de clés sous le feu des projecteurs lorsque nous concentrons notre attention sur des questions qui se prêtent à une étude randomisée? L’accent mis sur la validité interne a-t-il détourné l’effort de sujets qui sont beaucoup plus fondamentaux pour la richesse des nations? Mais bien. Considérons que notre question d’intérêt peut être étudiée de façon aléatoire. Et supposons que nous ne nous attendons pas à ce que les biais de pilotage ou autres problèmes de validité externe soient de premier ordre. Nous avons toujours un problème: même sur la validité interne, les ECR ne sont pas parfaits. Ils ne sont certainement pas un «étalon-or», et les économétriciens qui repoussent ce cadrage ont de bonnes raisons de le faire. Deux problèmes principaux se posent. Premièrement, pour prédire ce qui se passera si j’impose une politique, je crains que ce que j’ai appris dans le passé soit biaisé (par exemple, les personnes observées qui utilisent les subventions à la scolarité sont plus diligentes que celles qui iraient à l’école si nous faisions ces subventions sont universelles). Mais je suis également préoccupé par l’inférence statistique: avec de petits échantillons, même une estimation non biaisée ne prédira pas très bien. Banerjee lui-même, aux côtés d’un groupe de théoriciens, a étudié la conception expérimentale optimale pour un chercheur dans l’espoir de persuader un auditoire aux priorités diverses de ce qui fonctionne. Lorsque la taille de l’échantillon est faible, l’étude optimale est déterministe et non randomisée (Banerjee et al. 2017b). Des économétriciens comme Max Kasy (2016) ont montré que puisque la randomisation génère toujours moins d’équilibre covariable que l’affectation déterministe des traitements, vous ne voulez pas randomiser précisément le traitement même dans un cadre d’ECR classique. Ces deux articles ne parlent pas d’études observationnelles versus randomisées versus d’études structurelles, mais ils représentent néanmoins l’idée plus large: nous nous soucions de la perte attendue lorsque nous généralisons, et cette perte dépend de plus que d’avoir simplement une étude initiale impartiale. Pour réitérer, les essais randomisés ont tendance à avoir de très petits échantillons par rapport aux études observationnelles. Lorsque cela est combiné à un fort « effet de levier » des observations aberrantes lorsque plusieurs bras de traitement sont évalués, en particulier pour les effets hétérogènes, les essais randomisés prédisent souvent mal hors échantillon même lorsqu’ils sont non biaisés (voir Alwyn Young 2018 sur ce point). Les études observationnelles permettent des échantillons de plus grande taille et, par conséquent, prédisent souvent mieux même lorsqu’elles sont biaisées. Les hypothèses théoriques d’un modèle structurel permettent d’estimer les paramètres encore plus précisément, car nous utilisons la théorie a priori pour restreindre efficacement la nature des effets économiques. Nous avons jusqu’à présent supposé que l’essai randomisé était non biaisé, mais cela est également souvent suspect. Même si j’attribue un traitement au hasard, je n’ai pas nécessairement réparti les retombées de façon équilibrée, ni empêché les agents non traités de rééquilibrer leurs efforts ou leurs ressources. Un étudiant au doctorat à l’Université de Toronto, Carlos Inoue (2019), a examiné l’effet de l’attribution aléatoire d’une nouvelle intervention coronarienne dans des hôpitaux brésiliens. Suite à l’arrivée de cette technologie, les bons médecins ont déménagé dans les hôpitaux avec la technologie «randomisée». L’effet estimé ne correspond donc en rien à ce qui aurait été constaté si tous les hôpitaux avaient adopté l’intervention. Ce problème peut être déclaré simplement: la randomisation du traitement ne maintient pas dans la pratique toutes les covariables pertinentes, et si votre réponse est simplement «un contrôle pour les covariables qui vous inquiètent», alors nous revenons à l’ancien cadre d’études observationnelles où nous avons besoin d’un des arguments a priori sur ce que sont ces covariables si l’on veut parler des effets d’une politique. Théorie et valeur des expériences L’ironie est que Banerjee, Duflo et Kremer sont souvent très prudents dans la façon dont ils motivent leur travail avec la théorie microéconomique traditionnelle. Ils font rarement des déclarations grandioses de validité externe quand rien de tel ne peut être démontré par leur expérience, comme l’a expliqué Oriana Bandiera (2019). Kremer est un théoricien des as à part entière, Banerjee s’appuie souvent sur la théorie complexe des décisions et des jeux (Banerjee et al.2016), en particulier dans ses premiers travaux. Et personne ne peut lire le soin avec lequel Duflo traite les questions de théorie et de validité externe et penser qu’elle ne fait que piquer (Banerjee et Duflo 2005, Duflo 2006). La plupart des plaintes concernant leurs partisans «randomistes» ne s’appliquent pas pleinement au travail des lauréats eux-mêmes. Et aucune des critiques ci-dessus ne doit être interprétée comme signifiant que les expériences ne peuvent pas être incroyablement utiles au développement. En effet, la preuve du pudding est dans la dégustation: certaines des interventions à petite échelle de Banerjee, Duflo et Kremer ont été amplifiées avec succès! (Banerjee et al. 2017a) Pour faire une analogie avec une entreprise, considérez un directeur d’usine intéressé à améliorer la productivité. Elle pouvait lire des livres sur la recherche opérationnelle et essayer de mettre en œuvre des idées, mais il est sûrement également utile de jouer avec des expériences au sein de son usine. Elle apprendra peut-être que ce ne sont pas les incitations mais le manque d’informations qui sont la principale raison pour laquelle les travailleurs appliquent, par exemple, des charnières de porte de voiture de manière incorrecte. Elle peut alors refaire la formation et trouver moins d’erreurs dans les voitures produites à l’usine au cours de la prochaine année. Ces preuves – non seulement l’effet du traitement, mais aussi la justification – peuvent ensuite être apportées à d’autres usines de la même entreprise. Tout à fait raisonnable. En effet, ne trouverions-nous pas insensé pour un manager d’essayer les choses et d’apporter des modifications mineures en marge, avant de mettre en œuvre un énorme changement d’incitations ou de formation? Et bien sûr, il en va de même, ou devrait l’être, lorsque la Banque mondiale, le DFID ou l’USAID dépensent des tonnes d’argent pour tenter de résoudre un problème de développement. Sur ce point, que penserait même un sceptique qu’une expérience de développement peut faire? Premièrement, il est généralement meilleur que d’autres méthodes d’identifier les effets de traitement valides en interne, bien que toujours soumis aux mises en garde ci-dessus. Deuxièmement, il peut affiner les interventions le long des marges où la théorie donne peu d’indications. Par exemple, les gens ne prennent-ils pas de médicaments contre le SIDA parce qu’ils ne croient pas qu’ils fonctionnent, parce qu’ils n’ont pas d’argent, ou parce qu’ils veulent continuer à avoir des relations sexuelles et personne ne dormira avec eux s’ils sont vus en train de ramasser des antirétroviraux? Ma collègue Laura Derksen a soupçonné que les gens ignorent souvent que les antirétroviraux empêchent la transmission.Par conséquent, dans les endroits où le taux de VIH est élevé, il peut être plus sûr de dormir avec quelqu’un qui prend des antirétroviraux que la population en général (Derksen et van Oosterhout 2019). Elle montre que les interventions d’information informant les villageois de cette propriété d’antirétroviraux augmentent significativement la prise de médicaments. Nous apprenons de son étude qu’il peut être important dans le cas de la prévention du SIDA de corriger cet ensemble particulier de croyances. Bien entendu, la théorie nous en dit peu sur l’étendue de ces croyances erronées, et donc sur l’ampleur de ce changement d’information sur la consommation de drogues. Troisièmement, les expériences nous permettent d’étudier des politiques que personne n’a encore mises en œuvre. Ignorant le problème de l’identification statistique dans les études d’observation, il peut y avoir de nombreuses politiques que nous souhaitons mettre en œuvre qui sont totalement différentes en nature de celles vues dans le passé. Les expériences d’impôts négatifs sur le revenu des années 1970 en sont un exemple classique (Hausman et Wise 1976). Les expériences donnent aux chercheurs plus de contrôle. Ce contrôle supplémentaire est bien sûr mis en balance avec le fait que nous devrions nous attendre à ce que des interventions super significatives se soient déjà produites et que nous devions peut-être effectuer des expériences à une échelle relativement faible en raison du coût. Nous ne devons pas être trop bornés ici. Il existe maintenant des articles de développement expérimental sur des sujets considérés comme hors des limites de l’expérience. Kevin Donovan à Yale a randomisé l’emplacement des routes et des ponts reliant les villages éloignés aux centres urbains (Brooks et Donovan 2018). Qu’est-ce qui pourrait être «moins accessible» à la randomisation que la construction littérale d’un réseau routier et de ponts? Alors, où en sommes-nous? Il est incontestable que beaucoup de travaux de développement dans la pratique étaient basés sur les preuves les plus fragiles. Il est incontestable que les armées Banerjee, Duflo et Kremer ont envoyé dans le monde via J-PAL et des institutions similaires ont apporté beaucoup plus de rigueur à la compréhension de l’évaluation des programmes. Certaines de ces interventions améliorent désormais littéralement la vie de millions de personnes grâce à une politique claire, bien identifiée et non évidente. C’est une réalisation incroyable! Et il y a quelque chose de sympathique dans le désir de la tour d’ivoire d’entrer dans les mauvaises herbes de la politique quotidienne. Michael Kremer sur ce point: Le mouvement moderne pour les ECR en économie du développement… concerne l’innovation, ainsi que l’évaluation. C’est un processus dynamique d’apprentissage d’un contexte à travers un travail minutieux sur le terrain, l’essai de différentes approches, la collecte de bonnes données avec une bonne identification des causes, la découverte que les résultats ne correspondent pas aux idées théoriques préconçues, la recherche d’une meilleure compréhension théorique qui correspond aux faits sur le terrain, et développer de nouvelles idées et approches basées sur la théorie, puis tester les nouvelles approches. » (Evans 2017). Aucune objection ici. Cela dit, nous ne pouvons ignorer qu’il y a des gens sérieux qui s’opposent sérieusement au style de développement J-PAL. Angus Deaton, qui a remporté le prix Nobel il y a seulement quatre ans, écrit ce qui suit (Bryan 2015), conformément à notre discussion ci-dessus: les essais contrôlés randomisés ne peuvent pas automatiquement l’emporter sur d’autres preuves, ils n’occupent aucune place spéciale dans une hiérarchie de preuves, il n’est pas non plus logique de les qualifier de «durs» alors que d’autres méthodes sont «douces»… L’analyse des projets doit être recentrée vers l’étude de mécanismes potentiellement généralisables qui expliquent pourquoi et dans quels contextes les projets peuvent fonctionner. »