Pourquoi rendre accessible les données brutes est important ? Un exemple

Les lecteurs de Retraction Watch ont certainement déjà lu avec intérêt ce retrait d’un article dans Science. Le papier est très loin de mes préoccupations, mais avait fait du bruit lors de sa parution en décembre 2014. En pratique, une discussion avec des homosexuels vous rendaient plus tolérant à l’homosexualité et au mariage des personnes du même sexe. Le titre était très explicite et ne pouvait qu’attirer l’œil: « When contact changes minds: An experiment on transmission of support for gay equality ». Il y a deux auteurs. Tout allait bien pour le premier auteur, thésard, qui voyait son travail couronné par un Science avec certainement un bon poste en perspective. Le papier était repris dans tous les journaux importants. La vie était belle.

Malheureusement, un groupe de chercheurs de Berkley a voulu faire le même genre de travail que celui publié. Ils racontent leur histoire, très scientifique, dans ce rapport qu’il faut absolument lire, mieux qu’un roman, c’est vrai. Les investigateurs se sont rendus compte que les données ne venaient pas de là où elle devaient venir. En fait le premier auteur a pris un jeu de données déjà connu. La société qui était sensé avoir fait le boulot n’a jamais conduit un tel travail, apparemment il n’avait même pas la méthodologie pour conduire une telle étude. Il a fait sa baseline avec ces données récupérées et il a rajouté du bruit pour générer les différentes étapes du suivi. Le problème est qu’il est impossible que deux jeux de données indépendants surtout en science sociale est une corrélation de 0,99, comme il est plus qu’improbable que les données de suivi ne soit que les valeurs de base avec un peu de bruit ajouté suivant une distribution normale. Ce travail de vérification a pu être réalisé car les données étaient accessibles. Les vérificateurs ont utilisé R et le code est d’ailleurs en ligne pour pouvoir si vous le voulez contrôler la vérification. Il semble que Mr LaCour a inventé beaucoup de données. Il a avoué à son mentor de PhD ses errements. De nouveaux détails sortent confirmant la création des données. Le deuxième auteur du papier a demandé le retrait de l’article, visible à la fin du rapport.

Cette histoire est triste car le message du papier était très beau, trop peut être. Il est terrible d’imaginer qu’une revue comme Science se soit laissé avoir, ceci pose encore une fois la question du peer reviewing. La bonne nouvelle, ou l’inquiétante pour les tricheurs, est la vitesse à laquelle la fraude a été découverte. Ceci n’est possible que si les données brutes sont accessibles. Il est clair que le mouvement va aller de plus en plus vers le dépôt obligatoire des données cliniques avant la publication, comme c’est le cas pour les données de génomique, ce qui permit de démasquer Potti. Je pense que ce mouvement est une bonne chose. Le dépôt du processus statistique est probablement aussi une bonne évolution. Je trouve remarquable le rapport des gens de Berkley avec le code de R qui permet de vérifier l’analyse, les qqplot sont terribles.

Cette aventure scientifique est un cas d’école, comme l’histoire des STAPs. Au moment, où certains aimeraient retomber dans l’obscur et le caché, ceci ne peut servir qu’aux tricheurs. Il faut de la transparence en science, aucun doute. Sinon, j’ai une pensée pour Michaël LaCour qui vient de passer du paradis en enfer. La pression de la publication, de la belle histoire font faire des choses déraisonnables. Il est dommage qu’aucun garde-fou ne l’ait protégé de la tentation de produire du faux.

 

Ce contenu a été publié dans Science, avec comme mot(s)-clé(s) , , , . Vous pouvez le mettre en favoris avec ce permalien.

2 réponses à Pourquoi rendre accessible les données brutes est important ? Un exemple

  1. docteurdu16 dit :

    Tout à fait.
    Mais LaCour est assez nul. Inventer des données cohérentes est une chose assez facile et assez répandue dans les essais cliniques. Quand je contrôlais des essais cliniques j’étais content que la matérialité du patient soit prouvée. C’était déjà pas mal.

  2. dsl dit :

    Comment on prouve la matérialité du patient ?

Laisser un commentaire