La bio-informatique : une collaboration unique crée une capacité scientifique hors du commun

- Ottawa, Ontario

Soutenus financièrement par l'Initiative de recherche et développement en génomique (IRDG) du gouvernement canadien, des dizaines de chercheurs de 7 ministères et organismes fédéraux se sont donné la main pour recueillir des milliers d'échantillons de sol et d'eau un peu partout au pays, puis en analyser la métagénomique. Tel est le projet d'Écobiomique, une aventure de 5 ans entreprise par plusieurs ministères pour faire progresser les mesures environnementales d'évaluation, de surveillance et de remédiation en recourant à la métagénomique pour mieux déceler et caractériser les changements survenus au niveau de la biodiversité des unicellulaires et des invertébrés.

Un niveau plus haut

À l'inverse des technologies antérieures — qui établissaient la séquence génétique d'un organisme à la fois —, la métagénomique restitue les séquences d'ADN de tous les organismes présents dans un échantillon en une seule épreuve. Grâce à elle, les chercheurs constatent, pour la première fois, l'incroyable biodiversité qui caractérise les unicellulaires et les invertébrés : un gramme de sol peut abriter des microorganismes par millions.

L'analyse métagénomique de ce gramme de sol fournira des données sur la génétique de milliers d'espèces microscopiques. Multipliez cela par les milliers d'échantillons recueillis, ajoutez-y les données inédites issues de l'étude et de la manipulation des données originales, et la nécessité d'outils de bio-informatique puissants saute immédiatement aux yeux : la masse de données produite se mesure en pétaoctets, c'est-à-dire en millions de millions de gigaoctets!

Au sommet de la liste des priorités

Selon James Macklin, chercheur à Agriculture et Agroalimentaire Canada (AAC) et codirecteur du projet d'Écobiomique, pour qu'un tel projet aboutisse, on devait absolument gérer des mégadonnées. « Si l'on ne peut les stocker nulle part, si l'on ne dispose pas des logiciels pour les analyser et si l'on ne met pas en place les réseaux étendus qui en permettront l'échange entre ministères, nous ne pourrions exploiter toutes les connaissances qui se dissimulent dans des données aussi massives », prévient-il.

Tout faire fonctionner

La puissance de calcul requise pour cela émane de Services partagés Canada et de son centre de calcul informatique de pointe situé près de Montréal. S'appuyant sur la plateforme de bio-informatique élaborée au départ par AAC dans le cadre du projet de l'IRDG sur les espèces envahissantes et justiciables de quarantaine, Glen Newton et Iyad Kandalaft, du Centre d'excellence en informatique biologique du même ministère, ont veillé à l'assemblage des rouages du système — y compris les algorithmes au moyen desquels ceux qui utilisent la plateforme peuvent manipuler les données de diverses façons. Dorénavant, les spécialistes des 7 ministères et organismes qui participent au projet d'Écobiomique peuvent s'y connecter pour analyser leurs données.

Établir une norme

Pour qu'on l'exploite de la meilleure manière qui soit — en vue d'éclairer les futures évaluations environnementales ou d'étayer les recommandations sur des pratiques agricoles plus durables et plus productives, par exemple —, la masse de données doit être d'une fiabilité à toute épreuve. En ce qui concerne le projet d'Écobiomique, ceci signifie que les chercheurs participants utilisent tous des méthodes et des protocoles identiques quand ils prélèvent et analysent les échantillons, puis rapportent leurs constatations avec la même terminologie scientifique.

« Sans aucune approche uniforme, les résultats des recherches réalisées par différents ministères, à différents endroits du pays et à des moments différents, ne pourront faire l'objet d'une comparaison valable », martèle M.  Macklin. « Heureusement, la collaboration que suscite l'IRDG et la vision des chercheurs qui participent au projet ont permis l'élaboration et la mise en œuvre d'une approche normalisée qui rend les données aussi exploitables et fiables que possible. »

Un patrimoine scientifique

Bien que le projet d'Écobiomique doive se terminer en mars 2021, les chercheurs du gouvernement canadien et d'ailleurs exploiteront de nombreuses années encore les capacités en bio-informatique auxquelles il a donné naissance ainsi que les données qui ont été accumulées.

« Il s'agit d'une formidable ressource », affirme M. Macklin. « Et avec les protocoles normalisés en place, nous préserverons l'intégrité du système à mesure que de nouveaux projets, de nature similaire, enrichiront la plateforme avec des données neuves. »

Une réalisation remarquable

Tom Edge, qui codirigeait le projet d'Écobiomique au départ, à Environnement et Changement climatique Canada (ECCC), estime que l'on peut difficilement surestimer la valeur de cette approche transgouvernementale.

« Sans une collaboration de ce genre, les ministères se démèneraient chacun de leur côté pour dénicher les ressources nécessaires au stockage et à la gestion de données aussi massives, explique-t-il. S'il n'y avait aucun protocole standard, on pourrait difficilement comparer les informations sur la qualité de l'eau et la vitalité du sol venant de telle ou telle étude. Les données seraient cloisonnées dans les ministères, au lieu d'être accessibles à l'ensemble des chercheurs du gouvernement fédéral. »

Photo : Services partagés Canada

Maintenant qu'il enseigne la biologie à l'Université McMaster de Hamilton, M. Edge croit que ce degré de coopération interministérielle, observé pour la première fois dans le cadre des projets à priorités partagées de l'IRDG, est une réussite typiquement canadienne. « Je me suis entretenu à ce sujet avec des collègues d'autres pays et leur visage ne manque pas de s'éclairer d'un sourire mi-figue mi-raisin quand je leur demande s'ils pourraient imaginer une telle collaboration entre ministères et une telle entente au sein du gouvernement dans leur pays. »

La plateforme de bio-informatique du projet est hébergée sur des superordinateurs comme celui photographié ci-dessus, au centre de calcul informatique de pointe de Services partagés Canada, près de Montréal, où se retrouvent quelques-uns des ordinateurs les plus rapides de la planète.