Bibliothèque des micro-organismes alimentaires

Séquençage du génome entier (WGS : Whole Genome Sequencing) et métagénomique

par Joao Andre CARRIÇO

mars 12, 2021

Un panorama complet du séquençage du génome entier, de la métagénomique, des méthodes de séquençage et des applications

Voir aussi :

Qu'est-ce qu'une séquence génétique ?

Qu'est-ce que le séquençage du génome entier (SGE) ?

En quoi consiste la méthode Sanger de séquençage du génome entier ?

Comment fonctionne le séquençage du génome entier ?

Qu'est-ce que le séquençage shotgun (séquençage aléatoire) ?

Quelles sont les applications du séquençage génétique ?

Qu'est-ce que la métagénomique ?

Qu'est-ce qu'une séquence génétique ?

Toutes les informations nécessaires à la croissance, à la reproduction et à la maturation d'un être vivant sont encodées dans des séquences de 4 blocs de construction (appelés nucléotides et communément abrégés en C, G, A et T) polymérisés en longues chaînes contenues dans des cellules appelées acide désoxyribonucléique (ADN). L'ADN se compose de deux chaînes parallèles et les nucléotides le long des chaînes sont souvent appelés paires de bases. Les séquences codantes dans l'ADN sont appelées gènes qui contiennent des informations pour différentes fonctions biologiques, telles que des enzymes ou d'autres protéines. Les séquences non codantes agissent comme des régulateurs de synthèse, mais contiennent également des fonctions inconnues et encore à découvrir. À l'intérieur de la cellule, les milliards de paires de bases de chaînes nucléotidiques sont organisées en chromosomes constituant le génome d'un organisme particulier. Tout au long de la vie, lorsqu'un organisme a besoin de quelque chose, comme une protéine particulière, l'information contenue dans le gène correspondant est copiée dans un modèle distinct et mobile sous la forme d'un acide ribonucléique (ARN), que les cellules lisent pour fabriquer tout ce dont elles ont besoin.

Comprendre le lien entre ce qui est codé dans l'ADN d'un organisme, comme une souche spécifique de bactérie Salmonella, et les conséquences biologiques finales, telles que la résistance aux antibiotiques, apporte clairement beaucoup. De même, comme l'ADN détermine les traits physiques spécifiques, il a été reconnu que la connaissance de la séquence d'ADN peut parfois permettre de prédire ou de surmonter des troubles génétiques, comme la mucoviscidose, la dystrophie musculaire, etc. Cependant, l'obtention de ces informations est souvent difficile car elle repose sur le séquençage des éléments constitutifs de l'ADN.

Qu'est-ce que le séquençage du génome entier (SGE) ?

Le séquençage du génome entier consiste à mesurer l'ordre d'enchaînement de l'ensemble complet des nucléotides C, G, A et T du brin ADN d'un organisme spécifique à un moment donné. Le premier génome humain entier obtenu (d'une longueur d'environ 3 milliards de paires de bases) a été mesuré et documenté en rassemblant de nombreuses mesures distinctes provenant de différents individus. Le séquençage du génome entier d'un humain, y compris d'énormes séquences d'ADN non codant, est rare, principalement en raison de son coût élevé et du temps nécessaire. Cependant, un séquençage plus ciblé des parties de l'ADN des individus spécifiquement liées au risque de maladie ou à l'ascendance est désormais courant et constitue un outil performant utilisé pour la personnalisation des soins de santé et des produits pharmaceutiques. Cependant, le séquençage du génome entier est plus facile à réaliser pour des organismes moins complexes, comme les bactéries, et la base de connaissances reliant les informations génétiques à leur expression et à leur fonction biologique ne cesse ainsi de croître et de confirmer la valeur du séquençage génétique.

La méthode Sanger de séquençage du génome entier

La méthode Sanger de séquençage de l'ADN a été développée en 1977 et a toujours été la plus largement utilisée. Elle l'est encore aujourd'hui pour les méthodes de projets plus petits de séquençage ciblé. La clé du séquençage de Sanger repose sur deux principes scientifiques. Selon le premier, les fragments d'ADN peuvent être séparés précisément les uns des autres d'après leur longueur (en utilisant par exemple la séparation sur gel) ; il est possible de distinguer les différences de longueur de quelques nucléotides seulement dans certaines conditions. Par conséquent, si vous avez un mélange de milliers de fragments d'ADN de différentes longueurs dans une « soupe », la longueur de chacun de ces fragments peut être détectée séparément. Selon le second, il existe des nucléotides « marqueurs » modifiés C, G, A et T qui émettent des couleurs différentes et, une fois ajoutés à une chaîne d'ADN, empêchent tout autre nucléotide de se lier davantage.

Le procédé de séquençage de Sanger commence par le mélange d'un échantillon d'ADN à séquencer avec tous les ingrédients nécessaires pour que cet ADN se duplique ; en l'état, l'ADN se dupliquerait ensuite complètement plusieurs fois. Cependant, de petites quantités de nucléotides marqueurs C, G, A et T sont également ajoutées au mélange. Ils sont alors utilisés de manière aléatoire et provoquent l'arrêt des réplications d'ADN à chaque ajout. La « soupe » obtenue est un mélange de brins d'ADN de différentes longueurs, chacun terminé par un nucléotide marqueur fluorescent. Lorsque le mélange est séparé par chromatographie sur gel, chaque longueur est détectée une par une. La couleur du nucléotide marqueur est enregistrée en séquence, laquelle peut être lue et correspond à la séquence de l'ADN d'origine.

Avec la méthode de séquençage de Sanger, des fragments d'ADN comprenant jusqu'à environ mille paires de bases peuvent être séquencés en une seule expérience. Bien que ce nombre puisse sembler impressionnant, les génomes entiers contiennent de nombreuses mégapaires, voire des gigapaires de bases. Par exemple, le génome de la drosophile contient environ 137 000 000 paires de bases. Par conséquent, des techniques plus récentes ont été développées à partir de la méthode Sanger et permettent le séquençage plus rapide et plus économique de segments d'ADN plus longs, jusqu'à l'ensemble du génome.

Comment fonctionne le séquençage du génome entier ?

Les scientifiques des centres modernes de séquençage du génome entier s'appuient sur des principes similaires à ceux de la méthode de Sanger, mais utilisent les avantages de la microfluidique et de la bioinformatique de pointe pour fractionner le séquençage problématique d'un énorme génome en décomposant ce dernier en milliers de séquences d'ADN plus petites qui peuvent ensuite être réassemblées pour recomposer le génome complet ou presque complet.

Qu'est-ce que le séquençage shotgun (séquençage en aveugle) ?

Lorsqu'une molécule d'ADN est trop longue pour être séquencée en une seule fois, elle doit être découpée en de nombreux « morceaux », chacun individuellement répliqué et séquencé avec des zones qui se chevauchent, pour être ensuite réassemblée et créer l'image génétique globale. Bien qu'il soit possible de les effectuer manuellement, chaque étape de découpage, de réplication et de séquençage de l'ADN correspond à une étude complète de première génération, comme la méthode de Sanger ou de Maxam-Gilbert.

Le séquençage shotgun de nouvelle génération offre une solution ingénieuse de production et de gestion.

Les détails du procédé de séquençage lui-même varient selon la technologie commerciale, mais le séquençage par synthèse (SBS) est un thème commun. Avec le SBS, des puces microfluidiques sont utilisées pour lier des fragments d'ADN ; une fois qu'un fragment d'ADN est lié à un emplacement spécifique sur la puce, seuls des segments identiques d'ADN peuvent se lier à cet emplacement. Un cluster se forme ainsi à cet endroit, lequel est ensuite exposé aux ingrédients nécessaires à sa réplication, mais un seul nucléotide à la fois. Par exemple, si un cluster a une séquence GACA et que les nucléotides (G, A, T et C) sont déversés sur le cluster, alors au premier tour, seul le nucléotide G avec son marqueur serait capable de se lier aux fragments d'ADN du cluster. Tous les nucléotides libres ne se lieraient pas à ce cluster ADN et seraient emportés au rinçage. Dans la deuxième étape, le marqueur du nucléotide ajouté est lu en utilisant, par exemple, la couleur émise par le marqueur (via la microscopie à fluorescence). La troisième étape correspond à l'élimination du marqueur sur le nucléotide ajouté (G dans l'exemple) afin de préparer efficacement le brin à l'étape de synthèse suivante. Ce procédé est ainsi répété. Dans le deuxième cycle, le nucléotide A avec le marqueur est le seul capable de se lier au cluster, il est ensuite lu et privé de son marqueur en vue de la troisième étape. Chaque cycle est exécuté jusqu'à la conclusion du séquençage du fragment entier. Les différentes méthodologies SBS commercialisées se distinguent fortement et principalement par des différences de marquage et de lecture de ces marqueurs.

Le séquençage shogun produit une énorme quantité de données contenant les séquences de chaque petit fragment d'ADN coupé de manière aléatoire. Ces données doivent ensuite être traitées pour aligner au mieux les séquences chevauchantes apparaissant dans plus d'un fragment afin de reconstruire la molécule d'ADN parente. La reconstruction même est compliquée par les réalités de l'imperfection des mesures analytiques, des éventuelles erreurs de la synthèse de l'ADN et les motifs répétitifs de grandes régions d'ADN. Généralement, pour générer une reconstruction satisfaisante et réduire le taux d'erreur, la même région d'ADN sera séquencée jusqu'à 30 fois dans un génome eucaryote ou jusqu'à 100 fois dans un génome procaryote.

Quelles sont les applications du séquençage génétique ?

L'ADN contient tout le codage de la fonction biologique d'un organisme et se transmet d'une génération à l'autre. Pour cette raison, les tests ADN peuvent servir à établir un lien de paternité. De plus, le matériel génétique spécifique au sexe, comme l'ADN mitochondrial, est transmis de la mère à ses enfants et permet de suivre l'héritage maternel de nombreuses générations précédentes pour identifier l'ascendance commune entre les espèces en biologie évolutive. L'information génétique a également révolutionné la criminalistique : l'ADN d'une personne étant unique et présent dans toutes ses cellules, nous en laissons une trace dans toutes nos activités quotidiennes. Par conséquent, si l'ADN d'une personne est connu et qu'un échantillon d'ADN correspondant est trouvé sur les lieux d'un crime, la personne en question s'y est forcément rendue à un moment donné. Ce procédé est également connu sous le nom d'empreintes génétiques. Des techniques similaires peuvent être utilisées pour surveiller les souches bactériennes. Ces méthodes peuvent faire grandement progresser l'industrie de la sécurité et de la qualité des aliments car elles permettent de détecter les événements de transmission microbiologique au sein d'une usine et, à partir de ces informations, d'éviter les contaminations du produit final par des agents pathogènes ou des agents d'altération.

Ainsi, les données brutes obtenues par séquençage seront ensuite soumises à plusieurs outils d'analyses bioinformatiques pour produire soit une ébauche de génome, résultant de l'assemblage de ce gigantesque puzzle, soit une carte de variation par comparaison des millions de fragments à un génome connu pour trouver les régions variables. Ces deux approches peuvent être utilisées pour déduire les relations entre les souches bactériennes trouvées à un endroit donné de manière similaire au processus d'identification des empreintes digitales de l'ADN. Les ébauches de génomes peuvent également être utilisées pour trouver des gènes cibles ou des mutations d'intérêt avec une éventuelle expression phénotypique intéressante, comme la résistance aux antibiotiques ou aux biocides dans les génomes bactériens.

Qu'est-ce que la métagénomique ?

Les microorganismes sont omniprésents dans la vie et fournissent une relation symbiotique bénéfique avec des organismes plus importants, en complément des microbes spécifiques, infectiogènes et pathogènes. Le corps humain renferme un écosystème incroyablement complexe de différents microorganismes et l'état de ce microbiome a, preuve à l'appui, une incidence directe sur la santé humaine. Dans d'autres organismes ou dans des systèmes écologiques plus vastes, les microbiomes sont également reconnus comme des acteurs essentiels. Comprendre les identités et l'équilibre entre les différentes espèces d'un microbiome peut fournir des informations précieuses sur l'action de la communauté microbienne. Cependant, la mesure d'un microbiome à l'aide de méthodes de culture cellulaire traditionnelles est problématique car tous les microbes ne se développent pas favorablement, voire pas du tout, dans des conditions de culture cellulaire standard et compliquent, ou même empêchent, la constitution d'un tableau complet de l'ensemble de la communauté microbienne présente.

La métagénomique consiste en le séquençage de l'ADN de toute une communauté de microorganismes, par opposition au séquençage des microbes individuels. En utilisant des méthodes communes au séquençage du génome entier, un mélange d'ADN de différents microbes individuels peut être séquencé et ces informations utilisées pour reconstruire le profil d'espèce de toute la population du microbiome. En complément du profil d'espèce d'une population microbienne, la séquence génétique de chaque membre peut également être connue et comparée avec d'autres membres de la même espèce d'autres microbiomes pour comprendre comment ces microbes ont évolué ou se sont adaptés à leurs propres environnements.

La métagénomique a permis d'établir la relation entre les microbiomes et les systèmes plus importants, tels que le sol d'une ferme, et le rôle de ces microbiomes dans le cycle des nutriments, la suppression des maladies et la fixation de l'azote. Chez l'homme, la relation entre son microbiome intestinal et sa santé a été clairement établie, bien que les mécanismes eux-mêmes restent encore à l'étude.