Le séquençage de votre ADN au moyen d'un dongle USB et un logiciel open source,

Dont la capacité à ne sélectionner que les sections pertinentes améliore massivement la vitesse du séquençage

Le 4 février 2021 à 12:43, par Stan Adkens

214PARTAGES

L’idée d’utiliser un nanopore pour séquencer l’ADN repose sur le fait qu’il peut être considéré comme une sonde locale que l’ADN serait forcé de traverser de manière séquentielle pour pouvoir être lu base par base. Des avancées ont été réalisées dans le domaine à travers des années. Mais les récentes percées dans le séquençage par nanopore, grâce aux développements de logiciels libres, ont permis de réduire considérablement le temps nécessaire au décodage d'un génome, ramenant à trois jours ou moins ce qui était auparavant un processus de 15 jours, d’après une nouvelle recherche publiée dans Nature Biotechnology.

À l’origine des dernières techniques, basées sur un logiciel open source baptisé UNCALLED, il y a le professeur Michael Schatz, professeur agrégé en informatique et en biologie à l’Université Johns Hopkins, distingué de Bloomberg. Dans un entretien avec Stack Overflow, Schatz a expliqué sa découverte qui accélère le décodage d'un génome, ce qu’il n'y a pas si longtemps pouvait prendre des années, selon le blog.

Professeur Michael Schatz

Un séquenceur à nanopore comprend un trou si minuscule qu'un seul brin d'ADN peut y passer à la fois. En faisant transiter le matériel génétique à travers ce pore, les bases A, T, G et C qui composent le génome humain seront révélés en séquence. « L'idée en est née il y a environ 30 ans, et la légende veut que le premier diagramme ait été dessiné sur une serviette de table », a expliqué Schatz. La question qui se pose est de savoir comment distinguer les quatre éléments constitutifs de l'ADN ?

En parlant de ses nouvelles techniques, le professeur a expliqué : « Il prend les mesures les plus exquises que l'on puisse imaginer, en mesurant les changements de courant associés à différents morceaux d'ADN », a-t-il dit. « Cela se produit au niveau des picoampères – un trillionième de la mesure d'un ampère – et nous pouvons obtenir ces mesures en temps réel ». Il y a cinq ans, l'équipement nécessaire à ces travaux aurait été limité à des installations de recherche sérieuses. Aujourd'hui, pour environ mille dollars, vous pouvez acheter un séquenceur à nanopore comme périphérique qui se connecte à n'importe quel ordinateur via USB.

Le séquençage est connu pour produire des données électriques très bruyantes, mais Schatz et son équipe ont développé une logique floue inspirée d'un modèle de Markov pour décoder chaque protéine en temps quasi réel. « Je veux dire, c'est fondamentalement sorti de Star Trek [un univers de science-fiction], n’est-ce pas ? », a dit Schatz lors de l’entretien. « Les nucléotides passent par ce minuscule trou, et nous mesurons le courant quatre mille fois par seconde ».

Le logiciel décode la séquence en temps réel pour qu'elle puisse être associée à différents marqueurs génétiques. Par exemple, on peut déterminer s'il s'agit d'une bactérie pathogène ou d'un gène associé au cancer. Plus important encore, vous pouvez ignorer les fragments qui ne sont pas utiles pour le moment, a expliqué Schatz.

Chaque morceau d'ADN qui passe par ce petit trou est une molécule chargée. Le logiciel permet à l'utilisateur d'inverser le voltage d'une molécule individuelle, ce qui a pour effet de l'éjecter hors du nanopore. C'est cette capacité à ne séquencer sélectivement que les sections pertinentes pour le travail à accomplir qui permet d'améliorer la vitesse de façon aussi massive. « Il y a un appel API pour choisir les molécules avec lesquelles vous voulez travailler », a expliqué Schatz. « C'est incroyable que cela soit possible ».

Un décodage qui repose sur une logique similaire à celle du traitement du langage naturel

Selon le professeur Schatz, chaque fragment d'ADN renvoie une lecture de tension basée sur ses nucléotides. Mais les résultats ne se présentent pas sous la forme d’un simple tableau, mais plutôt une correspondance en logique très floue. « Pour les données électriques, ce que vous pourriez vouloir, c'est que pour les nucléotides A, il y ait un courant particulier, pour les C, un courant différent, etc. », a-t-il dit . « Mais vous n'obtenez pas du tout cela ».

En effet, le courant électrique est en fait associé à plusieurs nucléotides à la fois, et environ six nucléotides sont les plus influents – chaque combinaison de ces six nucléotides ayant un décalage. À chaque décalage il y a cent séquences de nucléotides possibles. « Mais c'est dans cette combinaison de séquences qui se chevauchent que l'on peut espérer résoudre ce problème en un nucléotide particulier, car nous savons que les séquences doivent se chevaucher ».

Le décodage utilise une logique similaire à celle du traitement du langage naturel pour faire correspondre ce signal électrique bruyant à une séquence de nucléotides. Une fois la séquence de nucléotides déterminée, vous devez effectuer un traitement de texte pour décider d'où cette molécule provient dans le génome. « Une grande partie de cette technologie a été inventée autour des systèmes de stockage de bases de données il y a une trentaine d'années », a expliqué Schatz. « Il y a cette structure de données très puissante appelée la transformation Burrows-Wheeler qui est maintenant au cœur de la génomique ».

Si le séquenceur à nanopore est incroyablement bon marché, il nécessite une cartouche à usage unique, appelée cellule de flux, pour séquencer les molécules d'ADN. Le coût de ces dernières peut s'accumuler rapidement lorsqu'on essaie d'examiner de grandes séquences. « Ce que fait le logiciel, c'est qu'au lieu d'avoir à scanner l'ensemble du génome, nous pouvons être très pointilleux sur les molécules dans lesquelles nous allons réellement investir pour le séquençage », a expliqué Schatz. « Nous pouvons choisir en temps réel quelles molécules seront lues en entier et quelles molécules seront éjectées après environ une seconde de séquençage ».

Si vous voulez profiler tout le matériel génétique avec le séquençage par nanopore, ce serait un processus assez lent et coûteux. Toutes les molécules sont mélangées dans un tube à essai et vous les séquencez une par une, au fur et à mesure qu'elles sont extraites de cette collection au hasard. Cependant, le nouveau logiciel du laboratoire Schatz appelé UNCALLED, mené par le doctorant à l’Université Johns Hopkins Sam Kovaka, permet d'évaluer en temps quasi réel si une séquence vaut la peine d'être étudiée ou non. Ainsi, si vous cherchez à déterminer si une personne est porteuse d'une variante d'un gène connu pour être associé à un cancer héréditaire, comme le BRCA1, vous prélèverez un échantillon.

Pourquoi le logiciel de Schatz est-il open source ?

Schatz dit s’être lancé dans le monde de la génomique alors que l'industrie avait la réputation assez mauvaise d'être fermée et propriétaire. « Au tout début, il y a eu un effort pour faire beaucoup de brevets sur les gènes. Il y a eu quelques cas très médiatisés de gènes associés au cancer du sein, par exemple. Des efforts ont été faits pour breveter ces séquences et faire payer des sommes extraordinaires pour faire ce qui est maintenant une analyse très basique ».

Heureusement, dit Schatz, cette tendance s'est améliorée au cours des dernières années. « Il y a eu plusieurs vagues de technologies au cours des vingt dernières années, il y a donc un réel sentiment d'urgence. Même si tous ces séquenceurs ne font qu'écrire les séquences de nucléotides, chaque plateforme a des propriétés et des caractéristiques différentes et des erreurs qui lui sont associées. Il y a donc une véritable ruée pour développer des logiciels capables de surmonter ces différences et d'utiliser au mieux les données des différentes plateformes ».

Pour accélérer les recherches à l’échelle du domaine, Schatz et son équipe ont choisi de ne pas faire de leur logiciel un produit propriétaire. « Si vous essayez de le commercialiser, cela prend du temps pour lancer une entreprise, et cela peut prendre tellement de temps qu'au moment où vous vous penchez sur les mécanismes de cette entreprise, la prochaine chose est déjà apparue. La course est telle qu'il est difficile de commercialiser le logiciel sur le long terme », a déclaré Schatz. Il poursuit en disant : « De plus, notre travail est largement financé par des subventions gouvernementales, c'est donc l'un des moyens importants pour nous de redonner à la société ».

Le climat actuel est bien plus sain et plus heureux pour des universitaires comme Schatz, qui prévoit de continuer à distribuer en open source les logiciels créés par son laboratoire. « Il y a tellement d'avantages à pouvoir partager du code et à travailler en collaboration. Dans presque tous les cas, les avantages l'emportent sur les inconvénients potentiels », a-t-il dit.

Source : Nature Biotechnology

Et vous ?

Que pensez-vous de ces nouvelles techniques de séquençage d’ADN basées sur un logiciel ?

L’équipe de Schatz ne vendra pas son logiciel, mais fera plutôt de lui un code open source. Quels commentaires en faites-vous ?

Voir aussi :

Google ouvre son Cloud à l'analyse des données de séquences génomiques, Genome Analysis Toolkit est le résultat d'un partenariat avec Broad Institute

Bill Gates pense que l'intelligence artificielle et les outils de modification de gènes pourraient sauver le monde des maladies, comme le paludisme, la drépanocytose et le VIH

Un smartphone est-il assez sécurisé pour stocker un dossier médical ? Des chercheurs veulent y stocker l'ADN de leurs propriétaires

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le séquençage de votre ADN au moyen d'un dongle USB et un logiciel open source,

Dont la capacité à ne sélectionner que les sections pertinentes améliore massivement la vitesse du séquençage

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le séquençage de votre ADN au moyen d'un dongle USB et un logiciel open source, Dont la capacité à ne sélectionner que les sections pertinentes améliore massivement la vitesse du séquençage

Le séquençage de votre ADN au moyen d'un dongle USB et un logiciel open source,

Dont la capacité à ne sélectionner que les sections pertinentes améliore massivement la vitesse du séquençage