¨ Dépannage-Maintenance-Formation-Informatique >  Astuce info >  , l'ADN artificiel pour stocker des données

4 février 2013 - Dépannge et formation informatique Paris

Conservation de données informatiques : De l'ADN artificiel pour stocker des données informatiques

Auteur : Frédéric Hourdeau   Catégorie : Article



Prospective : L’ADN une solution pour le stockage de demain

 Coder l'adn pour stocker des donnée - Dépannage et formation informatique Paris 14 75014

 

Des chercheurs anglais ont affiné un procédé pour stocker des informations sur de l'ADN.


On le sait, l’ ADN est capable de contenir, dans sa double hélice, tout le programme génétique d'un être vivant.

De là à stocker des millions d’informations  (de textes, d'images, de vidéos….) pendant des milliers d’années ! Et pourtant !

À quelques mois d'intervalle, deux équipes scientifiques, l'une américaine et l'autre britannique, sont en effet parvenues à la mettre en oeuvre avec un certain succès.


-              La première, conduite par le célèbre généticien George Church de l'université d'Harvard a réussi à encoder un livre de 300 pages, comportant plus de 50 000 mots et une dizaine d'illustrations (soit un peu plus de cinq millions de bits).

 

-              La seconde équipe, issue de l'European Bioinformatics Institute de l'université de Cambridge, a, quant à elle, choisi de convertir une photo haute définition, une version MP3 du célèbre discours "I have a dream" de Martin Luther King, l'article scientifique où Watson et Crick ont décrit pour la première fois la double hélice de l'ADN ainsi que l'ensemble des sonnets de William Shakespeare (soit près de six millions de bits).



Supériorité de cette méthode : plutôt que de privilégier la densité de stockage, les chercheurs se sont concentrés sur la fiabilité de l'encodage (la précédente n’est fiable qu’à 99,9°/° !).


Résultat : 115 000 brins d'ADN synthétique (environ le double de l'équipe d'Harvard), mais un sans-faute, plus aucune erreur dans les fichiers retranscrits !

La méthode de codage permettrait de stocker environ 100 millions d'heures de vidéo haute définition dans une tasse d'ADN, ont expliqué les scientifiques dans la revue Nature.

 

Indexer les données sur plusieurs fragments d'ADN

 

Cette méthode synthétise l'ADN à partir de l'information codée. Le laboratoire universitaire a travaillé avec la société californienne Agilent Technologies, un fabricant d'instruments de mesures électroniques et de bio-analytiques, pour transmettre les données, puis l'encoder dans l'ADN.

La firme a téléchargé les fichiers sur le web, puis a ensuite synthétisé des centaines de milliers de fragments d'ADN pour indexer les données.

L'objectif était d'éviter d'avoir une redondance des lettres d'ADN et donc des sources d'erreurs.

 

 Explication du codage de l'adn - Dépannage et formation informatique Paris 14 75014

 

Le Dr Nick Goldman avec de l'ADN synthétisé

 

Cet échantillon a été envoyé à l'EMLB-EBI où les chercheurs ont réussi à séquencer l'ADN et décoder les fichiers sans erreurs. Nick Goldman constate, « nous avons créé un code qui est tolérant aux erreurs en utilisant une forme moléculaire. Nous savons que sa durée de vie sera bonne pendant 10 000 ans ». Il ajoute, « peut-être plus longtemps, tant que quelqu'un connaît le code et si on dispose d'une machine pour lire l'ADN ». (1)

 

La prochaine étape du développement est de perfectionner le système de codage et d'affiner les modalités pratiques ouvrant la commercialisation de cet ADN modifié.

 

Ce n'est pas la première fois que l'ADN est utilisé comme moyen de stockage :

 

En août dernier, des scientifiques de l'Université de Harvard ont démontré la capacité de stocker un livre au format HTML dans l'ADN. Composé de 53 000 mots, de 11 images au format Jpeg et d'un programme JavaScript pour un poids total de 5,37 mégaoctets, le fichier a été stocké dans seulement un picogramme d'ADN, soit un milliardième de gramme.

 

Une solution pour l’archivage des données ?

 

Pour autant, il ne faut pas s'attendre à ce que cette technique puisse remplacer disques durs, CD, DVD et cartes mémoires en une paire d'années.

D'une part, parce que le coût de la synthèse puis du séquençage de l'ADN reste élevé. Ainsi l'équipe de Cambridge évalue-t-elle le coût du stockage d'un seul mégaoctet à 10 000 euros, un prix prohibitif pour un usage courant même s'il sera amené à baisser

. D'autre part, parce que la restitution de l'information par séquençage prend nécessairement du temps alors que le contenu d'un disque dur est lu presque instantanément.

Enfin, le support n'est pas facilement réinscriptible et les informations ne peuvent donc pas être modifiées à l'envi.

La technique pourrait donc être réservée à l'archivage de documents, d'autant qu'elle présente, pour cet usage, un avantage non négligeable : si l'inscription des données dans l'ADN est coûteuse, leur conservation sous cette forme ne nécessite ensuite pratiquement plus aucune dépense et quasiment aucune énergie. Rien à voir avec les actuels gigantesques datacenters extrêmement gourmands et... polluants

 

En raison de la lenteur du processus de consignation des données, les scientifiques orientent l'ADN comme support pour l'archivage. « Le volume mondial des informations (1,8 zo) tiendrait dans environ 4 grammes d'ADN », souligne Sriram Kosuri, chercheur principal à l'Université de Harvard.

 

A noter qu’ en 2020, la production de données devrait atteindre 40 zettaoctets, soit l'équivalent de 5200 Go d'informations pour chaque habitant de la planète.

 

(1) Pour les spécialistes ! : Des 0 et des 1 changés en molécules


Pour  parvenir à ces résultats, les scientifiques ont d'abord converti les données informatiques, suite de 0 et de 1, dans un code trinaire composé de 0, de 1 et de 2, avant de les transcrire en langage ADN. Une étape préalable qui diffère de l’opération réalisée par l'équipe de George Church, qui avait conservé un système binaire.

Dans un second temps, la séquence ainsi obtenue a été traduite en A, T, C ou G, correspondant aux différentes briques de base de l'ADN (adénine, thymine, cytosine et guanine), puis a été synthétisée chimiquement par un assemblage minutieux de ces composants.

Compte tenu de la difficulté à produire de l'ADN en chaîne longue, l'information a été tronçonnée en fractions plus petites reprenant, à la fois, le début de la séquence précédente, la fin de la suivante et des informations sur la place de chacune dans le tout. Et, pour améliorer la conservation de ces brins reproduits à 12 millions d'exemplaires, ils ont

finalement été lyophilisés, prenant l'aspect d'une simple poussière dont il suffit de séquencer l'ADN pour récupérer les données.