Een boek van ruim drieënvijftigduizend woorden lang is omgezet tot DNA en opgeslagen op een speciale chip (microarray). Het is de grootste hoeveelheid digitale informatie ooit opgeslagen in DNA.

Voor het eerst is een lange tekstboodschap opgeslagen in DNA. Drie Amerikaanse onderzoekers vertaalden een boek naar html-format en vervolgens naar binaire code. De verkregen bits codeerden ze in DNA-nucleotiden. Het hele boek van 53.426 woorden, 11 afbeeldingen en een JavaScriptprogramma paste daardoor op een kleine DNA-chip. Maar liefst 5,26 megabit kon er op het kleine compacte oppervlak worden geplaatst.

Omdat het maken van lange stukken DNA kostbaar is en de kans op fouten met de lengte toeneemt, besloten de onderzoekers korte fragmenten te maken. Die stukken DNA hadden een lengte van 159 nucleotiden, of basen. De basen adenine en cytosine, afgekort met A en C, stonden in de binaire code voor 1. Guanine en thymine (G en T) stonden voor 0. ‘De rij ATGGTACA staat dan bijvoorbeeld voor 01000111, en representeert een byte, of 8 bits’, e-mailt een van de onderzoekers, synthetisch-bioloog Sriram Kosuri. Volgens Kosuri zijn 96 van de 159 nucleotiden per stuk DNA coderingen van de bits. Nog eens 44 nucleotiden staan aan het begin en het einde van de rij als aangrijpingspunt om het DNA beter te kunnen kopiëren en 19 nucleotiden vormen samen een soort ‘inhoudsopgave’. Kosuri: ‘Zonder die informatie is de volgorde onduidelijk. Dat stukje DNA specificeert welk van de stukken met 96 bits waar moet staan.’

‘Een AI-systeem moet kunnen zeggen: dat is geen goed idee’
LEES OOK

‘Een AI-systeem moet kunnen zeggen: dat is geen goed idee’

Het is belangrijk dat we AI-systemen kunnen vertrouwen. AI-onderzoeker Pınar Yolum stelt dat betrouwbare AI-systemen bezwaar moeten kunnen maken tege ...

Al eerder zijn korte boodschappen op een soortgelijke manier in compact in DNA gecodeerd en opgeslagen, maar het voordeel van deze methode is de werkwijze met korte stukken DNA en het hanteren van een enkele bit per base. De base A zou bijvoorbeeld ook voor 01 kunnen staan, G voor 11, T voor 10 en C voor 00, maar dat maakt de codering minder flexibel. Kosuri laat weten dat zo’n meer ingewikkelde code het ontwikkelen van het DNA bemoeilijkt en er dan vaak fouten ontstaan. De onderzoekers publiceerden hun bevindingen deze week in Science Express.

Afbeelding: ynse via Flickr.com