DigitalGenetics - stock.adobe.co

Basiswissen: DNA-Datenspeicher und dessen Nutzung

Wie lassen sich immer mehr Daten auf immer weniger Platz unterbringen? In der Geschichte des Datenspeicherns wirft eine neue Technik ihre Schatten voraus.

Die Geschichte des Speicherns ist eine Geschichte vom ständigen Ringen um die höchste Speicherdichte. Stets ging es darum, immer mehr Informationen zu immer niedrigeren Kosten auf immer weniger Platz unterzugbringen.

Frühe Formen der Datenspeicherung waren Tafeln aus Ton. Später gab es dicke Folianten aus Tierhäuten oder Papier. Erste Schritte der digitalen Speicherung von Informationen gab es bei den Lochkarten für Webstühle oder Hollerith-Maschinen. Die kommerzielle Digitalisierung bei der Speicherung von Informationen wurde in den 1960er Jahren eingeläutet. Wie sich schon bei diesem kurzen Abriss abzeichnet, ging es bei der Weiterentwicklung von Informationsspeichern immer um die Miniaturisierung der Datenträger. Im digitalen Zeitalter sind das Magnetplatten und -bänder, optische Datenträger und Halbleiter-Komponenten. Während die Technik auch künftig immer mehr Bits auf einen Chip oder eine Festplatte quetscht, verspricht die Verschlüsselung von Daten in der eng gewickelten Doppelhelix der DNA, der Desoxyribonukleinsäure, die auch für die Speicherung des Erbguts zuständig ist, eine weitaus höhere Dichte.

Das (sehr) kleine Kleingedruckte der DNA

Der Abstand von zehn DNA-Basenpaaren ist 3,4 Nanometer lang und hat einen Durchmesser von 2 nm. Jedes Basenpaar ist eine Kombination aus zwei Nukleotiden: Adenin (A) und Thymin (T), oder Cytosin (C) mit Guanin (G). Wenn jedes Paar ein Bit repräsentiert, zum Beispiel AT oder TA als „0“ und CG oder GC als „1“, könnte ein DNA-Strang denkbarerweise 10 Bits pro 6,8 nm2 enthalten. Mit anderen Worten: Die Informationsdichte der DNA beträgt 1,47 Terabit/mm2. Das ist mehr als das 800-fache der Dichte von Festplatten.

Bedenkt man, dass ein mikroskopisch kleines menschliches Genom drei Milliarden Basenpaare enthält, die in jeder Zelle fest verwoben sind, sind die Möglichkeiten zur Speicherung von DNA-Daten enorm.

Leider ist unsere Milchmädchenrechnung zur DNA-Speicherprozesse stark vereinfacht. Die heutigen Verfahren für die Synthese, Speicherung und Sequenzierung von DNA sind mit Fehlern behaftet. Daher muss jedes System zur DNA-Datenspeicherung über eine große Redundanz verfügen. Die Kodierung der Daten wird sehr komplex sein.

Trotzdem wird das explosionsartige Wachstum bei der Erzeugung von Daten die Entwicklung revolutionärer Techniken zur Speicherung vorantreiben. Speziell für die Langzeitspeicherung und Archivierung werden neue Verfahren gesucht. Gartner setzt stark auf die DNA-Speicherung und schürt die Erwartungen. Demnach könnte das gesamte menschliche Wissen in einer kleinen Menge synthetischer DNA gespeichert werden. Die Marktforscher behaupten, dass 30 Prozent der „digitalen Unternehmen“ bis 2024 Versuche mit DNA-Datenspeicherung durchführen werden. Da DNA auf unbestimmte Zeit konserviert werden kann, sieht Gartner in der Archivierung von Musik, Videos und statistischen Daten die ersten potenziellen Anwendungen für DNA-Speicher.

Grundlagen, Herausforderungen und Grenzen

Das Schreiben und Auslesen von Daten in bzw. aus einem DNA-Datenspeicher ist ein sechsstufiger Prozess. Ein digitaler Datenstrom wie Bit für Bit in eine Sequenz von Basenpaaren umwandelt. Konzeptionell ähnelt das Verfahren der Kodierung von Bits in einer Reihe von Pits und Lands auf einer optischen Platte.

Dieser Prozess umfasst die folgenden Schritte:

  1. Die Kodierung übersetzt die Bitfolge in eine Sequenz von Basenpaaren. Es handelt sich hier um ein aktives Forschungsgebiet. Einige Schemata verwenden das einfache Ein-Bit-pro-Paar-Szenario, das oben in unserer Größenabschätzung beschrieben wurde. Fortschrittlichere Techniken verwenden jedoch die Huffman-Kodierung, manchmal gepaart mit Reed-Solomon-Fehlerkorrekturcodes, um Degradationsfehlern bei Langzeitspeicherung entgegen zu wirken.
  2. Bei der Synthese und Zusammensetzung werden verschiedene biologische Reaktionen verwendet. Sie erzeugen kurze DNA-Sequenzen. Diese werden zu längeren Strängen zusammengesetzt. Es ist schneller und billiger, DNA-Schnipsel von ein paar hundert Basenpaaren zu erzeugen als lange Genomsequenzen. Daher werden bei der DNA-Datenspeicherung die Daten in Blöcke zerlegt. Die Blöcke werden kodiert und indiziert. Die Technik gleicht im Grunde dem Festplattenlaufwerk, auf dem Dateien oder Datenbanken in logische Blöcke zerlegt werden oder dem TCP/IP-Protokoll, wo Daten vor der Übertragung paketiert werden.
  3. Bei der Speicherung wird die DNA in Fläschchen mit einer Flüssigkeit oder einem Schutzmaterial konserviert, um den Abbau über die Zeit zu minimieren. Der Kontakt mit Wasser und Sauerstoff beschleunigt die Degradation der DNA bei Raumtemperatur deutlich. Daher werden die meisten Proben bei der Lagerung in vitro in einer inerten Lösung oder einem Feststoff aufbewahrt. Tatsächlich kann die DNA in der richtigen Umgebung für Äonen von Jahren intakt bleiben. Wissenschaftler extrahierten kürzlich ein Genom aus Zähnen eines Millionen Jahre alten sibirischen Mammuts.
  4. Bei der Extraktion werden Teile der DNA aus einer größeren Probe entnommen. Es gibt mehrere Techniken für die Extraktion von Teilmengen aus einem größeren DNA-Pool, die typischerweise die Polymerase-Kettenreaktion-Amplifikation verwenden (manche Leser kennen dieses Verfahren vom COVID-19-Test).
  5. Bei der Sequenzierung wird die Abfolge der DNA-Nukleotid-Basenpaare mit Techniken gelesen, die denen ähneln, die bei medizinischen Gentests verwendet werden. Um den Prozess zu beschleunigen, werden die DNA-Schnipsel oft parallel sequenziert.
  6. Bei der Dekodierung wird die Basenpaarfolge in einen Binärstrom umgewandelt, indem die Datensegmente dekodiert und wieder zusammengesetzt werden.

Anwendungsmöglichkeiten und nennenswerte Unternehmen

Die Speicherung von DNA-Daten ist auf dem Weg vom Labor in die produktiven Umgebungen. Da jedoch die Synthese- und Sequenzierungsprozesse im Vergleich zur elektronischen Informationsverarbeitung langsam sind, ist die einzige derzeit praktikable Anwendung die Archivierung von Daten. Gegenwärtig dauert es zum Beispiel Stunden, um ein paar Gigabyte Daten zu schreiben, obwohl eine experimentelle Parallelverarbeitungstechnik behauptet, ein Terabyte pro Tag zu erreichen.

Die DNA-Speicherung benötigt eine hohe Fehlertoleranz. Noch sind die Fehlerraten hoch. Während bei pharmazeutischen Anwendungen kleine Fehler in der DNA-Sequenz tiefgreifende Auswirkungen haben können, können leistungsfähige Algorithmen für Redundanz und Fehlerkorrektur für die Speicherung der korrekten Daten sorgen. Fehlerraten von 10 Prozent und mehr bei den Synthese- und Sequenzierungsprozessen können so ausgebügelt werden.

Die Videostreaming-Industrie lieferte ein überzeugendes Beispiel für den aufkommenden Einsatz von DNA zur Archivierung von Daten. Twist Bioscience arbeitete kürzlich mit Netflix zusammen, um die Machbarkeit von DNA für die Videoarchivierung zu demonstrieren. Forscher der ETH Zürich kodierten die erste Episode der Netflix-Serie Biohackers in DNA-Nukleotide, die dann mithilfe der Silizium-Plattform von Twist Bioscience zu DNA-Strängen synthetisiert wurden. Das rohe, unkomprimierte 4K-Video läuft mit etwa 250 MB/s, was bei einer 50-minütigen Episode 750 GB entspricht. Es ist eine beeindruckende Demonstration des Potenzials von DNA als Archivierungsmedium.

Twist Bioscience ist eines der führenden Unternehmen im Bereich der DNA-Datenspeicherung. Der Anbieter hat seine Technologie auf dem Stanford Compression Workshop 2021 vorgestellt. Twist Bioscience, Illumina, Microsoft und Western Digital haben vor kurzem die DNA Data Storage Alliance gegründet. Diese Allianz soll die neue Technik fördern, eine Industrie-Roadmap entwickeln, Anwendungsfälle identifizieren und Schulungsmaterialien anfertigen.

Weitere Mitglieder der Allianz sind:

  • Ansa Biotechnologies
  • Catalog
  • The Claude Nobs Foundation
  • DNA Script
  • die ETH Lausanne – Zentrum für Kulturerbe und Innovation
  • die ETH Zürich
  • Imec
  • Iridia
  • Molecular Assemblies
  • das Labor für molekulare Informationssysteme an der Universität von Washington
  • Quantum

Es gibt mehrere andere bedeutende Unternehmen – darunter Evonetix, Helixworks, Kilobaser und Synthomics – die Pionierarbeit bei Technologien wie DNA-Synthese und Speichermaterial leisten. Diese Arbeiten werden die DNA-Datenspeicherung und andere therapeutische Anwendungen erleichtern.

Die DNA-Datenspeicherung ist inzwischen näher an der kommerziellen Anwendung als an der Science-Fiction. Storage-Experten, die für Archivierungsstrategien verantwortlich sind, sollten die Entwicklungen auf diesem Gebiet verfolgen und die DNA-Technologie neben den Entwicklungen bei LTO-Bändern und anderen Archivspeichermedien in die Roadmaps einbeziehen.

Erfahren Sie mehr über Storage Management

ComputerWeekly.de
Close