DNAストレージへのエスペラント語版「オズの魔法使い」全編保存が成功



テキサス大学オースティン校分子生物科学担当のイリヤ・フィンケルシュタイン准教授らによるDNAストレージへの保存実験で、エスペラント語に訳された「オズの魔法使い」全編をこれまで以上に高い精度で保存することに成功しました。



DNAをデータストレージとして扱う試みはフィンケルシュタイン准教授ら以前から行われていて、初期のものとして1988年のハーバード大学による実験が知られています。この実験では、大腸菌のDNA配列に対してバイオアートで知られるジョー・デイヴィス氏の作品が保存されました。作品は5マス×7マスの碁盤状で、生命と女性中心の地球についての古代ルーン文字の文章が刻まれたものでした。



ストレージというとHDDやSSD、フラッシュメモリなどがよく利用されていますが、HDDの場合、内部にCDと似たような回転するディスクが収納されていて、その表面にデータが格納されます。DNAストレージの場合、らせんの形状を形成しているアデニン、シトシン、グアニン、チミンの4つのヌクレオチド塩基に基づいて、特定の性質を持つ合成DNAを化学的に作成することになります。HDDであればバイナリコード、つまりデータを「0」と「1」の二進数に翻訳したものを用いますが、DNAは4つの構成要素があるため、保存はもっと高密度になります。





2013年には、欧州バイオインフォマティクス研究所の技術者ニック・ゴールドマン氏らが、マーティン・ルーサー・キング Jr.の有名な詩「I Have a Dream」やシェイクスピアの十四行詩など5つのファイルをDNA鎖にエンコードすることに成功。



また、2016年11月にはマサチューセッツ工科大学からスピンアウトした企業「カタログ」が、ロバート・フロストの詩「The Road Not Taken」のDNA鎖への永久保存に成功しています。データ量はおよそ1KBでした。



同じ2016年には、Microsoftとワシントン大学の共同研究チームにより、データ化されたトルストイの「戦争と平和」およそ200MBがDNAに保存されています。



今回の研究に携わったジョン・ホーキンス氏によると、「ティースプーン1杯のDNAに対して現在の技術でデータを保存するなら、ウォルマートの大型店舗規模のデータセンターが10カ所必要になるほどの容量が保存できる」とのこと。



DNAストレージの利点は「容量」だけではなく「保存性」にもあります。1990年代にデータ保存の主流として用いられたCD、特にCD-Rは保存性にムラがあることを、当時たくさんCD-Rを作成した人であれば実感しているはず。一方、DNAに保存されたデータは、何十万年も保つことができるとのこと。実際、考古学ではかつて何があったかを理解するためにDNAを利用することがあります。



また、DNAを読み書きする能力は時代遅れにならないというのも利点であるとホーキンス氏は語っています。



一方で、DNAストレージにも欠点はあります。最大の点は「コスト」で、2020年現在のDNAストレージ技術は、HDDでいうならば1980年代にAppleが出していたHard Disk 20のようなものだとのこと。たとえがややわかりにくいですが、Hard Disk 20は容量が20MBで、価格は1495ドル。2020年現在のレートに直すと35万円以上で、1バイトあたりの単価の高さが尋常ではありません。



2つ目の欠点は「エラーが発生しやすい」という点です。平均して、DNAは100から1000のヌクレオチド塩基に対して1つエラー(変異)が出るとのこと。別のヌクレオチド塩基に置き換わる置換変異が発生すると、DNAの鎖の長さは同じですが、塩基自体が変わってしまいます。また、余分な塩基が加わったり、塩基が削られたりすることもあります。こうなると、DNAに格納されたデータのデコードには問題が生じる恐れがあります。ホーキンス氏は「world」という単語を例に取り、「l」が抜けて「word」になり、「s」が加わって「sword」になると、本来worldだったことを知ることは非常に困難だと語りました。



エラー発生に対して、これまでのDNAストレージではコードを10回~15回繰り返すことで乗り越えてきましたが、これはスペースのムダであるということで、フィンケルシュタイン准教授らはデータを格子状に構築し、各ビットが次のビットを補強する形式にしたとのこと。また、エラー克服アルゴリズムを開発し、ストレージの効率を高めたと述べています。



ただ、フィンケルシュタイン准教授は、実験結果は画期的だったものの「商用化されるにはまだ10年以上かかる」と予測しています。