Закодовані: як скоро ми зможемо зберігати файли у своїх ДНК
Вчені близькі до того, щоб зробити з людської ДНК справжнє файлосховище, здатне вмістити терабайти інформації.
На сьогодні людство згенерувало близько 10 трильйонів гігабайт даних, і щодня люди створюють електронні листи, фотографії, відео та інші файли, які загалом складають ще 2,5 мільйона гігабайт. Велика частина цих даних зберігається в ексабайтних центрах обробки даних, розміром з кілька футбольних полів, будівництво та утримання яких обходиться в 1 мільярд доларів. Але вчені знайшли альтернативне рішення — молекула ДНК, здатна зберігати величезні обсяги щільно упакованої інформації. За словами Марка Бата, професора-біолога з Массачусетського технологічного інституту, в кавовій чашці, повній ДНК, теоретично можна вмістити всі файли у світі.
Про те, як це реалізувати, він розповів новинному виданню news.mit.edu.
Молекула ДНК — ідеальний архів для цифрової інформації
"Нам потрібні нові рішення для зберігання величезних обсягів даних, які накопичуються у світі, особливо архівних", — говорить Марк Бат. "ДНК в тисячу разів щільніше, ніж будь-який флеш-накопичувач, і ще одна цікава властивість полягає у тому, що цей біологічний полімер не споживає енергії. Ви можете записати все, що завгодно, в ДНК і зберігати це вічно".
Цифрові системи зберігання кодують текст, фотографії або будь-яку іншу інформацію як послідовність нулів та одиниць. Ця ж інформація може бути закодована в ДНК з використанням чотирьох нуклеотидів, що становлять генетичний код: A, T, G і C. Наприклад, G і C можуть використовуватися для позначення 0, A і T — 1.
ДНК має кілька властивостей, які роблять її чудовим носієм інформації:
- вона надзвичайно стабільна,
- її досить легко синтезувати і секвенувати,
- вона має високу щільність — кожен нуклеотид, еквівалентний двом бітам, становить близько 1 кубічного нанометра — ексабайт, що зберігаються у вигляді ДНК, може вміститися на вашій долоні.
Однак є і мінус — вартість синтезу таких великих обсягів ДНК надзвичайно висока. Нині запис одного петабайта даних (1 мільйон гігабайт) обійдеться в 1 трильйон доларів. За оцінкою Бата, вартість синтезу повинна знизитися приблизно на шість порядків, тоді створенням архівів на основі біологічного полімеру буде вигідно займатися. Вчений говорить, що це цілком досяжно через 10-20 років.
Ще одну проблему становить витяг потрібного файлу.
"Якщо припустити, що технології досягнуть точки, коли буде економічно вигідно записати ексабайт або зетабайт даних в ДНК, що тоді? У вас буде купа ДНК з мільйонами фото, текстів, фільмів, програм та іншого, і вам потрібно буде знайти певний файл: як ви це зробите?", — задається питанням Бат. "Це схоже на спробу знайти голку в стозі сіна".
Як відбувається кодування файлів
Зараз файли ДНК зазвичай отримують за допомогою ПЛР (полімеразної ланцюгової реакції). Кожен файл включає послідовність, яка звʼязується з конкретним праймером ПЛР (праймер — короткий фрагмент нуклеїнової кислоти). Щоб витягти конкретний файл, кожен праймер додається до зразка, щоб знайти бажану послідовність. Однак один з недоліків цього підходу полягає у тому, що між праймером і послідовностями ДНК можуть виникати так звані перехресні перешкоди, що призводить до видалення деяких файлів. Крім того, процес отримання ПЛР вимагає ферментів і у підсумку велика частина ДНК витрачається даремно.
"Ви ніби спалюєте стіг сіна, щоб знайти голку", — пояснює Марк Бат.
Професор Бат і його колеги знайшли рішення: вони уклали кожен файл в 6-мікрометрову частку кремнезему, позначену короткими послідовностями ДНК, що розкривають вміст. Використовуючи цей підхід, дослідники змогли отримувати зі 100-відсотковою точністю окремі зображення, які знаходяться у вигляді послідовностей ДНК, з набору, що складається з 20-ти файлів. З огляду на кількість можливих міток, які можна використовувати, можливе масштабування до секстильйонів файлів (це число, що складається з одиниці і 21-го нуля).
Зламати ДНК, щоб знайти потрібний файл
Як альтернативний метод, команда Массачусетського технологічного інституту розробила нову техніку вилучення, ізолюючи кожен файл у частці діоксиду кремнію. Кожна така "капсула" позначається одноланцюжковими "штрих-кодами", відповідними вмісту файлу, — наприклад, "кішка", "літак" і т.д. Щоб продемонструвати цей підхід економічно ефективним способом, дослідники закодували 20 різних зображень у фрагменти ДНК завдовжки близько 3000 нуклеотидів, що еквівалентно приблизно 100 байтам. (Вони також показали, що в капсули поміщаються файли розміром до гігабайта.)
Коли дослідники хотіли витягти конкретне зображення, вони видаляли зразок ДНК і додавали праймери, відповідні шуканим ярликам — "кішка", "рудий" і "дикий" для того, щоб знайти фото тигра, або "кішка", "помаранчевий" і "домашній" для фото домашньої кішки. Праймери, зі свого боку, позначені флуоресцентними або магнітними частинками, що дозволяє легко витягти та ідентифікувати будь-які файли, залишивши іншу частину ДНК недоторканою, щоб потім повернути її у сховище. Цей метод чимось нагадує пошук в Google за ключовими словами.
"Поки що швидкість пошуку становить 1 кілобайт за секунду. Швидкість пошуку нашої файлової системи визначається розміром даних на капсулу. Також варто зазначити, що швидкість обмежена непомірно високою вартістю запису навіть 100 мегабайт даних на ДНК, і кількістю сортувальників, які ми можемо використовувати паралельно. Якщо синтез ДНК стане досить дешевим, ми зможемо максимально збільшити обсяг збережених даних", — прокоментував Джеймс Банал, старший науковий співробітник.
Для своїх штрих-кодів дослідники використовували одноланцюгові послідовності ДНК з бібліотеки, що містить 100 тисяч послідовностей, кожна довжиною близько 25 нуклеотидів, розроблених Стівеном Елледжем, професором генетики та медицини Гарвардської медичної школи. Якщо ви помістите дві з цих міток на кожен файл, ви можете однозначно позначити 10 мільярдів різних файлів.
"Хоча може пройти деякий час, перш ніж ДНК почнуть повсюдно використовувати як носій даних, сьогодні вже існує гостра необхідність у недорогих, масивних рішеннях для зберігання вже існуючих зразків ДНК і РНК, отриманих в результаті тестування на Covid-19, геномного секвенування людини та ін. сфери геноміки", — говорить Бат.
Професор Бат припускає, що метод інкапсуляції ДНК може бути корисний для зберігання архівних даних, до яких рідко звертаються. Його лабораторія працює над створенням стартапу Cache DNA, який запропонує технологію довгострокового зберігання файлів в ДНК.
Пропонуємо Вам ознайомитися з матеріалом IBM створила мікрочіпи, які можуть вміститися в людській ДНК.