Закодированные: как скоро мы сможем хранить файлы в своих ДНК
Ученые близки к тому, чтобы сделать из человеческой ДНК настоящее файлохранилище, способное уместить терабайты информации.
На сегодняшний день человечество сгенерировало около 10 триллионов гигабайт данных, и каждый день люди создают электронные письма, фотографии, видео и другие файлы, которые в сумме составляют еще 2,5 миллиона гигабайт. Большая часть этих данных хранится в эксабайтных центрах обработки данных, размером с несколько футбольных полей, строительство и содержание которых обходится в 1 миллиард долларов. Но ученые нашли альтернативное решение — молекула ДНК, способная хранить огромные объемы плотно упакованной информации. По словам Марка Бата, профессора-биолога из Массачусетского технологического института, в кофейной кружке, полной ДНК, теоретически можно уместить все файлы в мире.
О том, как это реализовать, он рассказал новостному изданию news.mit.edu.
Молекула ДНК — идеальный архив для цифровой информации
"Нам нужны новые решения для хранения огромных объемов данных, которые накапливаются в мире, особенно архивных", — говорит Марк Бат. "ДНК в тысячу раз плотнее, чем любой флеш-накопитель, и еще одно интересное свойство заключается в том, что этот биологический полимер не потребляет энергии. Вы можете записать все, что угодно, в ДНК и хранить это вечно".
Цифровые системы хранения кодируют текст, фотографии или любую другую информацию как последовательность нулей и единиц. Эта же информация может быть закодирована в ДНК с использованием четырех нуклеотидов, составляющих генетический код: A, T, G и C. Например, G и C могут использоваться для обозначения 0, A и T — 1.
ДНК имеет несколько свойств, которые делают ее превосходным носителем информации:
- она чрезвычайно стабильна,
- ее довольно легко синтезировать и секвенировать,
- она обладает высокой плотностью — каждый нуклеотид, эквивалентный двум битам, составляет около 1 кубического нанометра — эксабайт, хранящихся в виде ДНК, может уместиться на вашей ладони.
Однако есть и минус — стоимость синтеза таких больших объемов ДНК чрезвычайно высока. В настоящее время запись одного петабайта данных (1 миллион гигабайт) обойдется в 1 триллион долларов. По оценке Бата, стоимость синтеза должна снизиться примерно на шесть порядков, тогда созданием архивов на основе биологического полимера будет выгодно заниматься. Ученый говорит, что это вполне достижимо через 10-20 лет.
Еще одну проблему составляет извлечение нужного файла.
"Если предположить, что технологии достигнут точки, когда будет экономически выгодно записать эксабайт или зетабайт данных в ДНК, что тогда? У вас будет куча ДНК с миллионами фото, текстов, фильмов, программ и прочего, и вам нужно будет найти определенный файл: как вы это сделаете?", — задается вопросом Бат. "Это похоже на попытку найти иголку в стоге сена".
Как происходит кодирование файлов
В настоящее время файлы ДНК обычно получают с помощью ПЦР (полимеразной цепной реакции). Каждый файл включает последовательность, которая связывается с конкретным праймером ПЦР (праймер — короткий фрагмент нуклеиновой кислоты). Чтобы извлечь конкретный файл, каждый праймер добавляется к образцу, чтобы найти желаемую последовательность. Однако один из недостатков этого подхода заключается в том, что между праймером и последовательностями ДНК могут возникать так называемые перекрестные помехи, что приводит к удалению некоторых файлов. Кроме того, процесс получения ПЦР требует ферментов и в конечном итоге большая часть ДНК расходуется понапрасну.
"Вы как бы сжигаете стог сена, чтобы найти иголку", — поясняет Марк Бат.
Профессор Бат и его коллеги нашли решение: они заключили каждый файл в 6-микрометровую частицу кремнезема, помеченную короткими последовательностями ДНК, раскрывающими содержимое. Используя этот подход, исследователи смогли извлекать со 100-процентной точностью отдельные изображения, хранящиеся в виде последовательностей ДНК, из набора, состоящего из 20-ти файлов. Учитывая количество возможных меток, которые можно использовать, возможно масштабирование до секстиллиона файлов (это число, состоящее из единицы и 21-го ноля).
Взломать ДНК, чтобы найти нужный файл
В качестве альтернативного метода команда Массачусетского технологического института разработала новую технику извлечения, изолируя каждый файл в частице диоксида кремния. Каждая такая "капсула" помечается одноцепочечными "штрих-кодами", соответствующими содержимому файла, — например, "кошка", "самолет" и т.д. Чтобы продемонстрировать этот подход экономически эффективным способом, исследователи закодировали 20 различных изображений в фрагменты ДНК длиной около 3000 нуклеотидов, что эквивалентно примерно 100 байтам. (Они также показали, что в капсулы помещаются файлы размером до гигабайта.)
Когда исследователи хотели извлечь конкретное изображение, они удаляли образец ДНК и добавляли праймеры, соответствующие искомым ярлыкам — "кошка", "рыжий" и "дикий" для того, чтобы найти фото тигра, или "кошка", "оранжевый" и "домашний" для фото домашней кошки. Праймеры, в свою очередь, помечены флуоресцентными или магнитными частицами, что позволяет легко извлечь и идентифицировать любые файлы, оставив остальную часть ДНК нетронутой, чтобы потом вернуть ее в хранилище. Этот метод чем-то напоминает поиск в Google по ключевым словам.
"Пока что скорость поиска составляет 1 килобайт в секунду. Скорость поиска нашей файловой системы определяется размером данных на капсулу. Также стоит отметить, что скорость ограничена непомерно высокой стоимостью записи даже 100 мегабайт данных на ДНК, и количеством сортировщиков, которые мы можем использовать параллельно. Если синтез ДНК станет достаточно дешевым, мы сможем максимально увеличить объем хранимых данных", — прокомментировал Джеймс Банал, старший научный сотрудник.
Для своих штрих-кодов исследователи использовали одноцепочечные последовательности ДНК из библиотеки, содержащей 100 тысяч последовательностей, каждая длиной около 25 нуклеотидов, разработанных Стивеном Элледжем, профессором генетики и медицины Гарвардской медицинской школы. Если вы поместите две из этих меток на каждый файл, вы можете однозначно пометить 10 миллиардов различных файлов.
"Хотя может пройти некоторое время, прежде чем ДНК начнут повсеместно использовать качестве носителя данных, сегодня уже существует острая необходимость в недорогих, массивных решениях для хранения уже существующих образцов ДНК и РНК, полученных в результате тестирования на Covid-19, геномного секвенирования человека и др. области геномики", — говорит Бат.
Профессор Бат предполагает, что метод инкапсуляции ДНК может быть полезен для хранения архивных данных, к которым редко обращаются. Его лаборатория работает над созданием стартапа Cache DNA, который предложит технологию долгосрочного хранения файлов в ДНК.
Рекомендуем ознакомиться с материалом IBM создала микрочипы, которые могут уместиться в человеческой ДНК.