Хранение данных ДНК: метод ИИ ускоряет извлечение данных в 3200 раз

07:00, 25 Мар.

Исследователи с факультета компьютерных наук Генри и Мэрилин Тауб разработали метод на основе ИИ, который ускоряет поиск данных на основе ДНК на три порядка, при этом значительно повышая точность. В состав исследовательской группы вошли аспирант Омер Сабари, доктор Даниэлла Бар-Лев, доктор Итай Орр, профессор Эйтан Яакоби и профессор Туви Эцион.

Исследование опубликовано в журнале Nature Machine Intelligence. Хранение данных ДНК — это новая область, которая использует ДНК как платформу для хранения информации.

ДНК предлагает значительные преимущества в качестве носителя информации, в том числе: Долгосрочное сохранение: в 2013 году исследователи в Дании успешно извлекли ДНК из кости лошади возрастом 700 000 лет.

В 2021 году международная группа извлекла ДНК из мамонтов, живших более миллиона лет назад. Напротив, срок службы магнитных дисков, используемых в центрах обработки данных, измеряется годами или, в лучшем случае, несколькими десятилетиями.

Это подчеркивает потенциал ДНК для долгосрочного хранения. Энергоэффективность и экономическая эффективность : «облако», которое обеспечивает работу большинства современных вычислительных сервисов, опирается на центры обработки данных , которые потребляют около 3% мировой электроэнергии и выделяют около 2% от общего объема выбросов углерода.

С экспоненциальным ростом данных ожидается, что воздействие существующих технологий на окружающую среду значительно возрастет.

Непревзойденная плотность данных: ДНК-хранилище обеспечивает плотность данных в 100 миллионов раз больше, чем традиционное цифровое хранилище. Это означает, что том, который в настоящее время содержит один мегабайт, теоретически может хранить до 100 терабайт с использованием ДНК.

ДНК — это молекула, состоящая из последовательности органических соединений, называемых нуклеотидами. Эти нуклеотиды подразделяются на четыре типа, представленные буквами A, C, G и T.

В отличие от традиционных вычислений, где данные кодируются с использованием только двух цифр (0 и 1), хранение ДНК основано на последовательностях из четырех букв, что значительно увеличивает количество возможных комбинаций.

Для записи (хранения) данных в этой технологии требуется синтез ДНК — создание молекул ДНК на основе последовательностей, кодирующих информацию. Для чтения сохраненных данных необходимо секвенирование ДНК.

Проблемы хранения данных ДНК Разработка технологии хранения данных на основе ДНК сопряжена с рядом технологических проблем: Как синтез, так и секвенирование являются длительными и подверженными ошибкам процессами, приводящими к ошибкам удаления, вставки и замены.

Из-за ограничений процесса синтеза, производятся множественные копии каждой молекулы ДНК, кодирующей данные. Эти копии хранятся вместе, неупорядоченно, в контейнере для хранения В процессе секвенирования извлекается множество ошибочных копий этих молекул, большинство из которых содержат ошибки, а некоторые полностью исчезают.

DNAformer: поиск данных с помощью искусственного интеллекта Текущее исследование представляет собой комплексное вычислительное решение для поиска и исправления ошибок в сложных системах хранения на основе ДНК.

Используя передовые алгоритмы и методы кодирования, исследователи продемонстрировали, что их решение сокращает время поиска и чтения данных с нескольких дней до всего лишь 10 минут.

Разработанный Технионом метод DNAformer основан на модели трансформатора, обученной на смоделированных данных (сгенерированных с помощью симулятора, который также был разработан в Технионе) для реконструкции точных последовательностей ДНК из ошибочных копий.

Метод также включает в себя специальный код исправления ошибок, адаптированный для ДНК, что обеспечивает надежную целостность данных.

Кроме того, механизм дополнительного запаса безопасности обнаруживает особенно шумные последовательности ДНК (нежелательные сигналы или ошибки, возникающие в процессе секвенирования, которые могут помешать точной интерпретации данных) и применяет мощные алгоритмические инструменты для эффективной обработки.

В конце процесса данные преобразуются обратно в цифровую информацию. Новый метод позволяет считывать 100 мегабайт данных со скоростью в 3200 раз быстрее, чем самый точный существующий метод — без потери точности.

По сравнению с ранее известными быстрыми методами DNAformer также повышает точность до 40%, при этом значительно сокращая время обработки.

Это было продемонстрировано на наборе данных объемом 3,1 мегабайта, который включал: Цветное неподвижное изображение 24-секундный аудиоклип со словами астронавта Нила Армстронга на Луне Письменный текст, в котором обсуждаются преимущества ДНК как перспективного метода хранения данных.

Случайные данные для иллюстрации применимости к зашифрованным или сжатым данным Исследователи планируют разработать индивидуальные версии DNAformer, адаптированные под различные потребности.

Они подчеркивают, что их технология масштабируема и адаптируема, то есть ее можно оптимизировать для крупномасштабных приложений хранения данных, удовлетворяя потребности рынка и будущие достижения в области синтеза и секвенирования ДНК.

Рубрика: Технологии. Читать весь текст на android-robot.com.