Ген, найдись - Журнал «За науку» — научно-популярные статьи на актуальные темы

[columns size=»2/3″ last=»false»]Группа ученых из Германии, Америки и России, при участии профессора Московского физико-технического института (МФТИ) Марка Бородовского, предложили алгоритм, который автоматизирует и делает более эффективным поиск генов. Разработка соединяет в себе преимущества наиболее продвинутых инструментов для работы с геномными данными. Представленный на страницах журнала Bioinformatics Oxfordjournals метод существенно упростит исследование последовательности ДНК. Например, позволит точнее и быстрее находить генетические заболевания.

Алгоритм успел показать и доказать свою актуальность — программу уже скачали более 1500 различных центров и лабораторий по всему миру. Характеристики программы показывают до 80% более высокие результаты по сравнению с другими алгоритмами.

Представленная разработка относится к области биоинформатики — дисциплины «на стыке наук». Биоинформатика — это набор методов математики. статистики и информатики, применяемых для исследования биологических молекул, таких как ДНК, РНК, белки. Популярность биоинформатики велика, и каждый ответ порождает столько новых вопросов, что ученые просто не успевают на них отвечать. Время специалистов, как и сами специалисты, ценится на вес золота. Именно поэтому автоматизация процессов — залог успеха любого биоинформатика, и подобные алгоритмы очень нужны для решения различных задач.

Одной из важных задач области является аннотация генома — определение того, с каких именно участков молекулы ДНК синтезируются белки или РНК — промежуточный носитель информации в клетке. Такие области — гены, представляют особый научный интерес. Дело в том, что для многих исследований нужна информация не обо всем геноме (длина которого составляет 2 метра только для одной клетки), а о наиболее его информативной части — генах. Выявление генов происходит на основе поиска характерных черт в молекулах, уже синтезированных с ДНК (такой синтез называется транскрипцией), либо по уже известным генам. Этот процесс осуществляется с помощью предсказательных алгоритмов.

Найти такие участки — нетривиальная задача, особенно в эукариотических организмах, к которым относятся практически все широко известные виды, кроме бактерий. Это происходит из-за того, что у таких клеток сложная передача наследственной информация. Дело в том, что не существует однозначного признака для определения того, является ли область кодирующей или нет.

[/columns]

Схема передачи наследственной информации в клетке
Изображение: dnkworld.ru/transkripciya-i-translyaciya-dnk

[columns size=»2/3″ last=»false»]Алгоритм, предложенный учеными, определяет, какие области в ДНК являются генами, а какие — нет. Для этого используется марковская цепь (последовательность случайных событий, будущее которых независимо от прошлого), обучаемая на различных параметрах. Параметрами в данном случае являются всевозможные признаки, характеризующие известные гены, либо участки ДНК. Алгоритм находит формулу, наилучшим образом классифицирующую наши данные по их способности кодировать белки или РНК. Данные, полученные из РНК, дают дополнительную полезную информацию, на которой можно обучить нашу модель. Некоторые предсказатели генов могут использовать эти данные для улучшения точности прогнозирования. Однако такие алгоритмы требуют обучающую выборку, на которой будет происходить тренировка модели с выявлением видовых параметров. Например, для программы AUGUSTUS, показывающей высокую продуктивность, необходима тренировочная выборка из генов. Такое множество можно получить с помощью другой программы — GeneMark-ET. Эти два алгоритма и объединил алгоритм BRAKER1.

Алгоритм показал высокую эффективность. Разработанную программу скачало уже более 1500 различных центров и лабораторий. Программа показала до 80% более высокую генную чувствительность, по сравнению с другими разработками и до 18% более высокую генную специфичность. Примерный хронометраж BRAKER1 составляет ∼17.5 часов для обучения и предсказания. Это впечатляющий результат, учитывая, что время может быть уменьшено за счет использования параллельных процессоров. В перспективе алгоритм поможет работать с задачами, требующими отделения кодирующих областей из общей массы подпоследовательностей еще быстрее, точнее и, в целом, эффективнее.

Подобные инструменты помогают реализовать множество различных задач. Например, уже опубликованы первые результаты глобального проекта «1000 геномов», запущенного в 2008 году при содействии 75 лабораторий и компаний. В результате были обнаружены последовательности редких генных вариантов — замен в генах, некоторые из которых приводят к болезням . При диагностике генетических заболеваний очень важно понимать, какие замены в участках генов приводят к возникновению болезней. В процессе проекта расшифровываются геномы различных людей, особенно кодирующие их части и выявляются редкие замены нуклеотидов. В будущем это поможет медикам диагностировать такие сложные заболевания, как болезни сердца, диабет и рак.

[/columns]