Наука

Создан ИИ, ускоряющий аннотацию геномов

Российские ученые создали нейросетевую модель, которая умеет анализировать последовательность ДНК и проводить ее аннотацию — размечать в ней гены, находить их границы и восстанавливать их внутреннюю структуру. Данная разработка ускорит аннотацию геномов огромного числа организмов, для которых пока нет подробных биологических данных, сообщила пресс-служба Института искусственного интеллекта AIRI.

© ТАСС

"Сейчас новые геномы собираются быстрее, чем ученые успевают их размечать, а подготовка качественной аннотации может занимать годы. Если подобные модели станут стандартным первым этапом анализа, исследователи смогут почти сразу после сборки генома получать карту генов-кандидатов для дальнейшей проверки", — пояснил ведущий научный сотрудник AIRI Вениамин Фишман, чьи слова приводит пресс-служба института.

Как отмечают ученые, процесс аннотации и изучения структуры ДНК осложнен тем, что у генов нет универсального и общепринятого для всех участков генома опознавательных знаков начала и конца. Также гены могут перекрываться или располагаться на разных цепях ДНК, что делает геном непохожим на книги и другие письменные источники информации, в которых данные записаны последовательным и предсказуемым образом.

По этой причине за последние несколько десятилетий биологам удалось хотя бы частично аннотировать лишь 166 геномов млекопитающих из 4,5 тыс. известных видов этих позвоночных животных, что также характерно и для других форм многоклеточной и одноклеточной жизни. Подобные соображения побудили специалистов Института AIRI, а также исследователей из Института цитологии и генетики СО РАН (Новосибирск) и Университета "Сириус" разработать систему ИИ, способную автоматически аннотировать геномы.

Универсальная платформа для аннотации генома

Система состоит из нескольких моделей, каждая из которых отвечает за реализацию одной из стадий аннотации. К примеру, сначала нейросети находят возможное начало и конец гена на обеих цепях ДНК, а затем другая модель проверяет, действительно ли участок между этими точками похож на генную область. После этого классификатор определяет тип найденного гена, а на следующем этапе сегментационная модель уточняет внутреннюю структуру гена.

Подобный подход, как отмечают ученые, позволяет находить и аннотировать не только гены, кодирующие молекулы конкретных белков, но и другие важные участки ДНК, которые не учитываются при сборке белков или отвечают за выработку РНК-молекул, регулирующих работу большого числа генов. Это особенно важно делать при изучении структуры генома немодельных организмов, которые в прошлом не изучались научным сообществом на протяжении многих десятилетий, как люди или мыши.

Как показали проведенные исследователями тесты, их разработка хорошо аннотирует не только геномы млекопитающих, на базе которых проводилось ее обучение, но и мушек-дрозофил, растений и дрожжей. Это дает надежду на то, что данная система ИИ сможет эффективно работать с геномами организмов из всех царств жизни, что существенным образом ускорит процесс их аннотации и дальнейшего изучения, подытожили специалисты.

Источник

Добавить комментарий

Кнопка «Наверх»