Код таблетки
Как машинное обучение помогает создавать лекарства.
Разработка медпрепарата занимает 5-10 лет и обходится в среднем в $2,6 млрд. Но только каждый десятый медикамент проходит клинические испытания. Машинное обучение применяют на каждом этапе разработки лекарства. Вместе с Дмитрием Казанжи, кофаундером платформы биоинформатики GenomicsUA, рассказываем, как ML меняет фармацевтику.
Поиск причины
Чтобы узнать, как лечить заболевание, нужно установить его причину, какие системы организма оно затрагивает и как тело отвечает на угрозу.
Сейчас точно известны причины почти всех инфекционных заболеваний, изучены их возбудители, разработаны лекарства. Гораздо сложнее ситуация с неинфекционными болезнями (например, рак, гипертония или сахарный диабет).
Считается, что в организме человека может быть от 10 тыс. до нескольких миллиардов различных белков. Изучение функций и взаимодействий даже небольшого их количества позволило определить белки, которые играют ключевую роль в повышении давления или температуры. Большинство лекарств — низкомолекулярные вещества, которые прочно блокируют определенный белок в организме человека. Создатели препаратов сначала выбирают цель — ключевой белок, а затем ищут молекулу, способную его заблокировать. Такой белок еще называют мишенью, а весь процесс — drug design.
Его ключевой фактор — наличие трехмерной структуры белка-мишени. Сложности возникают уже на этом этапе. Если с определением последовательности аминокислот все просто — узнаем последовательность ДНК гена, затем вычисляем последовательность аминокислот, — то определение пространственной укладки белка далеко не тривиальный процесс. Современные методы в виде рентгеноструктурного анализа, ЯМР-спектроскопии и электронной микроскопии сложны в реализации и требуют дорогостоящего оборудования. Сейчас в крупнейшей базе структур белков Protein Data Bank около 2400 трехмерных структур. При этом для человека определена аминокислотная последовательность около 76 тыс. белков.
Дмитрий: «Изучение фолдинга белков продолжается десятки лет. Самый известный проект — Folding@Home — распределенная система грид-вычислений, суммарная мощность которой сейчас составляет около 118 PFLOPS.
Изначально было понятно, что изучить фолдинг всех белков методом перебора не получится. Поэтому ученые сфокусировались на конкретных задачах, важных с фундаментальной точки зрения. Этот проект сделал огромный вклад в науку и продолжает приносить пользу. Другой проект, Fold.it, игрофицировал процесс поиска оптимальной конформации белка».
Машинное обучение упрощает процесс создания моделей белков и в ноябре 2020 года в этой области случился прорыв. В конкурсе по предсказанию трехмерных структур белков GASP (Critical Assessment of protein Structure Prediction) компания DeepMind представила алгоритм AlphaFold 2, который научился конструировать трехмерные модели на основе вводных данных об аминокислотах. AlphaFold 2 победил на конкурсе GASP и набрал 92 балла из 100. Золотой стандарт — от 90 баллов. Зная только последовательность аминокислот, программа верно расположила в пространстве 87% молекул самого сложного экземпляра.
В 2018 году команда DeepMind уже побеждала в GASP с программой-предшественником AlphaFold, но тогда алгоритму удалось набрать меньше 60 баллов и предсказать структуру 25 из 43 белков.
AlphaFold 2 обучался на открытой базе из 170 тыс. известных структур, учитывая не только геометрическое строение, но и эволюционную близость белков. В основе программы — рекуррентная нейросеть, создающая структуру белка по типу графа, в котором аминокислотные остатки — это вершины, а связи между ними — ребра.
В теории AlphaFold 2 способен предсказывать свойства белков и даже участвовать в создании искусственных белков с определенными свойствами или препаратов.
Но сейчас известна аминокислотная последовательность небольшого числа белков в организмах. При этом программе нужно давать на вход последовательность аминокислот, а из вероятных нескольких миллиардов известно только около 76 тыс.
Дмитрий: «Проблема, в решении которой Alpha Fold совершила прорыв, важна с фундаментальной точки зрения. Предсказание пространственной структуры белков — одна из ключевых задач структурной биоинформатики. Понимание того, как последовательность белка влияет на ее трехмерную структуру, а значит, и активность, позволит не только выяснить конформацию существующих белков, но и создавать ферменты с нужными функциями. Это поможет в развитии не только фармацевтической промышленности, но и биотехнологии, генной инженерии и других отраслей».
Скрининг лекарств
Тестирование лекарственных препаратов занимает около 4-5 лет. Фармкомпании анализируют реакцию миллионов соединений и отбирают несколько десятков, которые будут участвовать в испытаниях.
Дмитрий: «В поиске лекарственного вещества к известному белку-мишени на данный момент критических проблем не возникает. Однако для этого необходимо, чтобы была определена трехмерная структура белка-мишени, его активный центр и известна нуклеотидная последовательность. Это нужно, чтобы смоделировать взаимодействие миллионов веществ-кандидатов и целевого белка. Есть множество программ, которые делают это достаточно быстро. Самый известный инструмент — Autodock Vina.
В процессе моделирования рассчитывается наименьшая энергия связывания, из которой можно получить концентрацию вещества, достаточную для подавления активности белка.
Несмотря на то, что точность компьютерного моделирования довольно высока, в таких программах чаще всего используют эмпирические алгоритмы. Поэтому после отсеивания 90% молекул-кандидатов нужно проверить взаимодействие кандидатов и мишени в “пробирке”. Для этого и необходимо синтезировать белок-мишень на основании последовательности ДНК».
Но эту фазу тоже можно ускорить, чем и занимается стартап Exscientia. Он использует собственную платформу машинного обучения Centaur Chemist для поиска лекарственных препаратов. Centaur Chemist ищет действующие вещества быстрее, чем человек. Exscientia занималась исследованием для компании Sumitomo Dainippon Pharma. Нужно было найти вещество, которое будет влиять сразу на два белка типа GPCR. За год Centaur Chemist подобрал 400 кандидатов.
Самый успешный — препарат DSP-1181, который будут применять для пациентов с ОКР. DSP-1181 называют первым лекарством, созданным ИИ. Препарат успешно прошел фазу клинических испытаний на животных. Сейчас начали клиническое испытание в фазе Ⅰ (так называют первое тестирование на людях для определения дозы и формы лекарства).
Ученые склонны считать, что это улучшение, а не фундаментальное изменение в индустрии. Так, химик Дерек Лоу говорит, что разработка вещества для DSP-1181 произошла быстрее, чем обычно. Также он отмечает, что способ действия, которым препарат пытается лечить людей с ОКР (подавить активность 5-HT1a — подтипа серотонинового рецептора), используется в других медикаментах.
Дерек Лоу упоминает, что препараты не проходят испытания по следующим причинам: а) ученые выбирают не ту мишень, б) гипотеза болезни построена на неполной/неверной картине заболевания, в) из-за токсичности вещества. AI пока не может предвидеть эти факторы. Поэтому шансы на успех у лекарства такие же, как и у препаратов, созданных людьми.
Тестирование клеток
Девять из десяти лекарственных препаратов не проходят клинические испытания. Они либо слишком токсичны, либо неэффективны для людей.
Чтобы сократить количество попыток, фармацевтика занимается конструированием лекарств (или drug design).
Drug design использует компьютерное моделирование, чтобы проверить, как действующая основа препарата будет взаимодействовать с целью в организме. С помощью ML можно понять без исследований, какие свойства добавить препарату, чтобы он лучше взаимодействовал с мишенью.
Исследователи фармацевтической компании Berg применили собственную байесовскую сеть bAIcis для более точной разработки лекарств. Компания проводит тесты на больных и здоровых клетках пациентов, а потом моделирует больные клетки, регулируя уровень сахара или кислорода. Ученые видят изменения в метаболизме или белковых структурах и понимают, какие факторы влияют на образование болезней. bAIcis также использует генетические данные пациентов, объединяя их в систему, чтобы находить взаимосвязи между наследственной склонностью к болезням и биомаркерами в клетках.
Сейчас компания тестирует препарат против рака поджелудочной железы под названием BPM31510 и сотрудничает с фармацевтическими корпорациями (Sanofi, AstraZeneca). Подробнее о модели bAIcis можно узнать здесь.
Прогнозирование побочных эффектов и борьба с супербактериями
Здесь тоже применяется машинное обучение. Например, Гарвардская медицинская школа вместе с фармацевтической компанией Novartis создали нейросеть, анализирующую связь между побочными эффектами и видами белков, на которые чаще всего действуют препараты.
Для обучения нейросети объединили две больших базы данных: один набор от Novartis с информацией о 2 тыс. препаратах и взаимодействии с белками. Другой — 600 тыс. обращений в больницы по поводу побочных реакций. В результате нейросеть нашла 221 связь между медикаментами и побочным действием на отдельные белки. Некоторые факты были известны, например, что белок hERG связан с аритмией, но открыли и новые. Так, препарат PDE3, который используют при сердечной недостаточности, может привести к 40 побочным эффектам, таким, как аритмия, низкий уровень тромбоцитов и мышечное воспаление.
Проверить исследования и улучшить проект могут другие ученые. Модель и результаты выложены на GitHub.
Но бактерии быстро адаптируются к лекарствам, которые мы используем. Их невосприимчивость к существующим антибиотикам (резистентность) приводит к ситуации, когда лекарства больше не действуют. Резистентные ко многим антибиотикам бактерии еще называют супербактериями.
Найти вещество, которое способно убить бактерии, несложно, но почти все такие вещества слишком токсичны для человека. В СМИ постоянно появляются публикации об открытии новых видов антибиотиков, но в качестве лекарственного препарата последний был внедрен в 2019, а до этого — в 1987 году.
Ученые из MIT решили поручить поиск антибиотиков нейросети. Ее обучили на 2,3 тыс. молекул, химическую структуру которых записали в виде чисел. Во время обучения нейросеть тренировали находить вещества, которые оказывают антимикробное действие.
После исследователи загрузили в нейросеть данные о 100 млн молекул, почти все из которых никогда ранее не использовались для поиска антибиотиков. В результате AI нашел восемь новых категорий, которые, возможно, будут применяться против бактерий, а также молекулу под названием галицин. Он смог нейтрализовать многие штаммы бактерий, в том числе и резистентные к другим видам антибиотиков. Предварительный расчет предполагает, что препарат будет малотоксичным для человека. Ученые также отмечают, что поиск антибиотиков с помощью нейросети — не новый способ, и подобные попытки применялись ранее. Однако нейросетям не хватало больших выборок и качественных пакетов данных, чтобы исследователи могли подтвердить результаты экспериментально.