Чем полезен компьютер для изучения генома человека?
Чем полезен компьютер для изучения генома человека?
Без компьютерных биоинформационных технологий (геноинформатики, или, в более широком смысле, — биоинформатики) развитие геномных исследований вообще едва ли было бы возможным. Даже трудно себе представить, как бы ученые смогли собрать, классифицировать и разобраться с тем огромным объемом информации, которая заключена в двухметровой молекуле ДНК.
Обратим внимание читателя лишь на некоторые основные информационные задачи, которые необходимо было решать при изучении генома человека, а некоторые из них еще предстоит решить. В первую очередь нужно отметить то обстоятельство, что работа с геномами высших организмов, и особенно с геномом человека, — это работа с огромными объемами информации. Один миллион п. н. ДНК эквивалентен примерно 1 мегабайту (1 млн. байтов). Следовательно, для хранения в компьютере только информации о последовательности генома человека требуется не менее 3 гигабайт. Одной из важнейших задач для реализации программы «Геном человека» была организация процесса создания окончательного «текста», состоящего из миллиарда слов, десятков тысяч предложений и огромного числа страниц, собранных в 24 тома. Этот процесс с самого начала работ по программе «Геном человека» был прекрасно организован. Данные по секвенированию, получаемые в разных лабораториях мира, предварительно преобразовывались из аналоговых сигналов в цифровые для того, чтобы их можно было обрабатывать на компьютере. В Центре биомедицинских исследований Массачусетского технологического института в США круглосуточно принимались вновь собранные данные, автоматически регистрировались и архивировались. Все они сразу же автоматически привязывались к определенным хромосомам человека. Далее, каждая вновь поступившая последовательность нуклеотидов пересылалась по Интернету в GenBank — общедоступную базу данных, обслуживаемую Национальным центром биотехнологической информации (www.ncbi.nlm.nih.gov), а уже оттуда поступала в другие общедоступные базы данных во всем мире. Организаторы программы старались предоставить доступ к этим данным как можно быстрее и как можно большему числу пользователей. Трудно себе даже представить, как без использования компьютеров можно было бы из сотен тысяч «текстов», которые читались в отдельности разными исследователями в разных лабораториях мира, собирать гигантскую единую «Энциклопедию человека». Этот процесс напоминал собой сбор без предварительного рисунка гигантского паззла, состоящего из сотен тысяч мелких фигур, сваленных в кучу.
Другая не менее сложная задача, решаемая геноинформатикой, — компьютерный анализ ДНКовых текстов, что чрезвычайно важно для их правильного «прочтения». Поиск генов в геноме человека затруднен тем, что в ДНК нет абсолютно четких «знаков препинания», которые бы указывали на начало и конец генов-предложений и других функционально значимых элементов. При этом методы классической генетики имеют ограниченное применение для человека — ведь человек, в отличие от мух или мышей, не может быть объектом генетических экспериментов. Основная трудность при идентификации генов состоит в определении их экзон-интронной структуры, т. е. определении кодирующих и некодирующих участков. И здесь на помощь приходила и приходит геноинформатика. На основе статистического анализа ученые научились с определенной долей вероятности устанавливать, к какому участку генома относится та или иная изучаемая нуклеотидная последовательность ДНК. Это схоже с ситуацией в газетном тексте. Вот наш глаз остановился на фразе «от Парижа до Находки ОМСА — лучшие колготки», и сразу становится понятным, что это реклама, а не текст статьи, так как подобное словосочетание в обычных публицистических статьях практически никогда не встречается. Примерно так же обстоит дело и с определенными сочетаниями нуклеотидов в ДНКовом тексте. Выявлены определенные сочетания нуклеотидов, которые указывают на принадлежность анализируемого фрагмента генетического текста к интрону или экзону, кодирующему белок.
В настоящее время разработан комплекс программ распознавания разных участков генома, которые позволяют с определенной вероятностью вычленять такие функциональные участки в длинных последовательностях ДНК. Уже не вызывает сомнения, что многое из того, что раньше делалось только с помощью специальных сложных методов, сейчас можно осуществить с помощью вычислений. В частности, любую секвенированную нуклеотидную последовательность ДНК можно попытаться разметить и найти в ней границы как самого гена, так и его регуляторных последовательностей, не прибегая к помощи клонирования определенных последовательностей ДНК, их секвенирования и анализа экспрессии генов, а всего лишь с использованием специальных компьютерных программ. Компьютерные анализы уже привели к расшифровке многих «предложений» ДНКового текста. Такого рода работы, проводимые в нашей стране, зачастую не только не отстают, но даже значительно опережают аналогичные исследования в других странах. Предсказание белок-кодирующих генов с помощью компьютерных алгоритмов (этот метод назван ab initio) хорошо получается в случае относительно небольших геномов. Однако применительно к геному человека этот подход не всегда срабатывает в полной мере, т. к. гены человека часто устроены из маленьких экзонов и огромных интронов. Не отработаны также точные критерии для поиска не кодирующих белок генов. В этом заключается причина, почему до сих пор мы не можем назвать точное число генов в геноме человека, хотя он весь секвенирован.
Третья, не менее важная задача геноинформатики, касающаяся генома человека, — создание книги под названием «Функционирующий геном». Информация о геноме человека, накопленная сейчас в базах данных, касается в основном одного аспекта организации геномной ДНК, а именно ее первичной структуры, то есть последовательности нуклеотидов. Но для описания функциональных особенностей геномов, например особенностей регуляции экспрессии содержащихся в них генов, структуры и функции кодируемых ими белков и др. потребуются неимоверно большие объемы информации. Например, оценено, что для описания пространственной структуры лишь одного белка среднего размера (около 600 аминокислот) требуется около 200 страниц текста. А число белков уже сейчас оценивается не менее, чем в 500 000 (по некоторым расчетам оно достигает 1 млн.). Ясно поэтому, что сведения о расшифрованных белках будут храниться в компьютерных библиотеках сверхгигантского размера.
Обычно, чтобы экспериментально установить функцию того или иного вновь обнаруженного гена или белка, требуются значительные усилия экспериментаторов и весьма большие финансовые затраты. Использование компьютеров позволяет решать многие вопросы без проведения специальных дорогостоящих и занимающих много времени экспериментов. Ярким примером может служить обнаружение гена, мутация в котором обуславливает преждевременное старение, происходящее при синдроме Вернера (напомним, что пациенты с этим заболеванием уже в молодые годы выглядят как дряхлые старики). С помощью Интернета и других современных средства информатизации всего за восемь месяцев удалось «вычислить» соответствующий ген. Для его обнаружения исследователям пришлось перебрать в базах данных свыше миллиона пар нуклеотидов. Очевидно, что без помощи геноинформатики этого события пришлось бы ждать еще несколько лет.
Другой пример — создание каталога всех имеющихся в геноме человека ферментов, называемых протеинкиназами («кином»). В результате этого поиска было выявлено 518 генов, кодирующих протеинкиназы, и, кроме того, 106 псевдогенов. При этом 70 из обнаруженных генов ранее были совсем неизвестны. Выяснилось также, что почти половина генов «кинома» располагается в участках генома, связанных с различными заболеваниями человека.
Дешифровка последовательности белка с помощью компьютера напоминает работу криптографов — из последовательности отдельных букв читается весь биологический текст, и на основании этого выясняется, что это за белок, какова его функция в организме. Впечатляющие результаты были получены, например, австрийцем Айзенбергом. Используя дешифровальные методы анализа нескольких тысяч белков, не проведя при этом ни одного эксперимента, он сразу предсказал функции почти половины из них. Вспомним, что еще не так давно ученые иногда тратили всю жизнь, чтобы определить структуру одного белка и познать его функцию. С помощью новых подходов можно одновременно предсказать функцию большого числа белков.
Для написания книги «Функционирующий геном» потребуется объединить вместе огромную информацию о картине работы десятков тысяч генов в различных типах клеток на разных стадиях развития и в разных физиологических состояниях, данные о структуре и функции отдельных белков, кинетические параметры, концентрации молекул, сведения о взаимодействии генов и генных продуктов, реакции генома на экстремальные стимулы и различного рода патологические процессы. Связь между генотипом и фенотипом, то есть между генами и их проявлением в совокупности признаков и свойств организма, зачастую обусловлена сложным взаимодействием множества различных генов, а также факторов окружающей среды. По этой причине во многих случаях ее экспериментально пока не удается однозначно установить. Слишком сложна задача и слишком много исходных данных. Такую ситуацию часто называют проблемой нелинейного картирования. Чтобы решить эту проблему, био- и гено-информатике понадобятся новые значительно более совершенные программы, еще более мощные компьютеры. В частности, для этой цели в настоящее время предложено использовать так называемое генетическое программирование. Гены в генетическом программировании рассматривают как аналоги компьютерных программ. Из огромного объема имеющейся информации, связанной с тем или иным фенотипом, строят многочисленные метаболические «деревья», соответствующие разным известным молекулярным взаимодействиям внутри клетки. Затем для поиска наилучшей модели, описывающей определенный фенотип, с «деревьями» осуществляют на компьютере различные операции, подобные мутациям и рекомбинациям в геноме. Следующий этап — отбор тех из них, которые в наибольшей мере соответствуют реальным данным. В конечном итоге все это позволяет осуществлять прогностическое нелинейное картирование, то есть указать на взаимосвязь между работой определенного набора генов и конкретного фенотипа. А далее уже наступает очередь экспериментаторов, которые должны подтвердить или опровергнуть данные, полученные с помощью генетического программирования. Таким образом, генетическое программирование служит для исследователей некой путеводной звездой. Несмотря на сложность задачи, ожидается, что она будет решена не более чем через несколько десятков лет.
Однако нельзя переоценивать возможности современной биоинформатики, она еще далеко не все может решить. Тем не менее, она выступает в качестве мощного инструмента для первоначальной переработки огромной по объему информации, содержащейся в ДНК. Биоинформатика дает для исследователей ценные данные и делает их поиск целенаправленным. Такой поиск может быть продолжен в дальнейшем с использованием других подходов, в частности, экспериментов на культурах клеток или даже на целых животных. Например, как уже говорилось выше, функции тех или других генов человека можно эффективно изучать на модели трансгенных животных.
Кроме перечисленных выше, биоинформатика решает и множество других не менее важных и сложных задач. Таковым являются разработка методов анализа экспериментальной информации; компьютерное моделирование структурно-функциональной организации (вторичной, третичной структуры) генетических макромолекул (ДНК, РНК и белков), молекулярно-генетических процессов (репликации, транскрипции, сплайсинга, трансляции) и молекулярных взаимодействий между генетическими макромолекулами в генных сетях; исследование закономерностей молекулярной эволюции генетических макромолекул, а также молекулярно-генетических систем. Так, используемый в науке геногеографии картографический подход (о нем мы еще поговорим ниже), позволяющий исследовать пространственное распространение по нашей плавнете различных генетических признаков человека, долгие годы был чрезвычайно трудоемким и отнимал у ученых очень много времени. Использование компьютерных технологий принципиально изменило ситуацию, позволило существенно облегчить эти рутинные процедуры, давая исследователю возможность сосредоточиться непосредственно на вопросах творческого анализа географической изменчивости популяционно-генетических характеристик.
Сравнительный анализ геномов с помощью компьютеров стал одним из наиболее распространенных и эффективных методов изучения их структурно-функциональной организации и эволюции. Об этом уже шла речь выше, когда рассказывалось о функциональной геномике, коснемся мы его и в следующих разделах. Наиболее важные участки генома относительно мало изменяются в процессе эволюции, и их функции, установленные в экспериментах на мышах или мухах, зачастую оказываются такими же и у человека. Экспериментальный поиск генов, которые сходны у человека и животных, занимает недели и месяцы работы целой лаборатории. С помощью созданных геноинформатикой эффективных алгоритмов поиска компьютеры позволяют сделать это за считанные минуты. При наличии сходства последовательностей ДНК геноинформатика, с определенной степенью точности, может предсказать эволюцию геномов, функцию отдельных генов и др.
Биоинформатика способна также предсказать пространственную структуру белка на основании данных по последовательности нуклеотидов в ДНК. Это чрезвычайно важное обстоятельство, так как число известных первичных белковых структур (последовательностей аминокислот), установленных по известным нуклеотидным последовательностям ДНК, намного превосходит число экспериментально подтвержденных пространственных белковых структур. И в этом направлении также разработано большое число подходов. Один из наиболее эффективных — использование информации о пространственной структуре белков, имеющих сходную первичную структуру.
И, наконец, принципиально изменилось взаимодействие между учеными разных стран. С помощью компьютера исследователи из многочисленных научных лабораторий мира осуществляют обмен идеями, результаты их работ быстро появляются в Интернете, там же ученые ищут интересующие их сведения, публикуемые коллегами. Всемирная паутина позволяет специалистам не только обмениваться сообщениями, но и за считанные минуты просматривать специализированные базы данных международных центров, в то время как в обычной библиотеке без специальных программ на это ушли бы дни и месяцы. Уж не говоря о том, что на такие полные библиотеки пришлось бы в каждом научном учреждении тратить гигантские средства. В России, под руководством профессора А. А. Александрова, создана большая и весьма полезная база знаний, в которой любой желающий, имеющий доступ к Интернету, может найти сведения обо всех аспектах, связанных с биологией человека (сайт http://obi.img.ras.ru).
В значительной мере потенциал био- и геноинформатики определяется техническими возможностями. Недавно появилось сообщение, что корпорация IBM продала свой самый мощный в мире коммерческий компьютер компании NuTec Sciences, которая будет использовать его в исследованиях генома человека. Производительность этого компьютера составляет 7,5 трлн. операций в секунду. Он построен на базе 5000 процессоров. И это один из важных путей совершенствования геноинформатики.
Если заглянуть в материал, хранящийся в наиболее полном архиве PubMed, то на конец 2002 года там можно найти свыше 10,5 тыс. научных публикаций, в которых упоминаются слова «геном человека». Сейчас очень трудно уследить за всей информацией, которая появляется ежедневно по данной проблеме. В этой связи одним из перспективных путей развития биологии и генетики в XXI веке сейчас считается создание полной компьютерной модели клетки. Только сверхмощные компьютеры способны обеспечить хранение, систематизацию и переработку той огромной фактической информации, которая накопилась учеными за последнее столетие. Такие клеточные модели теоретически способны не только анализировать существующие базы данных, но и предсказывать ученым пути поиска недостающих звеньев. И здесь для биоинформатики еще предстоит работа на многие десятилетия.
Данный текст является ознакомительным фрагментом.