Глава 6 Филогенетический лес и поиск неуловимого древа жизни в век геномики
Глава 6
Филогенетический лес и поиск неуловимого древа жизни в век геномики
Пер. Э. Шумова
Очень краткая история древа жизни
Концепция древа жизни (ДЖ) в ее современном значении была впервые представлена Дарвином в его записных книжках еще в 1838 году. Двадцатью годами позже Дарвин запечатлел ее в одной-единственной иллюстрации к «Происхождению видов…». Конечно же не ему принадлежит идея изображения генетических взаимоотношений в форме дерева. Деревья столетиями использовались для изображения родословных, таких как настоящие истории семей (королевских, к примеру). Тем не менее именно Дарвину принадлежит плодотворная идея о том, что различные виды связаны между собой древом, причем листья соответствуют существующим в настоящее время видам, а внутренние вершины[57] — вымершим, предковым формам. Более того, Дарвин сформулировал радикальную гипотезу о том, что в конечном счете вся история жизни может быть представлена в виде одного гигантского древа.
Родство всех существ одного класса иногда изображают в форме большого дерева. Я думаю, что это сравнение очень близко к истине. Зеленые ветви с распускающимися почками представляют существующие виды, а ветви предшествующих лет соответствуют длинному ряду вымерших видов… Разветвления ствола, делящиеся на своих концах сначала на большие ветви, а затем на более и более мелкие веточки, были сами когда-то, когда дерево еще было молодо, побегами, усеянными почками; и эта связь прежних и современных почек, через посредство разветвляющихся ветвей, прекрасно представляет нам классификацию всех современных и вымерших видов, соединяющую их в соподчиненные друг другу группы (Darwin, 1859) (здесь и далее пер. К. А. Тимирязева, С. Л. Соболя, цит. по изд.: Дарвин Ч. Сочинения. Т. 3. М: Изд-во АН СССР, 1939).
В шестом издании «Происхождения…» (Darwin, 1872) Дарвин пошел дальше и недвусмысленно ввел понятие ДЖ.
Как почки в процессе роста дают начало новым почкам, а эти, если только сильны, разветвляются и заглушают многие слабые ветви, так, полагаю, было при воспроизведении и с великим древом жизни, наполнившим своими мертвыми опавшими сучьями кору земли и покрывшим ее поверхность своими вечно расходящимися и прекрасными ветвями.
Для дарвиновских времен это было невероятно смелое предположение, ведь никаких веских свидетельств в пользу общего происхождения всех форм жизни не было, не говоря уже о том, что Дарвин и другие биологи XIX века понятия не имели о том, насколько жизнь на Земле на самом деле многообразна. Тем не менее гипотеза универсального общего предка стала популярной. Через несколько лет после публикации «Происхождения…» Геккель населил абстрактное древо жизни Дарвина реальными формами жизни, почти исключительно животными, с ЧЕЛОВЕКОМ на вершине и амебами и дробянками (название бактерии в XIX веке) у корней (Haeckel, 1997). С тех пор ДЖ стало центральным элементом эволюционной биологии и в каком-то смысле биологии вообще.
На протяжении примерно 140 лет после Дарвина и Геккеля филогенетические деревья (изначально конструируемые на основании фенотипических признаков, но после фундаментальных работ Эмиля Цукеркандля и Лайнуса Полинга в начале 1960-х все чаще полагающиеся на сравнение молекулярных последовательностей) воспринимались как в целом точные отображения эволюции соответствующих организмов. Другими словами, древо, выстроенное для конкретного признака или гена, приравнивалось, по умолчанию, к «древу видов». Принятие 16S-рРНК, молекулы, универсальной для клеточных форм жизни, в качестве золотого стандарта генетической реконструкции привело к трехдоменному древу жизни Вёзе и коллег. Это была достойная кульминация героического периода филогенетики (Pace, 2006; Woese, 1987; Woese et al., 1990). В древе 16S РНК содержались части с великолепным разрешением ветвей, и, хотя многие другие части остались проработаны довольно слабо, в особенности в глубине древа, ожидалось, что дальнейшее усовершенствование методов филогенетики, вкупе с анализом нескольких дополнительных универсальных генов, позволит получить подробную и исчерпывающую топологию ДЖ в не столь отдаленном будущем (Pace, 1997).
Сложности у концепции ДЖ появились еще до появления геномики, поскольку стало ясно, что среди некоторых распространенных и необходимых генов прокариот наблюдаются множественные горизонтальные переносы генов (ГПГ). Петер Гогартен и коллеги предложили метафору «сеть жизни» в качестве потенциальной замены ДЖ (Hilario and Gogarten, 1993). Однако эти идеи не получили значительной поддержки в догеномную эру, и ГПГ рассматривался в основном как незначительный эволюционный процесс, важный в отдельных областях (таких как распространение устойчивости к антибиотикам), однако в общем эволюционном процессе играющий второстепенную роль — и являющийся несущественным осложнением в процессе построения всеобъемлющего ДЖ. В конце 1990-х сравнение геномов прокариот радикально изменило эту картину, показав, что распределение большинства среди геномов неоднородно (члены большинства КОГ разбросаны среди разнообразных организмов) и топологии филогенетических древ отдельных генов часто не соответствуют друг другу. Эти данные позволили предположить, что ГПГ очень широко распространен среди бактерий и архебактерий и также представлял определенную важность для эволюции эукариот, особенно в контексте эндосимбиоза (см. гл. 7). Таким образом, идеальное ДЖ оказалось химерой, поскольку широко распространенный ГПГ приводит к тому, что древо любого отдельного гена не является точным отображением эволюции целых геномов. Осознание того, что ГПГ среди прокариот является доминирующей формой эволюции, а не редким процессом, привело к идее «выкорчевывания» ДЖ — прежде всего в нескольких влиятельных обзорных статьях Форда Дулитла (Doolittle, 1999a, b, 2000). Заявленное падение ДЖ привлекло к себе много внимания не только в профессиональных публикациях, но и в научно-популярной литературе (Pennisi, 1999). Это событие часто воспринимается как сдвиг парадигмы эволюционной биологии, если не биологии вообще (O’Malley and Boucher, 2005; см. прил. I).
Взгляды эволюционных биологов на статус ДЖ в свете широкой распространенности ГПГ охватывают весь диапазон — от (i) упорного отрицания значения роли ГПГ в эволюции жизни до (ii) «умеренного» пересмотра концепции ДЖ и вплоть до (iii) полного «выкорчевывания» ДЖ, когда сама эта концепция объявляется лишенной смысла как представление эволюции организмов или геномов (O’Malley and Boucher, 2005). По мере накопления сравнительных геномных данных, установка на отрицание ГПГ быстро становится скорее некоей психологической странностью, нежели научной позицией, которую можно обосновать. Настоящие споры идут, похоже, между «ревизионистами» и «радикальным корчевателями» (ii и iii). Сторонники умеренного подхода придерживаются мнения, что, несмотря на все различия между древами отдельных генов, ДЖ по-прежнему имеет большое значение как главная тенденция, которая, хотя бы в принципе, может быть охарактеризована посредством всестороннего сравнения топологий филогенетических древ (Wolf et al., 2002). Приверженцы радикальных взглядов, напротив, считают, что массовые ГПГ уничтожают самые различия между вертикальными и горизонтальными путями передачи генетической информации, поэтому концепция ДЖ должна быть оставлена в пользу сетевой репрезентации эволюции (в широком ее понимании) (Doolittle and Bapteste, 2007; Gogarten et al., 2002).
Противоречивость концепции ДЖ особенно ярко проявилась в дебатах вокруг автоматически построенного «древа жизни в высоком разрешении», которое Пер Борк с коллегами получили путем объединения выровненных последовательностей тридцати одного высококонсервативного белка, в основном из участвующих в процессе трансляции (Ciccarelli et al., 2006). Очень скоро это предполагаемое ДЖ было отброшено как «древо 1 процента» (генов в любом произвольном геноме), которое в целом не отражает историю геномов. По крайней мере для меня эффектно сформулированный аргумент Тал Даган и Билла Мартина (Dagan and Martin, 2006) звучит неотразимо и достоин развернутой цитаты:
«Когда химики или физики обнаруживают, что некая нулевая гипотеза может объяснить только 1 процент полученных ими данных, они немедленно начинают искать другую, лучшую гипотезу. Но похоже, с микробной эволюцией дело обстоит иначе, что не может не беспокоить. Возможно ли, что многие биологи изо всех сил хотят отыскать древо жизни, невзирая даже на то, что говорят им факты?»
В настоящей главе я представляю полное разбиение эволюции прокариот на древовидные и сетевидные компоненты, которые, как мне кажется, вполне могут объективно определить роль и место древ в нашем понимании эволюции, а также в определенной степени разрешить полемику вокруг ДЖ. Однако, прежде чем приступить к этому количественному анализу, мы рассмотрим на концептуальном уровне корни «древесного мышления»[58].
Фундаментальные единицы эволюции и присущая им древовидная природа
Как было рассмотрено в главе 2, репликация генетического материала, процесс, по самой своей сути предрасположенный к ошибкам, является одновременно и условием, и прямой причиной эволюции. Критическим в определении статуса древа в биологии является то, что репликация и непременно следующая за ней эволюция суть по природе своей древовидные процессы (Koonin and Wolf, 2009a). И в самом деле, воспроизводящаяся молекула порождает две копии (в случае полуконсервативной репликации дцДНК, которая происходит во всех клеточных организмах и во многих вирусах) или множество копий (в случае консервативной репликации вирусов с геномами, представленными оцДНК или оцРНК) с ошибками, что приводит к древовидному процессу разветвления (см. рис. 6-1). В терминах теории графов — такой процесс может быть изоморфно представлен в виде особой формы направленного ациклического графа, известного как древовидное образование (arborescence) — то есть обобщенное дерево, в котором допустимы множественные разветвления, а все ребра направлены в противоположную от корня сторону (см. рис. 6-1). Хотя случайное вымирание одной или обеих молекул-потомков порождает вершины, не испускающие ребер, такой граф остается древовидным образованием; определение этого класса графов не требует, чтобы листья находились на одном уровне (см. рис. 6-1; здесь и далее вместо термина «древовидное образование» я буду использовать более распространенный термин «дерево»).
Рис. 6-1. Дерево (древовидное образование) как изоморфное представление предрасположенного к ошибкам процесса репликации генов. Схематическое изображение истории репликации генетического элемента, включающее как раздвоения, так и множественные разветвления (отмечены звездочкой). Зафиксированные мутации показаны штрихами. Адаптировано из Koonin and Wolf, 2009a.
Потенциально серьезным осложнением для древовидного характера эволюции является рекомбинация. Будучи широко распространенной, рекомбинация может превратить представление истории воспроизводящегося ряда поколений из дерева (см. рис. 6-1) в сеть (или, того хуже, в полную кашу). Возможно ли определить фундаментальный, «атомный» уровень генетической организации, на котором рекомбинацией можно пренебречь? Это представляется сомнительным в случае гомологичной рекомбинации, широко распространенной во время совместной репликации близкородственных последовательностей, в частности у эукариот, вовлеченных в обычные половые отношения, и у «квазиполовых» прокариот. Чаще всего единицей гомологичной рекомбинации является одиночная пара оснований. Однако гомологичная рекомбинация не может происходить между отдаленно родственными последовательностями, поэтому ГПГ между таксономически удаленными прокариотами подразумевает только негомологичную (незаконную) рекомбинацию, которой способствуют специфические механизмы, такие как распространение генов через бактериофаги и плазмиды (см. гл. 5). В отличие от гомологичной рекомбинации, следует ожидать, что эволюционная фиксация событий негомологичной рекомбинации вне генов или между частями генов будет гораздо предпочтительнее; сохранение целостности гена после негомологичной рекомбинации внутри генов крайне маловероятно. Распространенность внутригенной рекомбинации в ходе ГПГ между отдаленно связанными прокариотами не изучалась сколь-нибудь подробно. Тем не менее как минимум одно исследование показывает, что сегменты, кодирующие сравнительно небольшие белковые домены, в значительной степени избегаются рекомбинацией (Chan et al., 2009). Отсюда следует важный и правдоподобный, хотя и не подкрепленный пока что в достаточной мере данными, вывод: из-за гомологичной рекомбинации эволюционная история гена или домена представляет собой сетевую структуру на малых масштабах, но преимущественно древовидную на больших (см. рис. 6-2).
Рис. 6-2. Эволюция гена имеет сетевой вид на малых масштабах, но древовидный на больших. Изображение схематично описывает эволюцию четырех генов. История расхождения каждого гена была вычислена на модели произвольной гомологичной рекомбинации с экспоненциальным снижением частоты рекомбинации с расхождением последовательностей. На каждом шаге моделирования два дочерних гена расходились на постоянную величину (расхождение по принципу молекулярных часов) и либо подвергались гомологичной рекомбинации (что сводило разницу между ними к нулю), либо нет, сохраняя существующее состояние расхождения. После некоторого количества коротких периодов расхождений и рекомбинаций гены стохастически расходились достаточно далеко, чтобы (гомологичная) рекомбинация стала крайне маловероятной. После этой точки они продолжали расходиться без рекомбинации. На большом масштабе это выглядит как простое раздвоение на дереве-графе. Адаптировано из Koonin and Wolf, 2009a.
Форд Дулитл и Эрик Батист предположили и продемонстрировали на весьма убедительных примерах, что с помощью дерева можно легко описать отношения между объектами, которые отнюдь не связаны общей родословной, a потому «древесное мышление» не следует считать априорно применимым или, во всяком случае, центральным в биологии (Doolittle and Bapteste, 2007). Несмотря на то что аргумент этот сам по себе обоснован, в нем упускается из вида то принципиально важное обстоятельство, которого мы касались выше, а именно что дерево — это неизбежное формальное следствие истории репликации нуклеиновых кислот и последующей эволюции. Таким образом, деревья нельзя убрать из эволюционной биологии по фундаментальной причине: они изначально присущи эволюционному процессу. И тогда наиболее уместным вопросом становится такой: каковы фундаментальные генетические единицы, эволюция которых лучше всего представима деревом? В практике эволюционной биологии деревья чаще всего выстраиваются для отдельных генов или для наборов генов, которые, как считается, имеют общую историю. Однако обычно подразумевается (или даже недвусмысленно заявляется), что конечной целью является древо видов (организмов). Недостаток ясности в вопросе об основной единице, деревья которой должны строиться и анализироваться, является важным (если не главным) источником всей дискуссии вокруг ДЖ.
На концептуальном уровне ответ на заданный выше вопрос кажется ясным: фундаментальную единицу эволюции можно в целом удовлетворительно определить как самую малую порцию генетического материала с отчетливой эволюционной траекторией — то есть такую, которая развивается независимо от других таких же единиц на протяжении достаточно длительного эволюционного периода. На практике, учитывая динамический характер эволюции прокариот, описанный в главе 5, критерию фундаментальной единицы древовидной эволюции отвечает геномный локус, кодирующий РНК или белок (или индивидуальный эволюционный домен). (Очевидно, такая единица соответствует гену, за исключением мультидоменных белков.) В самом деле, как впервые явно отметил Ричард Докинз (Dawkins, 2006), гены в большой степени эгоистичны, то есть подвержены отбору, частично независимому от других генов. В условиях обширного ГПГ ген или оперон потенциально может оказаться в широком спектре организмов. Конечно, обычно это происходит, когда некий ген дает селекционное преимущество организму-носителю, поэтому эволюция генов и эволюция организмов тесно связаны.
Осознание того, что отдельные гены, в противоположность геномам, являются «атомами» эволюции, ставит под сомнение самую идею ДЖ. Тем не менее, как было показано выше, деревья невозможно убрать из какого бы то ни было описания эволюции, по той простой причине, что репликация генетического материала — процесс по сути своей древовидный. Эти два фундаментальных наблюдения вместе приводят к логичному заключению о том, что должно прийти на смену ДЖ: лес жизни (ЛЖ), то есть совокупность филогенетических деревьев всех генов (за очевидным исключением ОРС). В таком случае реконструкция истории жизни (ясно, что не всей истории полностью, но ее «скелета») не так проста, как анализ топологии ДЖ. Эта реконструкция требует картирования ЛЖ в поисках «рощ» подобных деревьев, которые могут быть отражением долгосрочных тенденций связанной (вертикальной) эволюции наборов генов, и «лиан» ГПГ. Представляется, что всестороннее исследование ЛЖ и есть главная цель филогенетики. В следующем разделе я преимущественно рассматриваю результаты недавних исследований ЛЖ, проведенных совместно с моими коллегами Пере Пуигбо и Юрием Вольфом (Puigbo et al., 2009, 2010). Это ни в коем случае не единственные исследования, сравнивающие филогенетические деревья и пытающиеся провести различия между вертикальной и горизонтальной тенденциями в эволюции. Однако эта работа соответствует современным требованиям, и мне кажется, что мы нашли пригодные способы для представления отношений между деревьями многочисленных генов, поэтому краткое изложение этих результатов дает хорошее представление о структуре ЛЖ. (Изложение в следующих двух разделах носит заметно более специальный характер, чем эта книга в целом; некоторые читатели могут решить сразу перейти к заключительным параграфам каждого раздела, а затем и к краткому обзору главы.)
Лес жизни и почти универсальные филогенетические деревья
В принципе в ЛЖ входят деревья для «всех» генов. Однако на деле работать с тысячью или около того геномных последовательностей прокариот (это число увеличится на несколько сотен к тому времени, когда эта книга будет опубликована) тяжело технически, поскольку максимально правдоподобные (maximum likelihood) методы построения деревьев, обеспечивающие наилучшее разрешение, тяжелы в вычислительном отношении (то есть плохо масштабируются с увеличением числа видов). К счастью, использование всех геномов, видимо, не так уж и важно. Несмотря на динамичную эволюцию прокариот, гены ядра и оболочки в близкородственных организмах (идентифицированные, к примеру, по высокому сходству последовательностей рРНК или других генов ядра) большую часть времени эволюционируют синхронно (а только гены ядра и оболочки распространены достаточно широко для получения информативных филогенетических деревьев). Таким образом, тщательно отобранного представительного набора организмов должно быть достаточно для определения главных тенденций в ЛЖ. Для исследований, которые здесь рассматриваются, мы сконструировали такой набор из 100 геномов прокариот, 41 архейного и 59 бактериальных (в дальнейшем в этой главе мы ссылаемся на эти прокариоты как на виды — с полным осознанием ограничений этой концепции, которые были отмечены в гл. 5). Деревья были построены для всех наборов ортологов с более чем четырьмя членами (минимальное число последовательностей, необходимых для построения бескорневого дерева), таким образом, в общей сложности мы получили 7000 деревьев. Как и ожидалось, с учетом структуры генного пространства прокариот из ядра, оболочки и облака, описанной в главе 5, большинство из этих деревьев маленькие: только 2040 состояли из более чем 20 видов, и лишь небольшой набор из 102 почти универсальных древ (ПУД)[59] включали более 90 процентов проанализированных прокариот.
Обычно филогенетики пытаются определить ГПГ путем сравнения деревьев отдельных генов с заданным заранее «древом видов». Однако, как мы увидели в предыдущем разделе, сама концепция «древа видов» сводится на нет всепроникающим ГПГ и эгоистичностью отдельных генов, которые являются фундаментальными единицами древовидной эволюции. Мы попытались исследовать структуру ЛЖ, не руководствуясь какой-либо предвзятой идеей стандартного древа, с которым следует сравнивать все остальные деревья. С этой целью мы проанализировали полную матрицу топологических расстояний между деревьями; это была довольно большая матрица, включающая почти 24 миллиона попарных сопоставлений деревьев, хотя многие клетки в матрице были пусты, потому что соответствующие деревья состояли из непересекающихся наборов видов.
На рис. 6-3 ЛЖ представлен в виде сети, где каждый узел соответствует дереву. Мы видим, что группа ПУДов занимает особое место в этой сети: около 40 процентов деревьев крайне похожи как минимум на один из ПУДов. (Два дерева считаются топологически подобными, когда различия в соединениях между их ветвями незначительны; из топологических различий высчитываются расстояния между деревьями. Подробности этих вычислений мы опустим.) Напротив, при использовании того же порога сходства 102 случайных дерева того же размера, что и ПУДы, были связаны всего лишь с примерно 0,5 процента деревьев в ЛЖ. Таким образом, существует высокое и неслучайное топологическое подобие между ПУДами и значительной частью ЛЖ.
Рис. 6-3. Лес жизни как сеть деревьев. Каждый узел в сети обозначает дерево. 102 почти универсальных дерева (ПУД) показаны в виде темных точек в середине, а остальные деревья — в виде незаштрихованных кружков. ПУДы связаны с деревьями с подобной топологией — то есть обладающими как минимум 50-процентным подобием с как минимум одним ПУДом. Адаптировано из Puigbo et al., 2009.
Зная все расстояния между деревьями в ЛЖ, мы можем применить статистические методы для кластеризации данных — то есть определить, является ли ЛЖ просто облаком случайно расположенных точек (деревьев в топологическом пространстве) или содержит определенные кластеры деревьев с подобными топологиями. Использованный статистический метод разделил ЛЖ на семь кластеров деревьев. Примечательно, что все ПУДы образовали компактную группу в пределах одного из кластеров (см. рис. 6-4). Семь кластеров существенно отличаются по распределению деревьев по количеству видов, распределению архебактерий и бактерий, а также функциональной классификации соответствующих генов. Таким образом, результаты кластеризации показали, что ЛЖ может быть разделен на крупные, отчетливые группы топологических подобных деревьев; однако на этой стадии по-прежнему неясно, насколько эта кластеризация обусловлена «вертикальными» эволюционными процессами и насколько — горизонтальными. Ключевым наблюдением является то, что все ПУДы занимают компактную, неразрывную область пространства ЛЖ, не разделяются на отчетливые кластеры (в отличие от остальных деревьев в ЛЖ) и отделены примерно одинаковыми расстояниями от всех кластеров (см. рис. 6-4).
Рис. 6-4. Кластеризация леса жизни в топологическом пространстве. Кластеры были получены с помощью классического многомерного шкалирования (метод кластеризации, являющийся по сути более изощренной версией популярного подхода анализа главных компонентов). ПУДы произвольно помещены в центр, показано среднее подобие между ПУДами и каждым из кластеров. Адаптировано из Puigbo et al., 2009.
Результаты первой части нашей экспедиции в чащу леса жизни приводят к важному заключению: топологии ПУДов крайне схожи между собой и, возможно, представляют главную эволюционную тенденцию в ЛЖ. Заявление о главной тенденции может показаться неочевидным, однако оно отражает очень простые и непосредственные наблюдения:
1. Топологии ПУДов сильно схожи с топологиями многих других деревьев в ЛЖ.
2. ПУДы расположены на приблизительно одинаковом расстоянии от кластеров других деревьев. В этом смысле они занимают центральное положение в ЛЖ.
До сих пор мы говорили о ПУДах отвлеченно, не учитывая реальных генов, которые стоят за этим набором больших деревьев. На самом деле природа ПУДов вполне предсказуема: это гены, кодирующие рибосомные белки, а также другие высококонсервативные белки, участвующие в трансляции, наряду с некоторыми ключевыми субъединицами ДНК-зависимой РНК-полимеразы. Это гены, которые, согласно гипотезе сложности, должны быть наименее предрасположены к ГПГ (Jain et al., 1999). Этот набор почти универсальных генов, что несколько парадоксально, также являет собой один из наиболее впечатляющих примеров ГПГ, в частности среди аминоацил-тРНК-синтетаз (АРСаз), некоторые из которых отвечают за устойчивость к антибиотикам, но также и среди некоторого количества рибосомных белков. Как бы то ни было, приведенные здесь наблюдения недвусмысленно показывают, что группа ПУДов внутренне топологически плотная и, более того, связана топологическим подобием со многими другими деревьями в ЛЖ.
В свете практически вездесущего ГПГ ничто не может восстановить ДЖ во всей его былой славе. Однако, если бы нам пришлось искать наиболее осмысленное приближение ДЖ, консенсусная топология ПУДов выглядела бы лучшим из кандидатов. Но прежде чем мы торжественно введем ПУДы в эту должность, следует обсудить более глубокие аспекты эволюции.
В глубь леса жизни: Большой взрыв или сжатый кладогенез?
В предыдущем разделе мы увидели, что ПУДы занимают особое положение в ЛЖ. Они топологически подобны друг другу и, следовательно, могут представлять главную тенденцию вертикальной, древовидной эволюции. Однако прежде чем мы признаем, что эти деревья почти универсальных, важнейших генов и в самом деле отражают главную тенденцию в ЛЖ, следует задать следующий ключевой вопрос: пронизывает ли древовидный сигнал всю историю жизни или ограничивается сравнительно недавней эволюцией?
Для такого вопроса у нас есть веская причина. Многие филогенетические исследования, включая изучение суперсети ПУДов (опуская технические детали, суперсеть — консенсусное дерево, сформированное путем «усреднения» топологий ПУДов), явным образом показывают, что глубокорасположенные внутренние узлы филогенетических деревьев, как правило, плохо разрешены по сравнению с узлами, расположенными ближе к листьям (см. рис. 6-5а). Эта особенность повторяется на многих различных уровнях истории жизни: к примеру, слабое разрешение среди глубочайших ветвей замечено как в филогенетическом древе млекопитающих, которое охватывает промежуток времени примерно в 100 миллионов лет, так и в гипотетическом полном ДЖ, которое охватывает более 3,5 миллиарда лет (Rokas and Carroll, 2006). Во всех этих случаях эволюционные интервалы, включающие первичное разделение крупных групп организмов, оказываются особыми, отличными от «нормальных» эволюционных эпох (аналогия с прерывистым равновесием хотя и поверхностна, но все же соблазнительна — см. гл. 2). Для объяснения этой особенности были предложены две модели:
1. Сжатый кладогенез (см. рис. 6-5а; Rokas and Carroll, 2006).
2. Более радикальная модель «биологического Большого взрыва»[60] (ББВ; см. рис. 6-5б; Koonin, 2007a).
Согласно модели сжатого кладогенеза, эволюция — или, точнее, появление новых групп организмов (клад, то есть отдельных монофилетических ветвей филогенетического древа) в эпохи трансформаций — происходит быстро, образуя очень короткие внутренние ветви. Соответственно, порядок ветвления в этих частях деревьев крайне тяжело определить с высокой степенью надежности какими бы то ни было филогенетическими методами. Тем не менее в принципе, согласно модели сжатого кладогенеза, существует уникальный порядок ветвей, присущий всему ДЖ (вне зависимости от конкретной интерпретации идеи ДЖ). Модель ББВ утверждает, что переходные эпохи качественно отличаются от «нормальных» древовидных периодов эволюции: модель постулирует, что в результате бурного ГПГ, включая массовый приток генов, вызванный эндосимбиозом и другими процессами, на этих стадиях эволюции полностью отсутствует древовидный сигнал. Отчасти упрощая модель, можно сказать, что в переходные фазы память о предшествующей древовидной эволюции изглаживается и эволюционирующие геномы формируют единый генетический фонд, откуда и возникают новые клады. Какая бы длина ни присваивалась соответствующим внутренним ветвям в процессе построения древа, согласно модели Большого взрыва это не более чем артефакты; истинная длина всех этих ветвей в точности равна нулю (см. рис. 6-5б). Вопрос о том, существует ли различимый филогенетический сигнал в самых глубоких узлах деревьев, очевидно важен для обоснования главной древовидной тенденции в ЛЖ, которая предположительно может быть аппроксимирована из топологий ПУДов. К счастью, обе модели могут быть проверены более глубоким анализом тенденций в ЛЖ.
Рис. 6-5. Две модели переходных эпох в эволюции: а — сжатый кладогенез (СК); б — биологический Большой взрыв (ББВ)
Мы ввели новую меру, показатель несовместимости (ПН), которая определяет, насколько репрезентативна топология заданного древа по сравнению со всем ЛЖ (этот показатель — просто величина, обратная к доле случаев нахождения фрагментов данного дерева во всех деревьях ЛЖ (Puigbo et al., 2009). Используя ПН, мы объективно изучаем тенденции в ЛЖ, не полагаясь на топологию заранее выбранного «древа вида». Графики на рис. 6-6 показывают зависимость ПН от филогенетической глубины деревьев во всем ЛЖ и отдельно в ПУДах. Опять же, оставляя в стороне технические тонкости, — чтобы построить эти графики, необходимо разделять деревья на фракции в рамках определенного интервала глубин (особая процедура, детали которой не важны, была разработана для определения глубины по шкале от 0 до 1) и взять среднее значение ПН для этого конкретного интервала. Два графика и разница между ними весьма интересны. График для всего ЛЖ имеет сходство с графиками, описывающими фазовые переходы в различных физических процессах: на определенной глубине значение некоторой переменной (в нашем случае показателя несовместимости) изменяется очень резко (см. рис. 6-6). График для ПУДов сильно отличается: он демонстрирует значительно более низкие значения ПН (то есть топологии ПУДов в среднем более сходны друг с другом, чем топологии других деревьев в ЛЖ) и менее резкие изменения критической глубины, которые вряд ли можно квалифицировать как фазовый переход (см. рис. 6-6).
Рис. 6-6. Зависимость показателя несовместимости деревьев от филогенетической глубины леса жизни. Обратите внимание на резкий фазовый переход в графике для всего ЛЖ и значительно более гладкий переход на графике для ПУДов. Адаптировано из Puigbo et al., 2009.
Обнаружение фазового перехода предполагает реальную возможность того, что глубокие части ЛЖ лучше всего описываются моделью ББВ (заметим, что в современной космологии Большой взрыв в буквальном смысле считается фазовым переходом, как разъясняется в прил. II). Чтобы изучить эту возможность, мы разработали компьютерную модель эволюции, которая симулировала Большой взрыв (то есть полное перемешивание порядка расположения ветвей в деревьях) на различных филогенетических глубинах и воспроизводила графики, показанные на рис. 6-6, с различными уровнями дополнительного ГПГ. К большому нашему удивлению, нам не удалось найти комбинацию параметров (глубина Большого взрыва и уровень ГПГ), при которой воспроизвелся бы график, имеющий близкое сходство с рис. 6-6. Кривая, хорошо согласующаяся с эмпирическими наблюдениями, была получена только в симуляции без Большого взрыва в момент или после отделения бактериальных типов — a Большой взрыв (или любое другое событие), который предшествовал бы этому разделению, находится за пределами нашего «горизонта событий» в этом анализе. Таким образом, сопоставление деревьев в ЛЖ, по-видимому, лучше описывается моделью сжатого кладогенеза, хотя, учитывая сложность проблемы, дополнительный анализ определенно необходим.
Если придерживаться модели сжатого кладогенеза, мы должны заключить, что ПУДы и в самом деле представляют главную древообразующую тенденцию, которая сохранялась на протяжении всей эволюции клеточной жизни. Выражаясь более биологическими терминами, около ста белок-кодирующих генов, которые составляют трансляционную и ядро транскрипционной систем (вместе с универсальными рРНК и тРНК), эволюционировали в основном как единый ансамбль со времени последнего универсального общего предка (LUCA) всех форм клеточной жизни (см. гл. 11). Таким образом, эволюция этого набора генов является, вероятно, наилучшим возможным отражением истории организмов, которое можно получить из молекулярных филогений. Что касается переходных эпох в эволюции жизни, их, видимо, лучше всего можно описать как фазы сверхбыстрой, взрывообразной эволюции, которые были запущены затуханием предшествующего многообразия жизненных форм и жесточайшими «бутылочными горлышками» для немногих выживших (см. гл. 9).
Разделение эволюции прокариот на древовидный и сетевидный компоненты
Как мы видели в предыдущем разделе, сигнал древовидной эволюции, который можно определить как консенсусную топологию ПУДов, по-видимому, отражает главную тенденцию в ЛЖ и может быть прослежен во всем диапазоне филогенетических глубин, несмотря на существенный уровень ГПГ. И напротив, общую сумму всех эволюционных схем, которые оказываются несовместимыми с консенсусной топологией ПУДов, будь они вызваны ГПГ или другими процессами (такими как параллельные потери генов, которые тоже часты среди прокариот), можно обозначить как сетевидный сигнал. Мы разработали количественную меру, чтобы прямо оценить (по шкале от 0 до 1) вклады древовидных и сетевидных компонент в эволюционные расстояния между видами (Puigbo et al., 2010). Чем ниже показатель (то есть чем ближе он к случайно ожидаемому расстоянию, в предположении, что гены смешиваются свободно), тем более отношения между заданной парой видов определяются сетевидными эволюционными процессами. На карте «дерево — сеть» ПУДов доминировал древовидный сигнал (темная область на рис. 6-7а): средний показатель для ПУДов составил 0,63, так что эволюция почти универсальных генов прокариот оказывается примерно на две трети древовидной. Исключениями являются радиорезистентная бактерия (Deinococcus radiodurans), проявившая главным образом сетевидные отношения с большинством архебактерий, и некоторые из бактериальных таксонов (Thermotogae, Aquificales, Cyanobacteria, Actinobacteria, Chloroflexi, Firmicutes и Fusobacteriae), каждый из которых сформировал сильносвязанную сеть с другими бактериями (см. рис. 6-7а).
Рис. 6-7. Древовидный и сетевидный сигналы в эволюции прокариот: а — 102 ПУДа; б — ЛЖ без ПУДов (6799 деревьев). Древовидный сигнал усиливается от темной (сетевидная эволюция) к светлой (древовидная эволюция) области. Виды расположены согласно топологии супердрева 102 ПУДов, которое было взято в качестве вертикального (древовидного) сигнала. На рис. а отмечены крупнейшие группы архебактерий и бактерий. Адаптировано с разрешением из Puigbo et al., 2010.
Рис. 6-8. Сигналы древовидной и сетевидной эволюции для различных функциональных классов прокариотических генов. Порядок и нумерация видов как на рис. 6-7. Функциональная классификация генов взята из системы КОГ (Tatusov et al., 2003). Обозначения: J — трансляция, рибосомная структура и биогенез; U — внутриклеточный обмен, секреция и везикулярный транспорт; K — транскрипция; L — репликация, рекомбинация и репарация; D — контроль клеточного цикла, деление клетки и разделение хромосом; F — транспорт и метаболизм нуклеотидов; H — транспорт и метаболизм коферментов; I — транспорт и метаболизм липидов; N — подвижность клетки; O — посттрансляционные модификации, белковый обмен и шапероны; S — функция неизвестна; M — биогенез клеточной стенки, мембраны и оболочки; E — транспорт и метаболизм аминокислот; C — производство и преобразование энергии; G — транспорт и метаболизм углеводов; R — только общее предположение о функции; Q — биосинтез вторичных метаболитов, транспорт и катаболизм; P — транспорт и метаболизм неорганических ионов; T — механизмы трансдукции сигнала; V — защитные механизмы. Адаптировано с разрешением из Puigbo et al., 2010.
B разительном контрасте с ПУДами, в остальной части ЛЖ доминирует сетевидная эволюция со средним показателем 0,39 (примерно на 60 процентов сетевидный сигнал). Примечательно, что области древовидной эволюции перемешаны с областями сетевидной эволюции в различных частях ЛЖ (см. рис. 6-7б). Крупные сетевидные области, которые мы наблюдали среди ПУДов, снова возникают в ЛЖ, однако проявляются и дополнительные подобные области, включающие кренархеоты, которые проявили выраженный сигнал недревовидных отношений с различными бактериями, так же как и некоторые эвриархеоты (см. рис. 6-7б). Более подробный анализ ЛЖ показывает, что сетевидный сигнал доминирует в эволюции генов, которые присутствуют в небольшом количестве прокариот, в то время как эволюция более распространенных генов более древовидна и сильнее похожа на картину, наблюдаемую среди ПУДов (Puigbo et al., 2010). Эта тенденция очевидно совместима с гипотезой оптимизации ГПГ (см. гл. 5), согласно которой гены, часто теряющиеся в ходе эволюции, должны так же часто передаваться, чтобы избежать исчезновения этих генов и мутационного краха микробной популяции (см. гл. 5).
Различные функциональные классы генов проявили значительные различия в отношении древовидных и сетевидных тенденций в своей эволюции, от доминирования древовидного сигнала среди генов для компонентов механизма трансляции и молекулярных шаперонов до практически полностью сетевидной эволюции генов, кодирующих компоненты систем ионного переноса, передачи сигнала и защитных систем (см. рис. 6-8). Такая схема в целом совместима с гипотезой сложности, но, кроме того, выявляет более тонкую картину, с существенными различиями между, например, ферментами метаболизма нуклеотидов, которые эволюционируют преимущественно древовидно, и белками, участвующими в метаболизме и переносе аминокислот или углеводов, у которых сетевидный сигнал куда более заметен (см. рис. 6-8).
Подводя итог, можно сказать, что количественный анализ древовидного и сетевидного сигналов выявляет несомненный парадокс эволюции прокариот: несмотря на то что древовидная эволюция, безусловно, является сильнейшей тенденцией в ЛЖ, количественно в эволюции прокариот доминирует комбинация сетевидных процессов, таких как ГПГ и специфичная для линии утрата генов. Древовидный процесс отражает значительную часть эволюции среди ПУДов; однако, поскольку ЛЖ состоит преимущественно из небольших деревьев, среди которых древовидный сигнал обнаруживается с трудом, сетевидные процессы, которые управляют эволюцией относительно небольших семейств генов, доминируют количественно.
Древовидная эволюция или неслучайный горизонтальный перенос генов?
Гогартен, Лоуренс и Дулитл предложили еретическую (и весьма своеобразную) гипотезу, чтобы объяснить древовидные сигналы, которые можно наблюдать в филогенетическом анализе отдельных генов или ансамблей генов (Gogarten et al., 2002). Согласно этому предположению, древовидная картина эволюции может на самом деле быть последствием (можно сказать, в несколько провокационной манере, артефактом) неоднородного, неслучайного ГПГ, при котором организмы, «близкие» друг к другу на филогенетическом древе, обмениваются генами часто, а среди организмов, «далеких» друг от друга, ГПГ происходит редко. Как мы уже показывали в главе 5, эта возможность определенно имеет биологический смысл: учитывая, что ГПГ переносит ген в чужеродную внутриклеточную среду, можно ожидать, что чем меньше эта среда отличается от исходной (источника перенесенного гена), тем выше шансы для этого перенесенного гена прижиться. Для этой догадки уже даже существуют некоторые экспериментальные подтверждения, хотя и не систематические (Diaz et al., 2011).
Мы использовали структуру ЛЖ, чтобы симулировать эволюцию с переменными градиентами уровня ГПГ, нисходящими от близких к отдаленным организмам, а также чтобы оценить возможность того, что наблюдаемая нами древовидная картина была простым последствием неслучайного ГПГ. В каждой серии симуляций мы проверяли, могут ли характеристики ПУДов, которые мы наблюдали (такие как среднее расстояние между деревьями и степень разделения между археями и бактериями), быть воспроизведены в различных моделях эволюции. Первая серия симуляций началась с топологии супердрева ПУДов, которую мы взяли в качестве репрезентативного сигнала древовидной эволюции, и заключалась в измерении характеристик итоговых деревьев в зависимости от величины градиента ГПГ. Мы и в самом деле обнаружили, что умеренный градиент ГПГ от листьев древа к его центру воспроизводил эмпирически наблюдаемые свойства ПУДов. Вторую серию симуляций мы начали с деревьев-«звезд», в допущении, что древовидная эволюция является статистической аномалией, и затем постепенно развивали градиент ГПГ, присваивая увеличенные уровни ГПГ случайно соединившимся ветвям. В этой симуляции нам не удалось воспроизвести наблюдаемые характеристики ПУДов, даже при экстремально высоких уровнях ГПГ. И хотя эти симуляции, несомненно, являются сверхупрощенными моделями эволюции, они наводят на мысль, что древовидная тенденция и неслучайный ГПГ сосуществуют в ходе эволюции прокариот. И в самом деле, высокий уровень ГПГ между организмами, чьи гены ядра близко связаны древовидной эволюцией, выливается в самоподкрепляющийся процесс, который поддерживает связанные кластеры прокариот на различных уровнях филогенетической глубины.
Краткий обзор и перспектива
Когда Дарвин ввел метафору ДЖ, свидетельства в пользу этой схемы основывались на наблюдениях за эволюцией животных. Однако он с немалой долей уверенности распространил древовидную модель эволюции на жизнь в целом. В узком смысле Дарвин был прав: никто не отрицает, что эволюция животных имеет древовидную структуру. Однако это не древо жизни, это всего лишь описание эволюции отдельной, сравнительно малочисленной, компактной группы эукариот. Распространение этой концепции на всю полноту клеточной жизни на Земле терпит крах из-за сложной сети обширного ГПГ, который чаще всего встречается среди прокариот, но также внес значительный вклад в эволюцию эукариот, в частности при эндосимбиозе (см. гл. 7).
Тем не менее, несмотря на недавно открытый сетевидный характер эволюции, метафора Дарвина отражает глубинную истину: деревья по-прежнему остаются естественным представлением историй отдельных генов, учитывая фундаментально бинарный характер репликации генов и существенно более низкую частоту внутригенной рекомбинации по сравнению с межгенной рекомбинацией на длинных эволюционных дистанциях. Таким образом, хотя ни одно дерево не может в полной мере представлять эволюцию полных геномов и соответствующих форм жизни, реалистичная картина эволюции обязательно сочетает деревья и сети. Эти компоненты можно обнаружить с помощью анализа леса жизни (ЛЖ), полного множества филогенетических деревьев отдельных генов.
Количественный анализ ЛЖ обнаруживает сложный ландшафт древовидной и сетевидной эволюции. Сигналы этих двух типов эволюции распределены чрезвычайно неслучайным образом среди различных групп прокариот и среди функциональных классов генов. В целом сетевидный сигнал количественно доминирует, и это открытие (почти буквально) поддерживает идеи «латеральной геномики» или «сети жизни». Эти результаты, бесспорно, несовместимы с представлением об эволюции прокариот как о ДЖ, украшенном тонкими, случайными «паутинками» ГПГ (Ge et al., 2005; Kunin et al., 2005). Однако древовидный сигнал, совместимый с консенсусной топологией ПУДов, также несомненно обнаруживается и является сильным; согласно нашим измерениям, до 40 процентов эволюции в мире прокариот следует этому образцу. Решающая, хоть и в некотором смысле парадоксальная черта эволюции прокариот состоит в том, что, хотя сетевидные процессы доминируют количественно, самой сильной специфической тенденцией является древовидная эволюция, отраженная в консенсусной топологии ПУДов, которая также в значительной степени повторяет древо рРНК. В принципе эту тенденцию можно назвать «статистическим» или «слабым» ДЖ, хотя я склонен считать, что такая терминология непродуктивна: истинным объектом филогеномики являются ЛЖ и эволюционные структуры, которые можно в нем разглядеть, а не иллюзорное древо жизни.
Древообразующая тенденция эволюции, по-видимому, связана с градиентом ГПГ от близкородственных (в смысле древовидной эволюции) к отдаленным формам жизни. Взаимодействие между древовидной эволюцией и неслучайным ГПГ может создать самоподкрепляющийся эволюционный процесс, который отвечает за внутреннюю устойчивость групп прокариот на различных уровнях филогенетической глубины.
В заключение этой главы мне придется повторить вывод предшествующей: хотя намеченные здесь подходы к количественному анализу ЛЖ информативны и иллюстративны, они конечно же не являются последним словом в методологии филогенетики. По-настоящему пригодный концептуальный аппарат и технический инструментарий для синхронного, всестороннего анализа древовидных и сетевидных эволюционных процессов еще только предстоит разработать. Как только такие методы появятся, мы начнем распознавать истинную картину эволюции.
Рекомендуемая дополнительная литература
Данный текст является ознакомительным фрагментом.