Глава 8 Неадаптивная нулевая гипотеза эволюции генома и истоки биологической сложности
Глава 8
Неадаптивная нулевая гипотеза эволюции генома и истоки биологической сложности
Пер. А. Неизвестного
Эволюционная энтропия и сложность
Немногие модные слова в последние два десятилетия были настолько популярны и в то же время определялись столь разнообразно, зачастую противоречиво, а иногда и обманчиво, как сложность[68]. Несмотря на эту суету, понятие сложности, очевидно, отражает общее, фундаментально важное явление, пронизывающее всю биологию и выходящее за ее рамки. В отличие от многих научных терминов, «сложность» имеет конкретное значение в обыденном языке. Мы узнаем ее, как и порнографию[69], с первого взгляда. Все признают, что млекопитающее или птица сложнее, чем червь, а червь сложнее, чем любой одноклеточный организм. Говоря интуитивно, здесь присутствует дополнительный оттенок, устанавливающий пропорциональность сложности с «развитостью» или «приближением к совершенству».
Поднимаясь уровнем выше чистой интуиции, спросим, что означает большая сложность млекопитающего по сравнению с амебой? Этот вопрос очень важен, если мы стремимся выработать удовлетворительный ответ на известный вопрос: почему вокруг нас существуют слоны и секвойи (даже если их все меньше и меньше), а не одни лишь бактерии и археи с необходимыми и достаточными для функционирования минимальной клетки комплектами генов? Другими словами, какие факторы ведут к появлению сложности в процессе эволюции? В главе 7 мы обсуждали эволюционные сценарии, пытающиеся объяснить, как могла возникнуть поразительно сложная (по сравнению с клетками прокариот) организация эукариотической клетки. В этой главе мы столкнемся с озвученным выше вопросом «почему?» напрямую, и ответы на него будет неожиданными и, возможно, введут некоторых в замешательство.
Рис. 8-1. Содержание информации и сложность: а — одной последовательности; б — выравнивания гомологичных последовательностей; f обозначает частоты нуклеотидов в последовательности (а) или столбце выравнивания (б).
Точное определение организационной — или, в случае биологии, организменной — сложности по самой своей природе дается трудно. Попытки в этом направлении рассматривают различное число составляющих частей в сравниваемых системах[70]. Например, у позвоночных большее количество тканей и типов клеток, чем у червей, и это, естественно, приводит к утверждению, что позвоночные обладают большей организменной сложностью (Bonner, 2004). Для нашего рассуждения, однако, более важен тот факт, что эукариотические клетки имеют гораздо больше внутриклеточных органелл, чем клетки прокариот (те, как правило, вообще не имеют настоящих органелл). Эта разница, безусловно, отражает большую сложность организации эукариотической клетки. Кроме того, можно было бы в принципе измерить число взаимодействий между компонентами или число соединений в сетях передачи сигнала и на этом основании сравнивать сложность организмов или клеток. Однако все эти определения сложности, видимо, упускают «нечто», что мы интуитивно воспринимаем как неотъемлемое свойство сложной организации. В любом случае количественное сравнение организменной сложности, по-видимому, не приносит много пользы в реальных исследованиях. Геномная сложность определяется более естественно и может быть изучена подробнее. Действительно, в конце концов, геномные последовательности представляют из себя длинные строки цифровых символов (букв), а для этого класса объектов хорошо известны формальные, операциональные определения сложности. Вероятно, наиболее известным и наиболее интуитивно осмысленным из них является колмогоровская сложность, которая связана с шенноновской информацией и классическим статистическим определением энтропии по Больцману. Колмогоровская сложность — это просто длина кратчайшей строки символов, в которых может быть закодирована данная последовательность (геном). Очевидно, что наименее сложной последовательностью будет гомополимер (например, polyA), для которого длина сообщения составляет лишь одну букву, а сложность (информационное содержание) — 2 бита (в случае четырех нуклеотидов). Наиболее же сложная последовательность — полностью случайный полимер с равными частотами для всех четырех нуклеотидов (или 20 аминокислот, если мы примем это определение для аминокислотных последовательностей) в каждой позиции. Классическая формула Шеннона для энтропии (информационного содержания) нуклеотидной последовательности длины L (см. рис. 8-1а) может быть записана следующим образом:
Здесь fi — частота символа i (i = A, T, G, C); далее, основание логарифма m считается равным размеру алфавита (4 в случае нуклеотидных последовательностей и 20 для аминокислотных последовательностей)[71]. Определенная таким образом, информация (энтропия) говорит нам очень мало об осмысленном информационном содержании или сложности геномной последовательности. Высокая сложность (энтропия или информационное содержание), очевидно, вовсе не предполагает, что последовательность сложна в каком-либо биологическом значимом смысле. Совершенно случайная последовательность на самом деле, скорее всего, бессмысленна, в то время как гомополимерная последовательность будет иметь ограниченный биологический смысл. Тем не менее почти случайная высокоэнтропийная последовательность может быть столь же функциональной, как и низкоэнтропийная последовательность, — способа узнать это просто не существует. Требуется биологически содержательное определение сложности, и такая попытка была сделана Крисом Адами (Adami, 2002) и несколько по-другому проинтерпретирована автором этой книги (Koonin, 2004). В соответствии с этим новым определением, энтропия и сложность рассчитываются для выравнивания ортологичных последовательностей, а не одной последовательности:
Здесь H(L) — полная энтропия выравнивания n последовательностей длины L, Hi — энтропия для сайта, а Fij — частоты для нуклеотидов (j = A, T, G, C) в сайте i[72]. Очевидно, для полностью консервативного сайта H(i) = 0, в то время как для совершенно случайного сайта H(i) = 1. Обратите внимание, что это определение энтропии полностью соответствует знаменитому статистическому определению Больцмана:
Здесь W — число микросостояний, соответствующих макросостоянию, для которого энтропия рассчитывается таким образом, что она равна нулю для полностью упорядоченного состояния и максимальна для полностью неупорядоченного состояния. Таким образом, определение эволюционной энтропии генома H(L), введенной предыдущей формулой, представляется физически корректным, следовательно, имеет смысл закрепить термин за обозначением этой величины. Эволюционная энтропия также имеет четкий биологический смысл: сайты с низкой энтропией сохраняются лучше и, как следствие, более важны функционально. Логично, что эти сайты несут больше информации о функционировании и эволюции рассматриваемых организмов — и о взаимодействиях между организмами и окружающей средой, что первоначально имел в виду Адами, — чем сайты с высокой энтропией (слабо сохраняемые, относительно неважные). Величина, которую можно определить как биологическую (эволюционную) сложность генома, определяется следующим образом:
Тогда биологическая (эволюционная) плотность информации может быть задана как:
Здесь N — общая длина (число нуклеотидов) генома, Li — длина геномного сегмента, подверженного измеримому отбору (как правило, ген), k — число таких сегментов в геноме, H(L) — эволюционная энтропия для сегмента L, рассчитанная по предыдущей формуле.
Точные значения H нелегко вычислить для полных геномов, поскольку распределение эволюционных ограничений никогда не известно точно (см. гл. 3). Кроме того, есть степень произвольности в выборе ортологов, включаемых для расчета в выравнивание. Тем не менее эти детали не столь важны, если нам нужна только приблизительная оценка. Действительно, доля сайтов, находящихся под отбором по всему геному, уже оценена с достаточной точностью для некоторых модельных организмов, таких как человек и дрозофила (см. гл. 3). Для других, в частности прокариот и одноклеточных эукариот, в качестве достаточного приближения можно взять долю кодирующих нуклеотидов плюс предполагаемую долю регуляторных сайтов; для участков под отбором за среднее значение энтропии можно принять H(i) = 0,5.
Сравнение оценок для H(N), C(N) и D(N) для геномов различных жизненных форм выявляет фундаментальный парадокс. Общая биологическая сложность C(N) монотонно возрастает с размером генома, в частности, для многоклеточных эукариот по сравнению с прокариотами, однако энтропия H(N) возрастает гораздо быстрее, в результате эволюционная плотность информации D(N) резко падает (см. рис. 8-2). Таким образом получается, что организмы, которые обычно воспринимаются как наиболее сложные (к примеру, человек), обладают «энтропийными» геномами с низкой или даже крайне низкой плотностью информации, в то время как организмы, которые мы традиционно считаем примитивными, такие как бактерии, обладают «информационными» геномами, в которых информация плотно упакована и плотность ее высока. Этот парадокс не даст нам много нового по сравнению с уже сказанным в главе 3 об организации различных геномов. Тем не менее поучительно формализовать понятие биологической сложности и выразить его в терминах энтропии, одного из ключевых понятий физики. Формальный разбор понятия сложности указывает на то, что «неладно что-то в Датском королевстве»: геномы организмов, которых мы вполне обоснованно считаем самыми сложными и наиболее «развитыми» (эта идея, возможно, менее оправдана), несут гораздо больше энтропии и, следовательно, имеют гораздо меньшую плотность биологической информации, чем геномы простейших клеточных форм. Перефразируя этот парадокс в более провокационной форме, геномы одноклеточных организмов (особенно прокариот) кажутся несравненно «лучше спроектированными», чем геномы растений и особенно животных.
Парадокс сложности подразумевает, что сложные черты организации геномов «высших» организмов (большие семейства паралогичных генов, сложная регуляция экспрессии генов, альтернативный сплайсинг и многое другое), вероятно, появились не в качестве прямолинейных адаптаций или «улучшений». Объяснение возникновения этих усложнений — большая проблема для эволюционной биологии; возможный ответ пришел в виде новой теории эволюции сложности, предложенной Майклом Линчем в 2003 году (Lynch and Conery, 2003).
Рис. 8-2. Зависимость эволюционной сложности C и плотности биологической информации D от размера генома. Точки — грубые оценки, полученные по приведенным в этой главе формулам, при условии H(i) = 0,5 для несинонимичных сайтов в белок-кодирующих областях и H(i) = 1 для других сайтов. График выполнен в двойном логарифмическом масштабе.
Эффективный размер популяции как общая мера эволюционных ограничений: неадаптивная теория эволюции генома
Как уже говорилось в предыдущем разделе, наиболее сложные организмы на Земле располагают «высокоэнтропийными» геномами, которые представляются крайне неэффективными и «плохо спроектированными». То, что адаптивная эволюция приводит к таким результатам, на первый взгляд кажется просто невероятным. Неформально мотивацию для новой теории эволюции геномной сложности можно изложить следующим образом. Геномы сложных организмов содержат различные особенности, которые существенны для их организационной сложности, но кажутся бесполезными и, следовательно, на момент своего появления по крайней мере слегка вредны. Наиболее известной такой особенностью в геномах многоклеточных эукариот являются интроны, которые обеспечивают возможность альтернативного сплайсинга, происходящего в большинстве генов млекопитающих и представляющего собой главную основу разнообразия протеома (Blencowe, 2006; Wang et al., 2008), а также дуплицированные гены, являющиеся основным источником эволюционных новшеств и разнообразия для эукариот (Lespinet et al., 2002; Lynch and Conery, 2000). Эти геномы также несут в себе многочисленные эгоистичные элементы и прочую ДНК, не подверженную отбору и, в меру нашего понимания, являющуюся «мусором». Сохранение всех этих последовательностей в сложных геномах естественно объясняется слабым (неэффективным) очищающим отбором и, наоборот, большой ролью дрейфа в эволюции данных организмов.
В теории популяционной генетики эффективность очищающего, а также положительного отбора пропорциональна эффективному размеру популяции (Ne) для данного организма, в предположении постоянной скорости мутаций. Только те мутации, для которых |s|?1/Ne (где s — коэффициент отбора, то есть разница в приспособленности между диким типом и соответствующим мутантом), могут быть эффективно зафиксированы (положительный отбор) или отбракованы (очищающий отбор) в ходе эволюции. С другой стороны, мутации с |s|?1/Ne являются «невидимыми» для отбора. Эта простая зависимость, возможно, является основным фактором, определяющим ограничения, которые влияют на различные аспекты эволюции генома и фенома, в частности на фиксацию «украшений», характерных для геномов сложных организмов (Lynch, 2007b, 2007c; Lynch and Conery, 2003).
Действительно, различия в Ne, по-видимому, лежат в основе описанного выше качественного различия между архитектурами геномов одноклеточных и многоклеточных организмов. Существенное увеличение размеров генома представляется достижимым только в организмах с небольшими популяциями и сопутствующим слабым отбором. К сожалению, эффективный размер популяции оценить непросто, хотя имеющиеся грубые оценки варьируют в огромном диапазоне: от порядка 109 для бактерий до 105 и менее для животных (см. табл. 8-1). Более доступные оценки из уровня геномного полиморфизма, которые, как мы увидим в следующем разделе, могут быть даже более актуальными для понимания эволюции геномной сложности, приводятся для произведения Neu, где u — частота мутаций на сайт. Значения Neu изменяются в масштабах примерно двух порядков величины: от около 0,001 у бактерий до примерно 0,1 у позвоночных (см. табл. 8-1). Предсказывается, что сила отбора варьирует соответственно. Как результат, у прокариот, с их типично большими популяциями, даже очень слабовредные мутации со значениями s порядка 10–8 эффективно отбраковываются, и, напротив, в малых популяциях многоклеточных эукариот лишь мутации с относительно большими s порядка 10–4, влекущие за собой существенные последствия для приспособленности, будут уничтожены очищающим отбором. Как мы увидим в следующих разделах, это различие имеет решающее значение для хода эволюции, поскольку значения s для главных «украшений» в сложных геномах, например интронов, находятся в пределах этого диапазона. Таким образом, они в основном устраняются очищающим отбором у организмов с большим Ne, но не у организмов с малым Ne. Эволюционное сохранение любого геномного элемента не означает автоматически, что данный элемент удерживается от отбраковки отбором в силу своего функционального значения; как это ни парадоксально, такая эволюционная консервативность может отражать слабый очищающий отбор, недостаточный для устранения неадаптивных предковых особенностей (Koonin and Wolf, 2010b).
Конечно, Ne не является постоянной на всем протяжении эволюционной истории линии. Напротив, почти неизбежно происходят большие колебания, что приводит к популяционным «бутылочным горлышкам» (участки с низкой Ne), в течение которых эволюция почти полностью зависит от дрейфа, так что многочисленные мало и даже умеренно вредные мутации генома могут быть зафиксированы, обеспечивая сырьем дальнейшую эволюцию. Важно иметь в виду, что даже популяции с большим Ne могут фиксировать слабовредные мутации посредством генетической тяги и хитчхайкинга (см. гл. 2) и, кроме того, нести большой запас нейтральных и слабовредных мутаций, которые не фиксируются, но могут сохраняться в популяции в качестве полиморфизмов в течение длительного времени. Некоторые из этих персистирующих нефиксированных мутаций могут быстро фиксироваться, когда давление отбора меняется и мутация становится выгодной либо когда новая мутация создает полезное сочетание с одним из стойких полиморфизмов.
Эта несложная (и представленная здесь в нарочито упрощенном виде) теория, основанная на популяционной генетике, задает нулевую гипотезу для эволюции генома (Koonin, 2004). В следующих разделах мы рассмотрим эту теорию более подробно и, главное, увидим, выдержит ли она проверку данными сравнительной геномики.
Таблица 8-1
Характеристики популяции и особенности организации генома для различных клеточных форм жизни
Значения Ne и Neu по Lynch, 2006; значения плотности интронов по Csuros et al., 2011; для плотности интронов у прокариот прочерк, поскольку сплайсосомы и, соответственно, сплайсосомные интроны у них отсутствуют; значения плотности генов и плотности информации рассчитаны автором.
Генная архитектура эукариот: наглядная демонстрация неадаптивной теории эволюции генома
Эволюция экзон-интронной структуры гена у эукариот (см. также гл. 7) является отличным примером для обсуждения неадаптивной парадигмы популяционной генетики, позволяющим лучше разобраться в теории и ее предсказаниях. Прежде чем мы рассмотрим особенности эволюции генной архитектуры с этой точки зрения, необходимо понять связь между коэффициентом отбора s и грузом вредных мутаций, привнесенным дополнительным элементом генома (Koonin, 2009b; Lynch, 2007b, 2007c). Каждый добавленный в геном элемент увеличивает уязвимость к мутационной инактивации и тем самым «призывает» к отбраковке этого элемента в популяции. Если этот дополнительный элемент требует n нуклеотидов для сохранения функциональности соответствующего гена, это требование, очевидно, открывает возможность для n вредных мутаций, так что мутационный груз составляет s = nu. Опознание и эффективное удаление каждого интрона сплайсосомой требует участия примерно 25–30 нуклеотидов внутри интрона и смежных экзонов, окружающих донорную и акцепторную границы сплайсинга. Тогда условие для фиксации интрона в популяции выглядит как Neu ? 1/n или Neu ? 0,04.
Сравнивая значения Ne > u и плотности интронов в табл. 8-1, мы сразу видим отличное соответствие между теорией и наблюдениями. Позвоночные с их низкими значениями Neu, очевидно, находятся значительно ниже порогового значения. Действительно, в генах позвоночных наблюдается самая высокая плотность интронов из всех известных. Кроме того, эволюция позвоночных, по-видимому, включает крайне малый оборот интронов, что совпадает с теоретическим предсказанием о недостаточности силы очищающего отбора для устранения интронов в этих организмах. Беспозвоночные и растения находятся немного ниже порога и имеют промежуточные плотности интронов. В разительном контрасте с ними, большинство одноклеточных эукариот лежат выше порога, даже если и ненамного, и демонстрируют резкое падение плотности интронов (см. табл. 8-1).
Позиции многих интронов сохраняются в ортологичных генах животных и растений (см. гл. 7), таким образом, большинство этих интронов представляют наследие LECA. Тем не менее представляется, что позиции интронов сохраняются благодаря слабости очищающего отбора, что исключает эффективную отбраковку интронов у организмов с небольшим Ne, а не из-за ограничений на позицию интрона как таковую[73]. Более детальный анализ интронов и интрон-экзонных стыков вскрывает дополнительные факты, кажущиеся необъяснимыми на первый взгляд, но, по всей видимости, отлично согласующиеся с предсказаниями теории (Irimia et al., 2007). Примечательно, что все интроны в бедных интронами геномах одноклеточных эукариот имеют почти одинаковые, по-видимому жестко контролируемые малые размеры и консервативные, оптимизированные сигналы сплайсинга на экзон-интронных стыках. Напротив, в богатых интронами геномах, особенно у позвоночных, интроны часто имеют большую длину и ограничены относительно слабыми, субоптимальными сигналами сплайсинга. Дальнейший анализ эволюции экзон-интронных границ наводит на мысль, что сигналы сплайсинга в богатых интронами геномах все же эволюционировали под действием отбора, направленного на их оптимизацию, но этот отбор был слишком слаб, чтобы компенсировать стохастическое отклонение от консенсусных последовательностей, — что прекрасно согласуется с теорией популяционной генетики (Irimia et al., 2009).
Как говорилось в главе 7, эволюционные реконструкции определенно свидетельствуют о том, что уже LECA имел высокую плотность интронов, и основная часть дальнейшей эволюции эукариотных геномов включала в себя потери интронов, которые могли быть либо умеренными, в случае большинства животных и растительных линий, либо чрезвычайно обширными, как у большинства одноклеточных эукариот (Carmel et al., 2007; Csuros et al., 2011). Эпизоды появления новых интронов, по всей видимости, были немночисленны и разбросаны во времени и были связаны с возникновением новых крупных групп организмов, таких как животные. Последствия этого наблюдения в контексте неадаптивной популяционно-генетической теории эволюции генома весьма интересны. Появляется, по крайней мере в принципе, возможность реконструировать динамику популяций по всей истории всех эукариотических линий исходя из наличных и предполагаемых предковых плотностей интронов. Хотя имеющиеся данные недостаточны для детальной реконструкции, рассмотрение величин на рис. 7-8 уже приводит к интересным выводам. Учитывая, что позвоночные имеют лишь слегка большую плотность интронов, чем у LECA, что позвоночные и растения совпадают по многочисленным позициям интронов и что повторное встраивание интронов в предковые позиции в сколько-нибудь значительных масштабах крайне маловероятно, по-видимому, бедных интронами промежуточных звеньев вдоль всей эволюционной траектории от LECA до позвоночных не существовало. Другими словами, наша эволюционная линия ни разу не проходила через этап высокой эффективной численности популяции и, соответственно, интенсивного отбора за все время эволюции эукариот. В несколько меньшей степени это относится и к пути от LECA до растений. Кроме того, эпизоды массового приобретения новых интронов почти наверняка были связаны с популяционными «бутылочными горлышками». Это выглядит весьма логично, если принять во внимание возникновение принципиально новых групп организмов, таких как животные, множества различных инноваций, в том числе обширных дупликаций генов и накопления новых регуляторных элементов, которые возможны только в эволюционном режиме с доминированием дрейфа.
Пожалуй, самый поразительный вывод относится к стволовой фазе эволюции, предшествовавшей LECA и геномной архитектуре ранних предков эукариот, живших до LECA. Оценка, основанная на предположении о «мгновенном» вторжении интронов группы II из эндосимбионта в геном хозяина (см. гл. 7), указывает на столь узкое «бутылочное горлышко» (Ne ? 1000, если не меньше), что выживание было бы мало вероятно по чисто стохастическим причинам (Koonin, 2009b). Таким образом, мы вынуждены постулировать до некоторой степени постепенное проникновение интронов в геном хозяина. Тем не менее даже этот сценарий менее разрушительного вторжения предполагает очень длинные и тонкие «бутылочные горлышки» на пути от исходного хозяина эндосимбионта до LECA (см. рис. 8-3). Такое узкое место, вероятно, будет единственным возможным переходом к появлению эукариотической организации клетки, учитывая многочисленные дупликации и другие новшества, необходимые для эукариогенеза.
Все эти выводы недвусмысленно свидетельствуют в пользу неадаптивной популяционно-генетической теории эволюции генома, что, в сочетании с результатами сравнительной геномики, по-видимому, открывает нам окно в эволюционное прошлое, которое иначе трудно было себе представить.
От мусора к функциональности: важность ослабленного очищающего отбора для эволюции сложности
Что было движущим фактором (или факторами) эволюции геномной (и возможно, связанной с ней организменной) сложности? Неадаптивная популяционно-генетическая теория (Lynch, 2007c; Lynch and Conery, 2003) подсказывает удивительный ответ: необходимым и, вероятно, достаточным условием для возникновения сложности был неэффективный очищающий отбор в популяциях с небольшим Ne[74]. Неэффективный отбор способствовал фиксации слегка вредных признаков, которые были бы отбракованы в большой популяции, и накоплению мусора, часть которого затем была задействована в разнообразных функциях.
Рис. 8-3. Реконструкция популяционной динамики на протяжении эукариогенеза: эукариогенез делается возможным благодаря крайне узкому «бутылочному горлышку». Ng — эффективное число генов/локусов, n — число нуклеотидов, необходимых для сплайсинга (вначале автокаталитического) интрона (около 25 на интрон), размер мишени для вредных мутаций, u — частота мутаций на нуклеотид на поколение (?0,5?10–9); A = архея, предполагаемый хозяин протомитохондриального эндосимбионта (ПМС); N = ядро; FECA = первый общий предок эукариот, химерная клетка, образовавшаяся немедленно после эндосимбиоза.
Перепишем условие фиксации из предыдущего раздела следующим образом:
n ? 1/Neu
Это простое неравенство задает ограничение на размер мишени вредных мутаций, остающейся невидимой для очищающего отбора, или, другими словами, максимальное число необходимых для функционирования нового геномного элемента нуклеотидов, при котором он имеет шанс зафиксироваться.
Оценки, использующие значения Neu из табл. 8-1, выявляют принципиальные различия между организмами. Так, у позвоночных очищающий отбор «пропускает» до 250 нуклеотидов, в то время как у прокариот фиксация последовательностей длиннее, чем приблизительно 10 нуклеотидов, является маловероятной.
Эти теоретические соображения означают, что существенное увеличение геномной сложности возможно только в режиме ослабленного очищающего отбора. Рассмотрим три основные составляющие геномной сложности у позвоночных, также отвечающие за сложность молекулярного фенома и, насколько мы знаем, дифференциацию тканей и другие аспекты организменной сложности:
1. Альтернативный сплайсинг, который производит большую часть белкового разнообразия в данных организмах[75].
2. Комбинаторная регуляция транскрипции, при которой гены оснащены наборами сайтов связывания транскрипционных факторов. Различные комбинации факторов транскрипции связываются с этими сайтами, обеспечивая сложную регуляцию экспрессии (Venters and Pugh, 2009).
3. Гигантский некодирующий РНом, включающий в себя относительно хорошо изученные микроРНК, ряд других частично охарактеризованных малых РНК, более таинственные длинные некодирующие РНК[76] и огромное количество «темной материи» РНК (Amaral et al., 2008).
Рассмотрев эти замечательные явления более подробно, в каждом из них мы можем безошибочно различить следы неадаптивной эволюции, связанной с ослабленным очищающим отбором.
Как отмечалось в предыдущем разделе, богатые интронами геномы имеют «слабые» сигналы сплайсинга, скорее всего просто потому, что сила очищающего отбора в соответствующих популяциях недостаточна, чтобы жестко контролировать эти нуклеотидные последовательности. Иными словами, аномальные транскрипты, образующиеся с определенной частотой из-за ошибок сплайсинга в богатых интронами организмах, не являются достаточно вредными для того, чтобы быть устраненными очищающим отбором в условиях низкой Ne. Таким образом, неточность в вырезании интронов предоставляет нишу для альтернативного сплайсинга. Иными словами, неточный сплайсинг — это и есть альтернативный сплайсинг. Поскольку эволюционирующие небольшие популяции не могли избавиться от него, они «научились» использовать некоторые из альтернативных (первоначально аномальных) транскриптов в различных функциональных ролях. Эти роли часто основаны на том, что альтернативные белки являются модификациями «нормальных» белков и, соответственно, действуют как функциональные варианты исходного белка или же как доминантные отрицательные регуляторы. В соответствии с логикой эволюции, альтернативный сплайсинг аналогичен горизонтальному переносу генов у прокариот в том, что оба являются выгодными альтернативами дупликации генов, при которых модификация активности достигается за один шаг, а не за длительный период эволюции. С учетом реконструкции, приведенной на рис. 7-8, можно предположить, что у LECA ошибки сплайсинга происходили с высокой частотой, давая, соответственно, большое разнообразие транскриптов, но при этом функциональный альтернативный сплайсинг был весьма редок (если вообще происходил). Дальнейшая эволюция различных ветвей эукариот, по-видимому, происходила в соответствии с двумя противоположными сценариями: потеря большинства интронов и усиление сигналов сплайсинга на границах оставшихся интронов, снижающие продукцию аномальных транскриптов до незначительного уровня; сохранение частоты ошибок сплайсинга примерно на том же уровне, что и у LECA (при условии примерно такой же плотности интронов), сопровождаемое эволюцией функционального альтернативного сплайсинга, то есть задействование многих, но, конечно, не всех и, вероятно, даже не большинства аномальных транскриптов для продукции альтернативных функциональных форм белка.
Большинство линий одноклеточных эукариот, эволюционировавших в сторону больших Ne и эффективного очищающего отбора, пошли по первому пути; второй сценарий относится к животным и растениям, которые никогда не достигали больших эффективных размеров популяции и вынуждены были справляться с унаследованным неточным сплайсингом. Третьего пути, по-видимому, не существовало: либо разработать способ устранения аномальных транскриптов, либо использовать их, либо вымереть.
Сайты связывания факторов транскрипции у эукариот состоят из 8–10 нуклеотидов, так что стоимость добавления одного сайта составляет s ? 10u, или примерно 10–7, если взять характерное для позвоночных значение u (Lynch, 2007c). Таким образом, геномы сложных многоклеточных эукариот, по-видимому, могли практически «бесплатно» накапливать сайты связывания транскрипционных факторов, что позволило появиться сложным кассетам сайтов. У одноклеточных эукариот возможности для эволюции в этом направлении были ограничены; для прокариот этот путь к инновациям, судя по всему, был закрыт очищающим отбором.
Некодирующий РНом позвоночных — возможно, главнейшее проявление сложности генома. Белок-кодирующие экзоны составляют около 1,5 процента генома млекопитающих, в то время как экзоны, соответствующие некодирующим РНК, по различным оценкам, занимают более 4 процентов генома — около 80 процентов кодирующего потенциала генома используется для молекул РНК, не транслирующихся в белки (Eddy, 2002). Это коренным образом отличается от кодирующих репертуаров прокариот и даже одноклеточных эукариот, в которых некодирующие РНК составляют лишь небольшую часть. Что еще более поразительно, ряд недавних исследований показывает, что большая часть — вероятно, более 60 процентов — генома млекопитающих транскрибируется на заметном уровне (Lindberg and Lundeberg, 2010; Mendes Soares and Valcarcel, 2006). Природа этой «темной материи» далеко не ясна. Иногда считается, что экспрессия подразумевает функциональный смысл транскрибируемой области генома. Однако, учитывая отсутствие какой-либо заметной эволюционной консервации большинства из этих транскрибируемых последовательностей и относительной легкости возникновения ложных (слабых) сайтов инициации транскрипции в случайных последовательностях ДНК, можно сказать, что почти наверняка большая часть темной материи — это транскрипционный шум. Тем не менее эта случайно транскрибируемая часть генома и «мусорная» ДНК в целом представляют собой огромный резервуар для генерации новых микроРНК и других некодирующих, но выполняющих структурные и регуляторные функции РНК, многие из которых плохо сохраняются в процессе эволюции и эволюционируют высокими темпами. Открытие обширного РНома животных показывает, что сложные геномы многоклеточных организмов и простые геномы одноклеточных форм жизни качественно различаются. Это различие интерпретируется самым естественным образом в рамках неадаптивной популяционно-генетической теории эволюции генома. Согласно этой теории, эволюция форм жизни с низким Ne и последующим слабым очищающим отбором приводит к накоплению большого количества интронной и межгенной мусорной ДНК, некоторые сегменты которой время от времени задействуются для различных функций. Масштаб преобразования ландшафта экспрессии генома, вызванного, видимо, в первую очередь простыми факторами популяционной генетики, поражает воображение и представляется соразмерным с интуитивно очевидной разницей в сложности (и, очевиднее всего, в размере) между млекопитающим и простейшим. Вспомним обсуждение эволюции последовательностей в главах 3 и 4: широкий набор нефункциональных транскриптов составляет почти нейтральное пространство, открытое для эволюции сложности в многоклеточных организмах. Такое почти нейтральное пространство неизбежно возникает в ходе эволюции организмов с низкой Ne по чисто энтропийным причинам.
Хотя масштаб задействования мусора довольно мал по сравнению с общим количеством некодирующей ДНК, он огромен по отношению к суммарному размеру белок-кодирующих последовательностей. Учитывая популяционное «бутылочное горлышко», через которое, скорее всего, проходил эукариогенез (см. рис. 8-3), вполне вероятно, что значительное количество мусорной ДНК эволюционировало на очень раннем этапе истории эукариот и, возможно, уже присутствовало у LECA — как и интенсивная случайная транскрипция. Можно представить себе, что на следующем этапе эволюции произошло «нарушение симметрии», которое привело к бифуркации, описанной при обсуждении истории интронов: линии с большим Ne установили строгий контроль за геномом, устранив большинство мусорной ДНК. В противоположность им, линии, не достигшие больших Ne, занялись «компенсацией» в виде постепенного приспосабливания возрастающего количества частей (бывшего) мусора под функциональную РНК (см. рис. 8-4).
Продолжая в том же духе, неадаптивная теория предлагает простое объяснение для перехода от простого типа регуляции транскрипции по Жакобу — Моно к сложной стратегии регуляции, используемой эукариотами. Вместо того чтобы использовать лишь один сайт связывания для единственного регулятора оперона (или, в редких случаях, несколько сайтов), как у прокариот, транскрипция большинства эукариотических генов регулируется в так называемом комбинаторном режиме, при котором несколько факторов транскрипции взаимодействуют сразу с несколькими, а зачастую и с большим числом сайтов, расположенных перед геном (Ravasi et al., 2010). У прокариот сайты связывания фактора транскрипции содержат достаточно информации для точного распознавания уникального сайта (или нескольких сайтов) в относительно небольшой геномной последовательности. Напротив, у эукариот сайт обычно содержит слишком мало информации для обеспечения точного распознавания (другими словами, геном содержит много сайтов с равным или даже большим сродством к данному транскрипционному фактору; Wunderlich and Mimy, 2009). Эта неадекватность одиночных сайтов связывания у эукариот обусловлена слабостью очищающего отбора, неспособного поддерживать множество точно сохраненных сайтов в геноме (см. обсуждение эволюции интронов ранее в этой главе), а также не может предохранить геном от роста, что увеличивает пространство поиска для транскрипционных факторов. Таким образом, комбинаторная модель может быть единственным решением для проблемы эффективной регуляции. Эволюции такого режима регуляции способствует рост генома, в частности достаточно высокая частота коротких тандемных дупликаций. Эволюция сложной регуляции экспрессии генов, являющейся отличительной чертой эукариот и необходимым условием для эволюции сложных многоклеточных форм, по-видимому, является наиболее ярким примером превращения мусора в функциональные элементы в ходе эволюции при слабом очищающем отборе. Как и в случае других аспектов эволюции сложности, отбор направлен здесь на предотвращение энтропийного коллапса, а не на непосредственное «улучшение» регуляции.
Рис. 8-4. Пути эволюции генома: оптимизация и задействование «мусора».
Эволюция продвинутых адаптаций в малых популяциях со слабым отбором может показаться парадоксальной, и, возможно, не зря: возникновение таких сложных функций, похоже, требует эффективного положительного отбора, что возможно только в популяциях с большим Ne. Это, безусловно, трудный вопрос. Ответ на него, по-видимому, требует противоречащего интуиции мышления в духе «слабого антропного принципа» (см. гл. 12 и прил. II): виды, в которых сложные функции не были зафиксированы, прежде всего через случайный дрейф и конструктивную нейтральную эволюцию (см. обсуждение ниже в этой главе), просто не имели шансов выжить.
Оптимизация генома в качестве основного пути эволюции и сложность как геномный синдром
Мы интуитивно склонны считать, что эволюция происходит от простых форм к сложным. Как писал Дарвин в заключительной 14-й главе «Происхождения…», «…из такого простого начала развилось и продолжает развиваться бесконечное число самых прекрасных и самых изумительных форм» (Darwin, 1859). Конечно, эта интуиция имеет смысл (и создает тяжелую проблему), когда речь заходит о происхождении первых форм жизни (мы обратимся к этой теме в гл. 12). Тем не менее была ли постепенно увеличивающаяся сложность преобладающей тенденцией в истории большинства линий на протяжении всей эволюции жизни? И теория популяционной генетики, и сравнительные геномные реконструкции говорят об обратном[77]. В качестве наглядной иллюстрации обратимся еще раз к рис. 7-8. Появление двух ветвей многоклеточных эукариот, по-видимому, сопровождалось умеренным увеличением плотности интронов, что указывает на популяционное бутылочное горлышко, связанное с увеличением общей энтропии генома (величина H из первой части этой главы), во многих случаях весьма значительным. Увеличение энтропии создает нейтральное пространство, необходимое для последующего увеличения общей биологической сложности (высокое значение C). Напомним, что в этих случаях плотность биологической информации падает (низкое значение D): эти линии эволюционируют в «энтропийном режиме». Тем не менее даже среди растений и животных имеются большие группы, к примеру насекомые, эволюция которых включала оптимизацию генома, или уменьшение эволюционной энтропии. Этот процесс характеризуется менее стремительным падением в общей сложности и увеличением плотности биологической информации. Обращаясь к большинству ветвей в эукариотном дереве (см. рис. 7-2 и 7-8), включающих одноклеточные формы, мы видим однозначную картину оптимизации генома: энтропия генома резко падает и общая сложность также, хоть и менее резко, уменьшается, в то время как плотность информации быстро возрастает.
Пока еще слишком рано говорить о том, насколько тенденция к оптимизации генома, полученная из реконструкции на рис. 7-8, главенствует в общем контексте эволюции жизни, потому что таксономическая плотность секвенированных геномов из различных ветвей жизни по-прежнему недостаточна. Тем не менее результаты имеющихся ограниченных реконструкций позволяют предположить, что изложенная картина может быть достаточно полной. Например, реконструкция общего предка существующих архей указывает на то, что геном предковой формы был, по крайней мере, столь же сложен (в пересчете на общую сложность C, потому как трудно реконструировать энтропию и, следовательно, плотность информации непосредственно), как у типичных современных членов группы (Csuros and Miklos, 2009)[78]. Кроме того, проявляется четкая тенденция в самих результатах реконструкций: предполагаемая сложность предковых форм пересматривается в сторону повышения с увеличением числа использованных для реконструкции геномов и с уточнением применяемых моделей наибольшего правдоподобия. Качественно аналогичные результаты были получены в ходе реконструкции генного набора LECA (см. гл. 7): даже намеренно консервативные подходы, примененные к ограниченному набору геномов, указывают, что LECA был как минимум столь же сложен, как и типичный современный одноклеточный эукариот (Koonin, 2010a).
С учетом результатов этих реконструкций предкового генома и в рамках неадаптивной популяционно-генетической теории эволюции генома возникает искушение предложить общую модель эволюции энтропии и сложности генома. В этой модели эволюция обычно происходит прерывистым образом, через стадии высокой энтропии, связанные с популяционными «бутылочными горлышками», впоследствии развиваясь в одном из двух различных режимов (см. рис. 8-5):
1. Низкоэнтропийное (высокая плотность биологической информации) состояние, связанное с высоким Ne, по сценарию оптимизации;
2. Высокоэнтропийное (низкая плотность биологической информации) состояние, связанное с низким Ne, в соответствии со сценарием кооптации[79].
Этот паттерн эволюции повторяется на протяжении всей истории жизни[80]. Высокоэнтропийные «бутылочные горлышки» соответствуют появлениям новых крупных групп, в то время как последующие расхождения линий внутри этих групп обычно включают в себя «нарушение симметрии» между этими двумя сценариями. Соответствие между этой моделью и моделью сжатого кладогенеза, изложенной в главе 6, очевидно. Важно отметить, что эпизоды внезапного возрастания энтропии немногочисленны и разнесены во времени друг от друга, тогда как большая часть истории жизни прошла в режиме «нормальной эволюции» между этими эпизодами. В фазе «нормальной эволюции» оптимизация генома, включающая уменьшение генома под действием сильного очищающего отбора в популяциях с большой Ne, по-видимому, встречается чаще, чем ограниченное усложнение, характерное для групп организмов, традиционно рассматриваемых как сложные, куда, безусловно, входит и наша собственная линия млекопитающих.
Режим оптимизации генома легко демонстрируется in vitro в экспериментах по дарвиновской эволюции. Сол Спигелман и коллеги провели, пожалуй, самую известную серию таких экспериментов в 1960-х годах (Mills et al., 1973;. Spiegelman, 1971). Они поместили небольшое количество РНК бактериофага в пробирку с репликазой (фермент фага, ответственный за репликацию генома), нуклеотидами и необходимыми ионами и позволили ему реплицироваться в течение непродолжительного времени. Часть содержимого затем перенесли в другую пробирку, содержащую ту же смесь, и повторили процедуру. В этих условиях давление отбора на РНК фага требует лишь ускорения репликации, и результаты эволюции в этом режиме были весьма радикальны: после примерно 70 повторений размер РНК снизился с ?3500 до ?400 нуклеотидов, то есть до наименьшего размера, при котором молекула способна размножаться при помощи полимеразы.
Рис. 8-5. Общая модель динамики эффективного размера популяции, размера генома и плотности биологической информации в соответствии с неадаптивной теорией. Каждый из графиков показывает три пути эволюции генома: сплошная линия — оптимизация генома (свободно живущие автотрофные бактерии и археи, некоторые одноклеточные эукариоты); серая линия — задействование мусорной ДНК и усложнение генома (эукариоты, особенно их многоклеточные формы); пунктирная линия — храповик деградации генома (паразиты и симбионты, особенно внутриклеточные формы).
За пределами нулевой гипотезы: ограничения популяционно-генетического взгляда на эволюцию генома
После прочтения предыдущих разделов этой главы нельзя не усомниться в обоснованности всеобъемлющего объяснения хода эволюции каким-либо одним общим фактором. Эти опасения полностью оправданы. Нужно еще раз подчеркнуть, что наиболее сильным утверждением популяционно-генетической теории эволюции генома является то, что неадаптивная эволюция, управляемая Ne, может быть подходящей нулевой гипотезой. Несмотря на свою важность, величина Neu определяет ход эволюции только в грубом приближении и на протяженных временных интервалах. Фактические эволюционные траектории определяются — и ограничиваются — конкретным биологическим контекстом. К примеру, в проведенном моими коллегами и мной широком анализе селективных ограничений в эволюции прокариот нам не удалось обнаружить отрицательной корреляции между силой очищающего отбора и размером генома, предсказываемой с прямолинейной популяционно-генетической точки зрения (Novichkov et al., 2009). Напротив, большие геномы, как правило, развиваются под более сильными ограничениями, чем малые, даже если рассматривать только свободноживущие микробы. Подразумевается, что образ жизни организма может быть критическим фактором эволюции генома, способствующим, в частности, приобретению генов через ГПГ в переменных условиях среды, более или менее независимо от Ne.
Данный текст является ознакомительным фрагментом.