Как рассчитывают погрешности в ДНК-генеалогии?
ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ – важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ± 10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.
Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:
Таким образом, погрешность расчетов для 100 мутаций в серии равна ± 14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).
Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ± 28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, доверительный интервал в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ± 10 % является завышенной, на практике она не превышает ± 2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ± 14.14 %, а ± 10.31 %.
Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».
Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59 ± 8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (см. врезку) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ± 13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ± 30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ± 32.7 %. Мы видим, что при введении в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400 ± 800 лет.
Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ± 10 %, хотя определенно меньше этой величины, как пояснено выше.
Вторая плоская ветвь из 57 гаплотипов далее по часовой стрелке (из которой половина казахские, остальные – киргизские, узбекские, ногайские, индийские и один монгольский), еще более недавняя, там на всю ветвь всего 39 мутаций. Ее возраст -90() ± 170 лет. Но предковый гаплотип отличается принципиально от предыдущей ветви:
13 25 16 10 12 13 и 14 10 13 и 29
Между ними – 5 мутаций, что соответствует 5/0.02 = 250 ? 331 условных поколений, то есть примерно 8275 лет между их общими предками. Общий предок обеих ветвей жил примерно (8275 + 1240 + 900)/2 = 5200 лет назад.
Если обратить к схеме субкладов, картина с казахскими гаплотипами проясняется. Первая ветвь относится к субкладу С2b1b-M48, вторая – С2b1c-F1918, их общий предок – субклад С2b1-F1699. В данном случае расчеты имеют лишь иллюстративный характер, так как гаплотипы короткие, и их разрешающая способность мала.
В субкладе С2, два уровня которого занимают казахские и родственные гаплотипы, среднеазиатские и монгольские гаплотипы обычно имеют субклад С2-М217, но там много уровней, их занимают американские индейцы, Индия, Китай, Япония, Корея, Филиппины, все они расходятся по разным подуровням. В субкладе Cl находятся Новая Зеландия, острова Кука и Гавайские острова – С1b2a-М38; центральноевропейские гаплотипы (Англия, Ирландия, Шотландия, Италия, Испания, Венгрия, Греция, Польша) – С1а2a1-V222, и так далее. Обратим внимание на самую нижнюю небольшую ветвь дерева гаплотипов, которая показывает большой разрыв со среднеазиатскими гаплотипами. Они имеют субклад С1а2a1-V222, это потомок ископаемых гаплотипов С1а2-V20, найденных в Испании, Венгрии и Анатолии с датировками 7000–8400 лет назад. Эти потомки продолжают сейчас жить в Европе. Свою отдельную ветвь имеют гаплотипы Гавайских островов и Новой Зеландии, на дереве гаплотипов это ветвь на 8 часов, к ней примыкает ветвь филиппинцев.
В большой выборке из 657 австралийских аборигенов[43] у 125 человек (19 %) нашли гаплогруппу С1b2b-M347. Кстати, в той же работе больше половины аборигенов (56 %) были признаны «ненастоящими» аборигенами, потому что у них гаплогруппы были «пришлыми», причем относительно недавно.
У нас нет возможности разбирать здесь все гаплотипы гаплогруппы С по регионам, хронологии, этносам, субкладам, для этого понадобилась бы отдельная книга. Суть этих иллюстраций в том, что каждый, имеющий гаплогруппу С, может найти себя и свою ДНК-генеалогическую линию на подобном дереве, увидеть место себя и своего рода в общей картине мира, лучше понять историю своих предков.
Но еще на одном примере мы немного остановимся – это киргизские гаплотипы гаплогруппы С. Причина проста – у киргизов есть свой ДНК-проект, и киргизы будут читать эту книгу. Дерево киргизских гаплотипов в 12-маркерном формате дано на рисунке, где показаны ветви разных гаплогрупп. Большинство их относится к гаплогруппе R1a, скифская ветвь, что мы будем рассматривать ниже. Ее датировка – середина I тыс н. э.
Дерево 63 гаплотипов в 12-маркерном формате киргизского Проекта FTDNA. Указаны гаплогруппы отдельных ветвей. Построено по данным Проекта[44]
В нижней части дерева – плоская ветвь субклада С2-М217 (так указано в киргизском проекте), в ней – 10 гаплотипов, на все приходится всего 10 мутаций от предкового гаплотипа.
13 25 16 10 12 13 1114 10 13 11 29
Мы видим, что это точно такой же предковый гаплотип, какой был рассмотрен выше для казахских (в основном) гаплотипов субклада С2b1c-F1918, с датировкой общего предка 900 ± 170 лет назад. Так что в киргизском проекте субклад С2-М217 указан правильно, но «недотипирован», там на самом деле на несколько уровней глубже. Проверим датировку. Общий предок ветви жил 10/10/0.02 = 50 ? 52 условных поколения, или 1300 ± 430 лет назад, то есть примерно восьмой век, плюс-минус несколько веков назад. По случайному совпадению или нет, общий предок ветви R1a жил тогда же, 1300 ± 280 лет назад. Возможно, скифы на территории современной Киргизии имели обе гаплогруппы – R1a и С2. Первая – потомки ариев, которые прошли по тем землям почти за три тысячи лет до того, вторые – обычно монголоидные племена. Вот и возможная отгадка, почему скифы считаются монголоидными (хотя не все и необязательно) – если носители гаплогрупп R1a и С2 жили на одной территории, образовывали смешанные семьи европеоидов и монголоидов, то дети, внуки и последующие потомки обычно были монголоидными, хотя мужская гаплогруппа оставалась R1a, арийской, исходно европеоидной. Это же наблюдается на Алтае, в регионах бывшего «скифского круга», где мужчины имеют в своем большинстве гаплогруппу R1a, а мтДНК – классические восточно-азиатские (или центрально-азиатские, или восточно-евразийские) А, С, D и G. Это же наблюдалось при изучении ископаемых ДНК пазырыкской культуры на Алтае – более половины ископаемых костных остатков пазырыкской культуры имели «восточно-евразийские» мтДНК – А, С, D и G. Получается, что скифы унаследовали арийскую гаплогруппу R1a, но их местные восточно-евразийские матери передали им монголоидную внешность.