Начало Основные положения ДНК-генеалогии. В данном очерке речь пойдет о новой науке, которая только создается, основы которой только закладываются в последние годы. Если точнее, то основы этой новой науки уже созданы, причем стремительно, и идет прогрессивное накопление экспериментального материала. Новый материал поступает потоком, ежедневно в базы данных уходят десятки и сотни новых «экспериментальных точек», которые по принципу обратной связи корректируют методологию новой науки, что приводит к уточнению методов расчета.
Имя этой науки - ДНК-генеалогия. Ее экспериментальные данные - это картина мутаций в нерекомбинантных участках мужской половой хромосомы (на самом деле - и в митохондриальной ДНК, но в этом очерке речь пойдет только об Y-хромосоме, иначе объем его выйдет за пределы допустимого), причем картина мутаций как в Y-хромосомах отдельных людей, так и их групп, популяций. Методология новой науки - перевод динамической картины мутаций в хронологические показатели, во времена жизни общих предков популяций, а на самом деле - общих предков древних родов и племен. То есть фактически производится расчет времен, когда в древности жили эти рода и племена.
Мутации, рассматриваемые в ДНК-генеалогии - это или одиночные (как правило) замены нуклеотидов в ДНК, как, например, аденин на цитозин, или цитозин на тимин, или вставки нуклеотидов, или делеции, или мутации более сложные, при которых ошибка копирующего фермента приводит к переносу целого блока нуклеотидов, тандемного, как его порой называют. Это дает или удлинение серии таких блоков на один (редко - сразу на два-три блока), или их укорачивание. Первые мутации - SNP (Single Nucleotide Polymorphism, или в переводе «одиночные нуклеотидные вариации»), или «снипы», обычно очень стабильны, и их для ДНК-генеалогии отбирают только такие, которые случаются только один раз (два раза - максимум) за историю человечества. Поэтому они являются маркерами родов человечества. Примеры будут даны ниже.
Мутации второго типа - STR (Short Tandem Repeats, или «короткие тандемные повторы») - значительно более быстрые, и происходят в определенных участках, или локусах, или маркерах (это все синонимы) ДНК раз в несколько десятков или сотен поколений. Набор этих маркеров составляет гаплотип, примеры гаплотипов будут даны ниже. Гаплотип - это по сути цепочка чисел, показывающих число повторов в определенных маркерах. Поэтому гаплотипы ДНК выбирают так, чтобы в них таких маркеров было как можно больше (но все-таки чтобы оставаться в рамках практичности), и в ранних работах использовались 6-маркерные гаплотипы, затем 12-маркерные, 17- и 19-маркерные, затем 25- и 37-маркерные, а сейчас работа рутинно ведется с 67- и 111-маркерными гаплотипами (правда, в академических публикациях это обычно от 8 до 17 маркерных гаплотипов). В 67-маркерных гаплотипах, например, одна мутация происходит в среднем за 8 поколений, в 111-маркерных - за 5 поколений.
Поскольку уже показано и доказано, что эти мутации в маркерах происходят в основном (или исключительно) неупорядоченно, то к ним оказалось возможным применять правила и подходы химической кинетики, или биологической кинетики, кому какой термин больше нравится - суть одна. И снипы, и маркеры мутируют по законам кинетики первого порядка, других закономерностей пока не обнаружено. Это означает, что каждому маркеру свойственна определенная константа скорости мутации, и каждому гаплотипу (состоящему из набора маркеров) - тоже свойственна определенная средняя константа скорости мутации, равная сумме констант скоростей мутаций отдельных маркеров. Поэтому чем древнее общий предок популяции, тем больше мутаций накапливается в гаплотипах его потомков по сравнению с ним, тем больше поколений (и лет) отделяет современных потомков от их общего предка, и это число поколений (и лет) рассчитывается методами ДНК-генеалогии. Как это делается - тоже будет показано ниже на многих примерах.
ДНК-генеалогия базируется на четких правилах, которых можно насчитать тринадцать.
Первое - к генетике ДНК-генеалогия прямого отношения не имеет. Хотя в определённой части ДНК-генеалогии рассматривают и гены, например, при рассмотрении всего генома человека, но это - специальная часть ДНК-генеалогии, и этого здесь не будет. ДНК - это не только гены. Гены вообще занимают только 1,9% последовательности ДНК. Остальные 98,1% - длинные участки, так называемые «никчёмные». Генов там нет (это подробно разобрано в статье - Клёсов, 2012a).
В ДНК есть протяжённые последовательности повторяющихся нуклеотидов, в которых, повторяю, генов нет, и эти последовательности детально копируются при передаче наследственной информации от отца к сыну. Я специально пишу «от отца к сыну», потому что в данном очерке речь идёт только о «мужской» наследственной информации, передаваемой с мужской половой Y-хромосомой. У женщин её, этой хромосомы, нет.
«Никчёмными» эти негенные последовательности ДНК назвали по незнанию, и это название уже уходит в прошлое. По мере исследований, оказалось, что эти последовательности хранят массу информации и не только «генеалогического» характера. Более того, оказалось, что они, эти «никчёмные» участки, содержат сотни, если не тысячи крошечных генов РНК, кодирующих так называемые микро-РНК, длиной всего пару десятков нуклеотидов каждый, и которые регулируют синтез белков. Но это - предмет другого повествования.
Эти негенные участки ДНК в мужской Y-хромосоме, одной из 23 хромосом, которые доставляются сперматозоидом в организм будущей матери, копируются от отца к сыну, поколение за поколением. Поскольку у матери такой хромосомы нет, то сын наследует её только от отца. Хромосомы сплетаются с материнской ДНК и образуют новую комбинированную молекулу ДНК, в которой хромосомы отца и матери перетасовываются. Перетасовываются все, кроме мужской Y-хромосомы.
Так и получается, что отец передаёт сыну эту Y-хромосому интактной, строго скопированной со своей. А свою Y-хромосому он получил от своего отца. Тот - от своего. И так далее, на тысячи, десятки тысяч и сотни тысяч лет вглубь, назад, к далёким предкам современных людей и к предкам тех далёких предков.
Здесь - важное примечание. В антропологии принято считать, в соответствии с базовыми понятиями, парадигмой антропологии, что сотни тысяч лет назад людей не было. Были палеонтропы, архантропы, неандертальцы, эректусы, другие гоминиды. Однако наши предки были, как их ни называть. Они были и десятки, и сотни тысяч лет назад, и миллионы лет назад. От них, «приматов», мы и наследуем гаплотипы и гаплогруппы, пусть в значительной степени изменённые, мутированные, иногда потерявшие целые куски.
Таким образом, аргументы, что тогда-то давно не было предков современного человека, в принципе неверны. Они были, но просто или не обнаружены антропологами (что вполне возможно), хотя и были на рассматриваемой территории, или они были представлены минорной долей гоминидов и прочих «приматов», и при изучении последних просто не встречались, проскочили сито антропологов, весьма крупноячеистое. Или определение, используемое антропологами, слишком жёсткое и не отражает значительно более сложной истории происхождения человечества.
Если бы Y-хромосома так и передавалась из поколения в поколение действительно неизменной, толку для генеалогии от неё было бы мало. Но неизменного ничего в мире нет, особенно когда речь о копировании. Копирования без ошибок не бывает. В том числе и копирования Y-хромосомы.
Отсюда второе положение - время от времени при копировании Y-хромосомы в копии проскакивают ошибки. Фермент под названием ДНК-полимераза (на самом деле вместе с целым набором молекулярных инструментов) или просто ошибается и делает некоторые участки ДНК короче или длиннее, удлиняя или сокращая повторы нуклеотидов, или «ремонтирует» повреждённые участки и в ходе «ремонта» удаляет повреждение (эта операция называется «делеция») или «вшивает» новый нуклеотид (называется «вставка», или «инсерт»). То, что удалось отремонтировать, в мутации не попадает, как будто мутации и не было. Что не удалось - передается сыну при рождении. Если родилась дочь, то Y-хромосома не передается. Если только дочери, или детей нет - Y-хромосома терминируется, вместе с мужской наследственной линией.
Мутации, которые интересуют ДНК-генеалогию, бывают двух типов - или изменение числа повторов, тандемов (STR), или «точечные», одно- или несколько-нуклеотидные (SNP).
Оказалось, что многие повторы нуклеотидов находятся у разных людей в одних и тех же участках Y-хромосомы. Эти участки уже специалистами пронумерованы, классифицированы, сведены в списки. Они получили название «маркеры». Набор маркеров, точнее, повторов в них, называется «гаплотип». Уже известных маркеров - более тысячи. Они, как правило, одни и те же у всех людей на Земле. Они отличаются только числом повторов, что вызвано теми самыми ошибками ферментов при копировании из поколения в поколение. Внимательное рассмотрение маркеров и гаплотипов позволило сделать вывод, что все люди на Земле произошли от одного предка.
Итак, положение третье: все люди - родственники, они все происходят от одного предка. Этот предок оказался древнее, чем предполагалось раньше, но он был. Еще недавно считалось, что он жил примерно 70 тысяч лет назад, потом 120 тысяч, а теперь он уже уходит глубже 200 тысяч лет назад, постепенно приближаясь к общему предку с неандертальцем 300-500 тысяч лет назад. Примерно такое время понадобилось, чтобы получить то расхождение гаплотипов по мутациям, какое наблюдается у всех живущих ныне людей. Последнее углубление по времени произошло потому, что в Африке нашли необычные ДНК-генеалогические линии, которые отличаются от всех людей на Земле, в том числе и от остальных африканцев, но гаплотипы хоть и отдаленно, но похожи на те, что есть у всех нас. Значит, общий предок был один и тот же, только очень древний.
Положение четвёртое - гаплотипы изображают в виде числа тандемов, или повторов, по каждому маркеру, выбранному из десятков и сотен. В англоязычной литературе, как уже говорилось, их называют STR, или Short Tandem Repeats. Самый простой и короткий гаплотип из тех, которые рассматривает ДНК-генеалогия, состоит из пяти или шести маркеров. Например, у грузин гаплогруппы G2a, которая у них основная по численности и составляет около половины мужского населения, базовый (или предковый) 6-маркерный гаплотип, в той записи, которую обычно приводят в научных публикациях, особенно в устаревших, такой:
15-12-22-10-10-14
Он показывает число повторов нуклеотидных участков в маркерах, которые обозначают соответствующими индексами 19, 388, 390, 391, 392 и 393. В первом маркере (номер 19) было найдено 15 повторов определённой последовательности нуклеотидов. Во втором - 12 повторов уже другой последовательности и так далее. При передаче этого гаплотипа от отца сыну с вероятностью примерно одна сотая, или один процент (то есть в среднем у одного на сто рождений) может произойти мутация, например, такая:
15-12-21-10-10-14
А может произойти и такая -
16-12-22-11-10-14
или любая другая, только одни мутации в одних маркерах происходят чаще, в других - реже. А в среднем мутация в таких 6-маркерных гаплотипах происходит, как было найдено, в среднем раз на сто рождений мальчиков. Если перевести во времена, то константа скорости мутации в 6-маркерных гаплотипах равна 0.0088 мутаций на весь гаплотип за 25 лет.
Отсюда следует положение пятое - по числу мутаций в гаплотипах можно определять возраст гаплотипа, то есть время, прошедшее от общего предка этого гаплотипа до его сегодняшних потомков. Поскольку сыновья сохраняют гаплотип отца, переданный по наследству, и мутации в этом гаплотипе проскакивают в среднем только раз примерно в 3100 лет (6-маркерный гаплотип) или раз в 1300 лет (12-маркерный гаплотип), или раз в 125 лет (111-маркерный гаплотип), то даже через 5000 лет у потомков сохранится 23% исходного 6-маркерного гаплотипа, без изменений. То есть в списке из 100 гаплотипов потомков - 23 гаплотипа будут такими же, какой был у предка 5000 лет назад. Это если рассматривать 6-маркерные гаплотипы. При рассмотрении 12-маркерных гаплотипов те же 23% гаплотипов предка сохранятся через 88 поколений, или 2200 лет.
Так что и через тысячелетия можно определить гаплотип предка. И по его виду можно узнать, из каких краёв предок пришёл, сравнив вид гаплотипа с гаплотипами по территориям, и с доступными ископаемыми гаплотипами.
Положение шестое - гаплотипы не указывают на этносы, это совершенно разные понятия. Гаплотипы указывают на древние рода, племена, которые намного старше этносов. С тех древних времен гаплотипы давно разошлись по разным территориям, на которых потом, через тысячелетия сформировались этносы. Например, 6-маркерный предковый гаплотип племени G2a1a1, основной у грузин (с немногими мутациями, набежавшими за тысячелетия)
15-12-22-10-10-14
есть и у осетин (дигорцев и иронцев), и у шапсугов, и у черкесов (адыгов), и у абхазов, с некоторыми вариациями, потому что общий предок в каждом этносе жил в разное время. К одним этот род пришел недавно и бурно размножился, как у осетин, у других был со стародавних времен, у третьих род почти уничтожили враги, осталось мало, и пропорции родов в этносе качнулись в другую сторону. Конкретные цифры будут даны ниже, по этносам. Но все они, потомки гаплогруппы G и племени G2a1a1, братья, один и тот же род, все от одного и того же предка-патриарха, хотя доля этого рода у всех сейчас разная. Если у грузин его 32% (еще 10% - племени G2a3b1, и еще несколько процентов племени G2a*), то у осетин-дигорцев 55%, у осетин-иронцев 72%, у абхазов 27%, у черкесов 14%, у шапсугов всего 1%.
Исходя из вышесказанного понятно, что просто доля в процентах сама по себе означает не очень много, это просто структура современной популяции, то, чем занимаются популяционные генетики. У осетин этого рода (G2a1a1) больше, чем у грузин, но он моложе, то есть пришел в Осетию позже. У осетин три ветви этого рода, возрастом 1675±380 лет, 1375±210 лет и 450±175 лет - наша эра или даже средние века. У грузин эти ветви уходят в прошлую эру, с общим предком более трех тысяч лет назад. А вообще на северо-западном и центральном Кавказе общий предок рода G2a1a1 жил 4875±500 лет назад, а родительского рода G2a - 11500 лет назад.
Другое племя той же гаплогруппы (G2a3b1), с предковым гаплотипом
15 12 23 10 11 14
(вариации выделены жирным шрифтом) вошло в состав современных грузин в количестве 10%, осетин-дигорцев 5%, осетин-иронцев 2%, абхазов 24%, черкесов 38%, шапсугов 86%. Как видим, у черкесов и шапсугов крен гаплогруппы по количеству в другую сторону. Род тот же, а племя другое. Другой субклад гаплогруппы, в терминах ДНК-генеалогии. Это уже не G2a1a1-P18, a G2a3b1-P303, возраст племени чуть больше 5 тысяч лет назад, в пределах погрешности расчетов такой же, как и племени G2a1a1. Общий предок обоих племен, как было отмечено, жил 11500 лет назад. Обозначения выше показывают два индекса, один - порядковый индекс гаплогруппы, или субклада (это часто по смыслу синонимы, но гаплогруппа обычно означает род, а субклад - племя, часть рода, хотя это часто условности, и в составе больших племен есть малые, и там и там - субклад), другой индекс - номер снипа по каталогу. Часто их показывают два вместе, тандемом, чтобы не путаться.
Но это - северо-западный и центральный Кавказ. А восточный Кавказ? На восточном Кавказе этой гаплогруппы G2a мало - там, в основном, совсем другие рода, J2 и J1. Племени G2a1a1-P18, которое доминирует у грузин и осетин, на востоке почти нет, только 6% у чеченцев, и то только в Дагестане и Ингушетии, а в самой Чечне этого племени вообще практически нет. Есть 10% у аваров, но племени G2a3b1-P303, которого мало у грузин и осетин. Есть 13% у лезгин, но совсем другого древнего племени, G2a*.
Поскольку у каждого племени и в каждом этносе, в каждом регионе можно определять возраст племени и вообще популяции в целом, то можно определять, когда и в каком направлении шли древние миграции.
Положение седьмое - все расчеты производятся с погрешностями. Точные цифры получены быть не могут в принципе. Дело в том, что мутации неупорядоченные, поэтому мы имеем дело со статистикой. Чем больше выборка, тем точнее расчеты. Погрешность зависит от числа гаплотипов в выборке, от протяженности гаплотипов, от того, насколько точно определена и выверена, откалибрована константа скорости мутации, от того, насколько древний общий предок. Особенно неточно сравнивать мутации в парах гаплотипов людей. На двух гаплотипах мутация-другая могла добавиться буквально в предыдущем или нынешнем поколении. Это может сразу привести к прибавлению-отнятию тысячи лет «в одном поколении». А в большой выборке разница относительно нивелируется статистикой. Есть выборки в тысячи гаплотипов - там расчеты, конечно, точнее.
Но в ДНК-генеалогии часто важна не абсолютная точность, а концептуальный вывод. Например, если некто утверждает, что носители гаплогруппы R1b (которые сейчас составляют примерно 60% мужского населения Западной и Центральной Европы), жили там, в Европе, еще 30 тысяч лет назад (а такими утверждениями, без расчетов, была заполнена академическая литература по данным вопросам до недавнего времени), а расчеты показали 4800 лет назад, то здесь дело не в точности, а в принципиальном выводе. То же самое по ДНК-генеалогии Кавказа - если данные показывают, что Кавказ заселялся носителями гаплогруппы J2 из Месопотамии примерно 7-6 тысяч лет назад, причем заселялся разными племенами и по разным территориям, и уже известно каким именно, и в какое время, то это дает важные данные историкам и археологам, которые продолжают горячо спорить по данным вопросам.
К этому ведёт положение восьмое - гаплотипы в немалой степени (но не всегда) связаны с определёнными территориями.
Но как такое может быть? А вот как. В древности большинство людей передвигались племенами, родами. Род, по определению, это группа людей, связанных родством. То есть гаплотипы у них одинаковые или близкие. Помните - одна мутация в среднем происходит за тысячелетия? Проходили тысячелетия, численность родов порой сокращалась до минимума («бутылочное горлышко» популяции), и если выживший имел некоторую мутацию в гаплотипе, то его потомки уже «стартовали» с этой новой мутацией, копируя ее поколениями в своих ДНК, а мужчины - в своей Y-хромосоме. Некоторые люди покидали род по своей или чужой воле - плен, бегство, путешествия, военные походы, и выжившие начинали новый род на новом месте. В итоге карта мира с точки зрения ДНК-генеалогии получилась пятнистой, и каждое пятно порой имеет свой превалирующий гаплотип - гаплотип рода. Часто он и есть гаплотип предка, начавшего род на данной территории.
Но есть ещё один тип мутации - точечные мутации, снипы (калька с английского SNP, что в примерном переводе и означает «единичная нуклеотидная мутация», или «единичная нуклеотидная вариация»). Они - практически вечные. Раз появившись, они уже не исчезают. Теоретически, в том же нуклеотиде может произойти другая мутация, изменив первую. Но нуклеотидов - миллионы, и вероятность такого события крайне мала. Всего в хромосомах имеются многие миллионы снипов, из которых в ДНК-генеалогии применяются многие сотни, и каждый снип соответствует гаплогруппе, то есть роду, или субкладу, то есть племени, хотя эти дефиниции применяют весьма вольно, как пояснено выше. Двадцати наиболее крупным гаплогруппам, каждая из которых охватывает сотни миллионов людей, присвоили буквенные обозначения от А до Т, примерно в хронологическом порядке появления соответствующего рода на планете. Или, по крайней мере, в том порядке, как учёные полагают эти рода появились. Хотя ревизий на этот счёт предстоит ещё много. Только что прошла очередная - в список добавили две гаплогруппы, А00 и А0, которые недавно обнаружили в Африке, и которые стоят совершенно особняком даже к другим африканцам, не говоря о европейцах или азиатах.
Итак, положение девятое - людей можно классифицировать по древним родам не только (и не столько) по виду гаплотипов, но и по наличию определённых снипов. Например, носители гаплогрупп А и В сейчас в основном живут в Африке (но где эти гаплогруппы появились, пока непонятно, похоже, что не в Африке, и туда мигрировали); гаплогруппа С встречается особенно часто среди монголоидов и жителей Австралии и Океании; гаплогруппу G находят в древней Европе (ископаемые гаплотипы), на Кавказе, в Передней Азии; гаплогруппа J - исходно Ближний Восток и оттуда перешла Кавказ не позднее 6-7 тысяч лет назад; гаплогруппы J1 довольно много на Кавказе, а также среди арабов и евреев на Ближнем Востоке, гаплогруппы J2 много на Кавказе, в Месопотамии и среди жителей Средиземноморья; гаплогруппа L появилась, похоже, в Передней Азии, и разошлась в разные стороны - ее подгруппа (субклад) L1 - в Индии, L2 - в Грузии, L3 - на восточном Кавказе. Гаплогруппу N имеют многие жители Китая, Сибири, севера России, Прибалтики и части Скандинавии, куда и прибыли носители гаплогруппы N с востока - Урала и до того Южной Сибири тысячелетия назад).
Гаплогруппа I - возможно, с Русской равнины не менее 40-45 тысяч лет назад, и после почти полного вымирания или истребления примерно 4500 лет назад сейчас почти исключительно находится в Европе, где возродилась относительно недавно, 3600-2300 лет назад (для I1 и I2, соответственно); гаплогруппы R1a и R1b появились в Южной Сибири после долгой миграции их предков, носителей гаплогруппы К, из которой образовалась гаплогруппа Р и затем Q и R, наверное, из Европы или с Русской равнины на восток, далеко за Урал. Оттуда гаплогруппы R1a и R1b пришли в Европу, причем разными миграционными путями. R1a стала основной гаплогруппой Восточной Европы, R1b - западной и центральной Европы.
Данное положение сводится к тому, что у каждого мужчины есть снип из определённого набора, по которому можно отнести носителя к определённому древнему роду. Времена появления снипов, обычно применяемых в ДНК-генеалогии, относятся к диапазону от 25-40 тысяч лет для «старых» снипов до 10-15 тысяч лет для «молодых», но сейчас уже выявляют снипы, образовавшиеся всего 1000-1500 лет назад. Например, четверть всего ирландского мужского населения имеют снип (R1b-M222), который образовался около 1500 лет назад. В континентальной Европе его практически нет.
Положение десятое - гаплогруппы не просто соответствуют определённым родам, но образуют определённую последовательность, лестницу гаплогрупп, показывающих их иерархию - последовательный, ступенчатый переход от точки расхождения африканских и неафриканских популяций (примерно 160 тысяч лет назад) до самой недавней гаплогруппы R, образовавшейся примерно 30-40 тысяч лет назад. Эта лестница называется филогенетическим деревом гаплогрупп и их снипов. Все гаплогруппы и субклады на дереве должны включать снипы «вышестоящих» гаплогрупп и субкладов. То есть принцип «лесенки» должен выполняться. Преемственность узловых родов человечества должна соблюдаться.
Всё это делает филогенетическое дерево гаплогрупп достаточно прочной и обоснованной структурой. У него есть, впрочем, слабое место - его филогения не показывает, на каком континенте зародилось человечество, откуда пошли гаплогруппы, начиная с первых, на общем стволе, идущим от нашего общего предка с современным шимпанзе. Говоря языком филогении, дерево гаплогрупп не «укоренено». Укоренение дерева - результат интерпретаций наблюдений и доступных экспериментальных данных.
Положение одиннадцатое - в ДНК-генеалогии обычно оперируют поколениями. Поколение в контексте ДНК-генеалогии - это событие, которое происходит четыре раза в столетие. Численно и по времени оно близко к продолжительности поколения в житейском смысле этого слова, но не обязательно равно ему. Хотя бы потому, что продолжительность поколения не может быть точно или хотя бы в среднем определена, она «плавает» в реальной жизни в зависимости от многих факторов, включая культурные, религиозные и бытовые традиции, примерно и в среднем от 18 до 36 лет, хотя границы этого не определены.
В древности этот диапазон был, видимо, заметно смещён к первой величине. Поэтому использовать столь «плавающую» величину для расчётов в широких временных диапазонах и для разных народов не представляется возможным или разумным. Скорости мутаций нами откалиброваны под условно взятое поколение продолжительностью 25 лет. Если кому-то больше нравится 30 лет на поколение или любое другое количество лет, скорости можно перекалибровать, и в итоге окажутся ровно те же величины в годах. Так что сколько лет приходится на поколение - в данном случае не имеет значения, потому что при расчётах меньшему числу лет на поколение будет просто соответствовать пропорционально большее число поколений, и итоговая величина в годах не изменится.
Положение двенадцатое - только те мутации в гаплотипах имеет смысл рассчитывать, экстраполируя ко времени общего предка, которые подчиняются определённым количественным закономерностям. Другими словами, ДНК-генеалогия оперирует тремя экспериментальными факторами: 1) наличием снипов, относящих человека к определённому роду; 2) наличием мутаций, позволяющих оценивать время, прошедшее от общего предка совокупности гаплотипов и - при больших выборках - от начала самого рода, от самого далёкого из предков ныне живущих потомков данного рода (то есть здесь считаются сами мутации); 3) закономерности переходов гаплотипов в их мутированные формы, без численного учёта самих мутаций (то есть здесь мутации не считаются, считаются немутированные гаплотипы).
Это позволяет оценить, насколько достоверны расчёты предка по мутациям, и даёт ещё один, независимый способ расчетов. Методы, в которых считаются мутации, называются линейным, квадратичным и пермутационным, из которых наиболее прост линейный метод. Метод, в котором считаются немутированные гаплотипы, называется логарифмическим. В принципе, он использует формулы химической кинетики первого порядка. В линейном методе общее число мутаций в серии гаплотипов делится на число гаплотипов и на константу скорости мутации для данных гаплотипов. В логарифмическом методе берется логарифм отношения общего числа гаплотипов к числу немутированных гаплотипов, и делится на константу скорости мутации.
Положение тринадцатое - в большинстве случаев результаты расчетов почти не зависят от размера выборки (при числе гаплотипов больше двух-трех десятков), то есть они устойчивы к статистическим вариациям. Размер выборки увеличивает точность, и то только до определенных пределов. Это, правда, относится к довольно большим популяциям, которые перемешались за тысячелетия, но именно с такими обычно и работают.
Приведем пример. В таблице ниже приведены расчеты времени до общего предка гаплогруппы R1a на постсоветском пространстве. Это, в основном, - Россия, Украина, Белоруссия, Литва, Латвия, Эстония и Казахстан. Видно, что при увеличении выборки от 26 гаплотипов до более шестисот результаты практически одинаковы в пределах погрешности расчетов.
___История определений времени до общего предка гаплогруппы R1a1
на «пост-советском пространстве» по разным сериям гаплотипов
Вспомогательный материал: деревья гаплотипов. По ходу изложения я буду показывать деревья гаплотипов, которые отражают ДНК-картину этносов. Это вовсе не значит, что гаплотипы определяют этнос. Но они его в определенной степени описывают, каждый этнос по-разному. Человеку непривычному эти деревья представляются некими абстрактными образованиями, но в них на самом деле заключен большой смысл, и в их графическом виде дается большой объем информации. Для того чтобы сделать эти деревья в настоящей статье более понятными и осмысленными, приведу несколько вводных, «модельных» примеров. Читатель, которому разбираться в этом неинтересно или не нужно, может это пропустить, и сразу перейти к следующему разделу, который рассказывает, у кого какие на Кавказе гаплогруппы.
На рисунке приведено дерево реальной выборки из 68 гаплотипов. Гаплотипы простенькие, 6-маркерные, общий предок всех жил всего 625 лет назад, так что мутаций в гаплотипах набежало мало. Можно даже заранее посчитать, сколько. Константа скорости мутации для 6-маркерных гаплотипов равна 0.0088 мутаций на гаплотип на условное поколение в 25 лет. Тогда за 625 лет (25 условных поколений) в каждом гаплотипе набежит 0.0088х25 = 0.22 мутации, и на все 68 гаплотипов будет примерно 0.22х68 = 15 мутаций. Примерно - потому что дробные числа мы округляем, не может быть «два землекопа и две трети», если кто помнит детские стихи С.Я. Маршака.
___Дерево, состоящее из 68 гаплотипов в их 6-маркерном формате. Например, такие: 15 12 25 11 11 13. Они и образуют «гребенку» на дереве
Смотрим на дерево гаплотипов. Действительно, именно 15 мутаций. Посчитайте сами, это все «вылезающие» из колеса спицы. А вылезают они в разных (и заранее непредсказуемых) местах, потому что мутации происходят неупорядоченно. 53 гаплотипа не мутированы, они образуют ровную гребенку, или «колесо» вокруг центральной части. Это - тот же самый гаплотип, что имел общий предок всех 68 человек:
15 12 25 11 11 13
53 человека этот гаплотип полностью сохранили, потому что 625 лет - это относительно малое время, и 15 мутаций - это все отклонения от предкового гаплотипа, что за это время смогли произойти.
Показанные выше шесть чисел соответствуют шести участкам в Y-хромосоме ДНК, в которых повторяются выбранные исследователями короткие нуклеотидные последовательности. В первом участке - 15 повторов, во втором - 12 повторов, в третьем - 25 повторов, и так далее. Мутация - это изменение числа повторов. Ошибся копирующий фермент при биологическом копировании Y-хромосомы, скопировал первый участок не 15 раз, как завещали предки, а 16 раз, получилось
16 12 25 11 11 13
Это - два идентичных гаплотипа, на дереве выше под номерами 054 и 060.
С правой стороны - гаплотип 061, он имеет вид
15 12 25 11 11 14
У него мутация проскочила в последнем участке, было 13 повторов, стало 14. То есть опять фермент ошибся в сторону завышения числа повторов. А вот в семерке идентичных гаплотипов под номерами 055-057, 062, 064, 066, 068 - мутация пошла в третьем участке, на понижение (25 → 24), статистика ведь, и получилось
15 12 24 11 11 13
Действительно, этот участок, или маркер, как их называют, один из самых подверженных мутациям. Теория подсказывает, что в первом участке на все гаплотипы - две мутации, в последнем - одна мутация, в третьем - семь мутаций. Так и получилось на практике. То есть даже при такой малой статистике закономерности в целом выполняются. Более того, все остальные пять мутаций на дереве гаплотипов относятся к тому же третьему быстрому маркеру. Гаплотипы под номерами 059, 063 и 065 имеют вид
15 12 26 11 11 13
то есть мутация прошла на единицу на повышение, 25 → 26. Последние две мутации, в гаплотипах под номерами 058 и 067, оказались двойными (25 → 23, 25 → 27):
15 12 23 11 11 13
15 12 27 11 11 13
Они и сидят по обе стороны «букета», потому что не происходят одна из другой. Заметьте, что длина «спицы» в двух последних случаях тоже двойная, по сравнению со всеми остальными. То есть по виду дерева гаплотипов можно сказать, какие мутации одиночные, какие - двойные или тройные.
Все это происходит потому, что так настроена профессиональная компьютерная программа, которая строит дерево гаплотипов на основании вводимого списка гаплотипов. Она сортирует гаплотипы по ветвям, то есть по похожести гаплотипов, сортирует по тому, в каких маркерах произошли мутации, сколько мутаций произошло, и по тому, насколько ветви древние. Поэтому по виду дерева человек опытный сразу может понять, какова структура той или иной популяции, сколько в ней основных ветвей, каков относительный возраст ветвей, и далее по числу мутаций в ветвях рассчитать, когда жил общий предок каждой ветви.
По виду базовых гаплотипов в разных регионах и по возрасту их ветвей можно устанавливать, откуда, куда и когда проходили древние миграции людей и где сейчас живут их потомки. То есть можно проводить ДНК-генеалогическое картирование регионов, материков, и всей планеты, как в пространстве, так и во времени. В этом - методология ДНК-генеалогии. А дальше идут интерпретации получаемых данных в терминах истории, языкознания, антропологии, стыковка их с известными данными (тогда это по сути «калибровка»), или с данными неустоявшимися, сомнительными, конфликтными - тогда это дополнительная «точка опоры», или, наконец, это введение в научный оборот совершенно новых данных, и открытие пути для их верификации, проверки, обсуждения, выдвижения новых гипотез и положений.
Вот зачем этот раздел в очерке о ДНК-генеалогии кавказцев. Без него было бы трудно понять, зачем приведены деревья гаплотипов, как на них смотреть, и что они дают.
Следующий раздел мы начнем с рассмотрения общего дерева гаплотипов западного и центрального Кавказа. Гаплотипы средненькие, всего 19-маркерные (потом покажем 37- и 67-маркерные), но и из них можно кое-что вытянуть, как будет видно. Но мы вынуждены исходить из того, какие гаплотипы находятся в нашем распоряжении. В этом отношении Кавказ изучен далеко не полностью, но что можно сделать, если кавказцы только начинают тестировать свои гаплотипы? Пока сами кавказцы не поймут важность этих исследований, никто за них эту задачу не решит.
Тем не менее, многое уже сделано, благодаря двум почти не пересекающимся источникам информации - это энтузиасты с Кавказа, которые посылают образцы своих ДНК в коммерческие компании, платят за это деньги и выставляют протяженные (67- и 111-маркерные) гаплотипы и гаплогруппы в базы данных для научных исследований, и профессионалы, как правило, популяционные генетики, которые проводят тестирование по выборкам по всем правилам, но довольствуются в лучшем случае только 19-маркерными гаплотипами.
Продолжение следует…
_______
Литература
- Бызов, И.В. (2011) О майкопской культуре, минойской цивилизации и этногенезе вайнахов. Вестник Российской Академии ДНК-генеалогии, т. 4, № 3, 546-582;
- Клёсов, А.А. (2008) Откуда появились славяне и «индоевропейцы»? Ответ дает ДНК-генеалогия. Вестник Академии ДНК-генеалогии, т. 1, № 3, 400-477;
- Клёсов, А.А. (2008) Гаплотипы группы R1a1 на пост-советском пространстве. Вестник Академии ДНК-генеалогии, т. 2, № 5, 947-957;
- Клёсов, А.А. (2009) Гаплотипы восточных славян: девять племен? Вестник Академии ДНК-генеалогии, т. 2, № 2, 232-251;
- Клёсов, А.А. (2011) Биологическая химия как основа ДНК-генеалогии и зарождение «молекулярной истории». Биохимия, т. 76, №5, 634-651;
- Клёсов, А.А. (2012а) Микросателлиты и гены Y-хромосомы. Вестник Академии ДНК-генеалогии, т. 5, № 7, 911-913;
- Haak, W., Brandt, G., de Jong, H.N., Meyer, C., Ganslmeier, R., Heyd, V., Hawkesworth, C. et al. (2008). Ancient DNA strontium isotopes, and osteological analyses shed light on social and kinship organization of the Later Stone Age. Proc. Natl. Acad. Sci. USA, 105, 18226-18231;
- Klyosov, A.A. (2009) DNA Genealogy, mutation rates, and some historical evidences written in Y-chromosome. I. Basic principles and the method. J. Genetic Genealogy, 5, 186-216, 2009;
- Klyosov, A.A., & Rozhanskii, I.L. (2012). Haplogroup R1a as the Proto Indo-Europeans and the legendary Aryans as witnessed by the DNA of their current descendants. Advances in Anthropology, 2, 1-13;
- Pitskhelauri, K. (2012) Uruk migrants in the Caucasus. Bulletin of the Georgian Academy of Science, т. 6, № 2, 153-161.
Анатолий А. Клёсов,
доктор химических наук, профессор химии и биохимии Московского и Гарвардского университетов и АН СССР (в разные времена), главный научный сотрудник
«Переформат», 12 сентября 2013