Шрифт:
Интервал:
Закладка:
Для описания этих явлений в популяционной генетике используют понятие «генетический дрейф». Это понятие для ДНК-генеалогии непригодно, поскольку термин «генетический» здесь некорректен, в ДНК-генеалогии с генами не работают. Принятое в попгенетики понятие «эффект основателя» также не привилось в ДНК-генеалогии, и понятно, почему – оно не несет никакой информации, и является просто калькой с соответствующего англоязычного термина. «Бутылочное горлышко», впрочем, тоже калька, но оно понятно в смысловом отношении. Именно из-за соответствующих «бутылочных горлышек» у гаплогрупп E, G, I, J на 99 – 100 % преобладает аллель DYS426=11, а у гаплогрупп R на 99 % преобладает DYS426=12. Иначе говоря, сдвиг аллели у далёких предков от 11 к 12 в так и остался в потомках соответствующих гаплогрупп. Подобный (по сути) эффект привёл к тому, что в «быстром» маркере DYS449 в разных гаплогруппах осталось не более 30 % наиболее частой аллели (ср. с 99 % или 100 % в «медленных» маркерах), и она «плывёт» от величины DYS=28 (гаплогруппа I) к 29 (J2), 30 (R1b), 31 (E3a и G) и 32 (E3b и R1a).
Вопрос 59: Что такое база данных IRAKAZ?
Ответ на этот вопрос приведен на сайте Академии ДНК-генеалогии http://dna-academy.ru/irakaz/, и мы здесь его в значительной степени воспроизводим. Эта база представляет собой список практически всех доступных из открытых источников гаплотипов R1a в 67– и 111-маркерном формате по состоянию на дату выхода версии. Она оформлена в виде электронной таблицы в программе MS Excel, содержит информацию о стране происхождения и, если известно, этнической принадлежности самого раннего из документированных предков участника, отнесение к той или иной ветви гаплогруппы и список подтвержденных снипов (SNP). Персональная информация опущена, поскольку технически невозможно получить согласие на ее публикацию от каждого из участников. Однако для тех, кто предоставил в открытых проектах данные о своих предках и указал места их рождения, такую информацию можно найти на картах по линку выше.
База данных IRAKAZ ориентирована на использования гаплотипов в исследовательских целях, поэтому порядок записи гаплотипов следует определенной классификации. В базе данных предусмотрена также возможность поиска самых близких гаплотипов в 25-, 37-, 67– и 111-маркерном формате, как это описано на указанном сайте. Название IRAKAZ обозначает инициалы составителей базы: Igor Rozhanskii, Anatole Klyosov, Aleksander Zolotarev. Там же приведен список карт гаплогруппы R1a, составляющий часть базы данных IRAKAZ.
Глава 4
Расчетные методы ДНК-генеалогии. Константы скоростей мутаций в маркерах и в гаплотипах
Это – центральный вопрос ДНК-генеалогии, и мы уделим этому особое внимание. Вопросов в этом отношении задается много, что вызвано тремя основными причинами: (1) относительная сложность вопроса, (2) неупорядоченный, статистический характер мутаций, при котором число мутаций при относительно малом числе маркеров и за относительно малый промежуток времени является нестабильным, и для неопытного человека представляется принципиально невоспроизводимым, и (3) крайняя запутанность популяционными генетиками этой темы на протяжении последних 20 лет.
Вопрос 60: С какими скоростями происходят мутации в гаплотипах?
Выше (в ответе на Вопрос 14) было показано, что в маркере DYS393 значение аллели 13 сохраняется во всех трех рассмотренных гаплотипах (русского и двух киргизов), отделенных друг от друга тысячелетиями, а в маркере DYS390 за то же время мутация произошла дважды, и все три аллели оказались разными – 24, 25 и 26. Три гаплотипа в данном случае не очень показательны, статистика не та, но в целом так и должно быть, потому что константа скорости мутации в маркере DYS393 равна 0.00059 мутаций на условное поколение (25 лет), а в маркере DYS390 – почти в четыре раза выше, 0.0022 мутаций на условное поколение.
Что эти числа реально означают?
Они означают, что в маркере DYS393 мутация происходит в среднем раз в 1/0.00059 = примерно 1700 условных поколений, то есть раз в 42 500 лет. В трех независимых маркерах DYS393 мутация в среднем проходит примерно раз в 14 тысяч лет. А общий предок всех трех гаплотипов в примере выше жил примерно 5 тысяч лет назад, поэтому мутация и не успела произойти, все три аллели равнялись 13, то есть показывали 13 тандемных повторов. В маркере DYS390 мутация происходит в среднем раз в 1/0.0022 = 455 условных поколений, то есть примерно раз в 11 тысяч лет, то есть для трех независимых маркеров мутация в среднем произойдет раз в 3800 лет (округлено). Вот она и произошла, и даже дважды за 5 тысяч лет. Естественно, здесь это только полуколичественные расчеты, потому что три маркера – это не статистика, но здесь показан принцип расчета. Если бы у нас было в наличии тысяча гаплотипов, расчеты были бы намного точнее. В таком случае в тысяче маркеров DYS393 за пять тысяч лет (200 условных поколений) было бы 1000х0.00059х200 = 118 мутаций, а в маркере DYS390 было бы 1000х0.0022х200 = 440 мутаций. С такой статистикой уже можно работать.
Давайте посмотрим, что наблюдается в более протяженных сериях гаплотипов. Взглянем на серию из 3466 гаплотипов гаплогруппы R1b-L21. Число аллелей в маркере DYS393:
11 – 2 (то есть аллель 11 встречается в 3466 гаплотипах всего два раза)
12 – 81
13 – 3237
14 – 145
15 – 1
Считая, что все мутации одношаговые, получаем 232 мутации на 3466 аллелей – от базового значения аллели, равного 13, то есть в среднем 0.067 мутаций на маркер DYS393. Как проводятся поправки на возвратные мутации в таких системах мы рассмотрим в следующем разделе. Такие поправки нужны, потому что часть мутированных маркеров не только продолжают мутировать, уходя все дальше от предковой аллели (например, 13 → 14 → 15, или 13 → 12 → 11), но по тем же законам статистики возвращаются в исходное положение (13 → 14 → 13, 13 → 12 → 13), и потому мы часть мутаций недосчитываем.
Для другого примера возьмем не «медленный» маркер, как DYS393, а «быстрый», например, DYS390, из той же серии в 3466 гаплотипов субклада R1b-L21. Число аллелей в маркере DYS390:
21 – 3
22 – 22
23 – 228
24 – 2364
25 – 815
26 – 33
27 – 1
Видно, что мутации уже более «размазанные» по аллелям. Считая, что все мутации одношаговые, получаем 1165 мутаций на 3466 аллелей, то есть в среднем 0.336 мутаций на маркер DYS390. Мы видим, что среднее число мутаций в маркере DYS390 для той же серии гаплотипов уже в пять раз выше. Если бы не сложности статистического характера, упомянутые выше, можно было бы полагать, что эта разница отражает количественную разницу в соответствующих константах скорости мутации для маркеров DYS393 и DYS390, но это не совсем так. Константы равны 0.00059 и 0.0022 мутаций на маркер на условное поколение, то есть различаются только в 3.7 раз. Под «сложностями статистического характера» здесь понимаются и введение поправок на возвратные мутации, и несимметричность распределения числа мутаций «вверх» и «вниз» (см. приведенные выше примеры), и наличие нижестоящих субкладов, гаплотипы которых могут (системно) по мутациям отличаться от гаплотипов вышестоящих субкладов, и многие факторы, которые надо учитывать при корректном анализе в ДНК-генеалогии. Примеры даны ниже.
Вопрос 61: Что такое поправки на возвратные мутации, и как они рассчитываются?
Как было пояснено выше, вклад возвратных мутаций вызывается тем, что часть мутаций вернулись в исходное положение предковой аллели (13 или 24 для случаев маркеров DYS393 и DYS390, рассмотренных выше), и таким образом мы наблюдаем некоторый недобор мутаций. Формулы для расчетов поправочных коэффициентов даны в работах[57], и в простейшем виде симметричной картины мутаций формула следующая:
где:
λobs = наблюдаемое среднее число мутаций на маркер в рассматриваемой серии гаплотипов,
λ = среднее число мутаций на маркер, с учетом поправки на возвратные мутации.
В примере с DYS393, рассмотренном выше, поправка будет минимальной, поскольку маркер «медленный», и мутаций наблюдается мало, как в «одну», так и в «другую» сторону от исходного положения аллели. Тем не менее, рассчитаем этот поправочный коэффициент, для иллюстрации. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.067, поправочный коэффициент равен 1.0345, и полная запись расчета следующая:
(1+1.069)/2 = 1.0345
Итак, мы наблюдаем 0.067 мутаций на маркер, а на самом деле их 0.069 мутаций на маркер, то есть всего на 3 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
В примере c маркером DYS390, также рассмотренном выше, поправка будет значительной, поскольку маркер «быстрый», и мутаций наблюдается много, как «вверх», так и «вниз» от исходного положения аллели. Рассчитаем этот поправочный коэффициент. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.336, получаем, что поправочный коэффициент равен 1.1997, и полная запись
- Удовлетворённость заинтересованных сторон как фактор повышения качества образовательной деятельности физкультурного вуза - Коллектив авторов - Прочая научная литература
- Самая главная молекула. От структуры ДНК к биомедицине XXI века - Максим Франк-Каменецкий - Прочая научная литература
- Инструменты современного маркетинга - Ольга Масленникова - Прочая научная литература
- Поп Гапон и японские винтовки. 15 поразительных историй времен дореволюционной России - Андрей Аксёнов - История / Культурология / Прочая научная литература
- На 100 лет вперед. Искусство долгосрочного мышления, или Как человечество разучилось думать о будущем - Роман Кржнарик - Прочая научная литература / Обществознание / Публицистика
- Загадки современной химии. Правда и домыслы - Джо Шварц - Прочая научная литература
- Язык химии. Этимология химических названий - Илья Леенсон - Прочая научная литература
- Во что мы верим, но не можем доказать. Интеллектуалы XXI века о современной науке - Джон Брокман - Прочая научная литература
- Внеземной след в истории человечества - Виталий Симонов - Прочая научная литература
- Боги Атлантиды - Колин Уилсон - Прочая научная литература