Простое начало. Как четыре закона физики формируют живой мир - Партасарати Рагувир. Страница 52
Мы живем в эпоху крупномасштабных исследований генома. Физик Стивен Хсу и его коллеги из Университета штата Мичиган обработали данные почти полумиллиона человек, собранные в рамках британского проекта «Биобанк», и по статистическим параметрам выявили ОНП, связанные с ростом. Они обнаружили гораздо больше тех 40 ОНП из работы 2008 года – почти 20 тысяч. Такие проекты сопряжены с рядом трудностей, и ложные закономерности могут легко сбить с толку. Достоверность результатов можно проверить математическим путем, но предпочтительнее оценить предсказательную способность ОНП, ассоциированных исследователями с ростом участников этого эксперимента, то есть проверить, могут ли эти ОНП служить предикторами роста в другой экспериментальной выборке. Иными словами, группе Хсу нужно было проанализировать основную часть базы данных «Биобанка» (то есть не все данные) и заметить, например, что ОНП № 312 соответствует увеличению роста в среднем на 0,05 сантиметра относительно среднего показателя; ОНП № 3092 соответствует его уменьшению на 0,02 сантиметра; ОНП № 4512 – увеличению на 0,08 сантиметра и так далее. Затем во второй, до сей поры не задействованной части базы данных нужно было найти «подозреваемые» ОНП у каждого ее члена, суммировать предположительные эффекты найденных полиморфизмов и предсказать рост этого человека – и так для всех представителей выборки. Оставалось лишь сравнить предсказанные показатели с реальными. Хсу с коллегами проделал все это и изложил результаты в статье 2018 года3. Ученые обнаружили, что записанный в базе данных рост, как правило, отклонялся от прогноза, сделанного на основании ОНП, не больше чем на 3 сантиметра. Чтобы лучше понять, как выглядит подобного рода точность, построим несколько графиков.
На каждом графике показано облако гипотетических значений, где предсказанный рост отложен по горизонтальной оси, реальный – по вертикальной, а каждая точка соответствует одному человеку. Реальные и спрогнозированные показатели роста коррелируют друг с другом на всех трех графиках. Более того, прямая, лучше всего соответствующая распределению данных, на всех графиках почти идентична. Однако между этими тремя случаями есть существенные различия в том, насколько хорошо она описывает данные. Левое облако сильно рассеянное, в среднем точки выстраиваются кучнее и ближе к линии, в правом измеренные значения довольно плотно группируются вокруг предсказания. Эту изменчивость в распределении данных можно количественно оценить с помощью статистической характеристики, называемой коэффициентом вариации и часто обозначаемой символом R2. Чтобы интуитивно понять смысл R2, представьте сначала, что вы измеряете степень разброса точек вокруг горизонтальной прямой, идущей посередине графика. (Если вы немного знакомы со статистикой, вообразите дисперсию, или меру рассеивания, результатов измерений, то есть величину отклонения измеренных значений от среднего.) Затем представьте, что вы оцениваете разброс точек вокруг прямой наилучшего соответствия. В этом случае степень изменчивости будет меньше – это то, что остается после принятия в расчет зависимости, выражаемой прямой. Отношение второго отклонения (разброса) к первому равняется числу от нуля до единицы, которое тем меньше, чем плотнее точки прилегают к прямой наилучшего соответствия. Если вычесть это число из единицы, получится разброс, описываемый линейной зависимостью, то есть R2. На левом графике с рассеянным облаком R2 = 0,1, то есть зависимость между предсказанными и реальными значениями, выражаемая линией наилучшего соответствия, учитывает лишь 10 % разброса точек. На правом графике R2 = 0,7, то есть учитывается 70 % разброса.
В основанном на ОНП анализе роста, проведенном командой Хсу, R2 ≈ 0,42 – это примерно как на среднем графике: не идеально плотное распределение, но и не бесформенное облако, что вполне соответствует упомянутой точности до 3 сантиметров. Быть может, отклонение в 3 сантиметра не слишком впечатляет, но, как выясняется, такой прогноз точнее, чем предсказание роста детей по росту их родителей. Кроме того, оценка на основании ОНП, разумеется, не требует никаких сведений об отличительных чертах и происхождении индивида – хватает ДНК и дешевого анализа. Как отмечает Хсу, ничтожной биологической улики с места преступления теперь достаточно, чтобы установить рост и ряд других физических показателей совершенно неизвестного человека.
Насколько показательным может быть R2 роста? Из семейных исследований с большой выборкой людей разной степени родства, включая однояйцевых близнецов (чьи геномы почти идентичны), генетики давно знали, что наследуемость роста близка к 80 %. Иными словами, наследственность объясняет около 80 % разницы в росте между индивидами4. Но чем объяснить разрыв между 0,4 и 0,8 – влиянием особенностей ДНК, не охватываемых анализом ОНП, или более загадочными биологическими механизмами? В 2019 году австралийский генетик Питер Виссхер и его коллеги изучили полногеномные последовательности более чем 20 тысяч человек и обнаружили, что информация, закодированная в ДНК, действительно объясняет 80 % разницы в росте у людей. Остальные 20 %, по крайней мере у современных европейцев, связаны с различиями в рационе, физической активности и истории болезней.
Разумеется, все эти изыскания применимы не только к людям. Вместо роста своих сородичей мы вполне могли бы поинтересоваться вкладом генетических факторов в вариативность пятен у леопарда, лепестков у розы или массы у амеб. Управлять изменчивостью признаков живых существ критически важно для сельского хозяйства. За период с 1930 по 1970 год численность населения нашей планеты удвоилась с 2 до 4 миллиардов человек и с тех пор удвоилась снова. Этот головокружительный рост не сопровождался массовым голодом благодаря ряду новаторских решений. Так, ключевым элементом зеленой революции 1950–1960-х стало селекционное выведение новых сортов пшеницы и риса. Американский агроном Норман Борлоуг, в середине XX века работавший в Мексике, вывел особые сорта пшеницы с крупными колосьями5. Однако такие растения грешили склонностью к полеганию – как мы помним из главы 10, большим быть нелегко. Скрестив их с карликовыми сортами – мутантами из Японии, – Борлоуг получил крепкую высокоурожайную пшеницу. Считается, что благодаря этому и подобным достижениям Борлоуг сохранил миллиард человеческих жизней.
Мы хотим, чтобы пшеница была ниже, а куры – больше. Сегодня североамериканские куры, выращиваемые на мясо, в четыре раза тяжелее, чем их сородичи в 1950-х, даже при аналогичном откорме6. (Чтобы понять, насколько значительно это увеличение, вообразите мир, в котором человек весит в среднем 320 килограммов.) У кур бывает разная конституция, что отчасти объясняется генетикой: современные увесистые куры-переростки появились в результате последовательного отбора самых крупных особей для размножения. Кстати, упомянутое исследование Виссхера и его коллег приписало генетическим различиям около 40 % разницы в индексе массы тела – показателе соотношения массы и роста.
Сегодня, отбирая растения и животных для скрещивания, можно опираться не только на очевидные характеристики, но и на ОНП. Например, выбрав крупную курицу и крупного петуха, мы можем получить крупных цыплят, но было бы лучше, если бы увеличивающие размеры тела генетические варианты матери отличались от вариантов отца – так мы сильно повысим вероятность того, что у каждого их потомка будет целых два набора генетических предрасположенностей к крупным размерам, или, образно говоря, в геномную копилку цыплят попадут две разные несбалансированные монеты. Поэтому сейчас все чаще и чаще прибегают к сбору данных по ОНП, то есть к ОНП-генотипированию. Так, в 2019 году американская база данных молочного скота содержала генотипы 3 миллионов коров, самому старому из которых было 2 миллиона лет, а самому новому – два года7. Инструментарий и базы ОНП сейчас охватывают десятки сельскохозяйственных культур – от пшеницы до томатов и подсолнечника.