Журнал «Компьютерра» № 25-26 от 11 июля 2006 года (645 и 646 номер) - Компьютерра. Страница 28
Итак, t-критерий позволяет оценить, какова вероятность того, что отличия средних двух выборок отражают лишь случайные процессы при их формировании, а F-критерий позволяет сделать то же самое в отношении меры их изменчивости. Увы, нормальность распределения — важнейшее ограничение применимости этих критериев.
Вопреки господствующему мнению, нормальные распределения — редкость в биологии. Одним из классических примеров «нормального» распределения является распределение людей по их росту. Но взгляните на фотографию: распределения мужчин и женщин по росту разные. На фотографии только здоровые люди, и нет больных с нарушениями гормонального баланса. А подумайте, что будет, если к этому распределению добавить стариков и детей!
Нормальность распределения возникает тогда, когда на величину действует много несвязанных слабых факторов. На биологическое разнообразие обычно влияет целый букет «сильных» факторов, связанных друг с другом букетом же корреляций. Эти факторы — пол, возраст, место в иерархической структуре популяции и многое другое. Увы, со «Стьюдентом-Фишером» в большинстве случаев лучше попрощаться.
Для описания новых видов, к счастью, требуют что-то сверх отличий по метрическим признакам (хотя якобы совсем недавно кому-то удалось описать массу новых видов моллюсков почти исключительно на основании достоверных отличий формы раковины). А для обоснования существования подвидов указанные рассуждения используются вовсю.
Корректны ли они? Конечно, нет. И дело не только в том, что t— и F-критерий применимы только для данных с нормальным распределением. Дело в другом. «Стьюдент-Фишер» дает ответ на вопрос, какова вероятность того, что два сравниваемых распределения одного и того же признака взяты из одной генеральной совокупности, и различия между ними — результат случайности при составлении выборки. Если эта вероятность (p) ниже какого-то уровня (например, 0,05), мы можем рискнуть и принять гипотезу, что выборки взяты из разных совокупностей. Это и называется достоверностью различий. И все. Отсюда есть два следствия.
Первое. Когда мы сравниваем уклеек из двух разных рек, мы и так с самого начала знаем, что это выборки из разных совокупностей. Второе. При уровне значимости 0,05 достоверное отличие — это такое отличие, которое возникает не чаще, чем в одном случае из двадцати. А если мы будем сравнивать выборки по ста признакам (или сто пар выборок по одному признаку), математическое ожидание «достоверных» отличий составит целых пять штук!
Беру две группы по пятьдесят объектов, характеризую их по ста признакам, заполняя столбцы шумом. Сравниваю по «Стьюденту-Фишеру». Получаю шесть «достоверных» отличий, из которых три штуки влезают в первый же скрин (рис. 6). Ну что, теперь можно анализировать, какие именно признаки оказались достоверно отличающимися, и делать на основании этого глубокомысленные выводы о специфике эволюции уклеек в бассейнах двух рек…
Мои рассуждения кажутся вам примитивными? Возьмите любой сборник или журнал с подобными по методологии работами и вы сами сможете найти примеры такого употребления статистических методов.
Что же делать? Для сравнения выборок по признакам, которые не подчиняются нормальному распределению, использовать непараметрические методы. Для сравнения нескольких объектов одновременно использовать дисперсионный анализ. Для сравнения одновременно по нескольким признакам использовать многомерные критерии. Для оценки уровня отличий между разными совокупностями вычислять фенетические дистанции (численные меры того, насколько отличаются друг от друга две выборки). И аккуратнее использовать статистические методы.
Мы начали статью с особенностей работы в программе Statistica. Однако ясно, что сама по себе проблема использования численных методов в биологии шире этой программы. В следующем примере речь идет о математическом моделировании эволюции, однако и эту работу можно рассматривать как связанную с биометрией и статистикой. В отличие от предыдущих, этот пример невозможно сделать анонимным — уж слишком широкую огласку он получил. Описывая его, я сошлюсь на «Происхождение видов» Дарвина. Чтобы объяснить, при чем тут Дарвин, нужно немного уйти в сторону.
Должен признаться, что серьезно «подсев» на классическую музыку, категорически не приемлю сборников наподобие «The best of Bach». Авторы таких подборок берут на себя труд подправлять классиков. Великие композиторы иногда могли сочинить что-либо стоящее, но, вероятно, по причине недостатка вкуса, вставляли хитовые мелодии в занудные симфонии. Впрочем, если из устаревшего произведения выкинуть все ненужное, оно может сойти и для современного, придирчивого слушателя. Еще одна примета времени — переложения устаревшей музыки на новый лад. Я своими ушами слышал сетования, что у Баха не было в распоряжении электрогитары — какую хорошую музыку он мог бы написать [Не верю, что за всю историю человечества удалось создать инструмент, более богатый значимыми для человеческой природы интонациями, чем рояль, и более подходящий для выражения эмоций, чем скрипка, альт или виолончель]!
В издании классиков науки тоже существует подобная тенденция. Аналогией Баха, из которого выброшено все ненужное, а остаток переложен на электрогитару, может быть «Происхождение видов» Дарвина под редакцией А. В. Яблокова и Б. М. Медникова [Дарвин Ч. Происхождение видов путем естественного отбора: Кн. для учителя / Коммент. А. В. Яблокова, Б. М. Медникова. — М.: Просвещение, 1986 — 383 с]. Те места, где Дарвин сомневался или осторожно нащупывал мысль, выкинуты бестрепетной рукой. Оставленный дарвиновский текст изрядно улучшен редакторскими комментариями и вставками. Поскольку Дарвин не был знаком с «Аксиомами биологии» Медникова [Довольно известная и, по моему мнению, бессмысленная в силу самой постановки задачи попытка догматизировать биологию], пришлось ему кое-что разъяснить. Кроме многого другого, в «Происхождение видов» добавлено описание машинного эксперимента, выполненного В. В. Меншуткиным совместно с самим Медниковым, — тут инкогнито авторов никак не сохранишь… Хотя речь идет о довольно старом результате, он часто цитируется до сих пор, так что его анализ по-прежнему остается актуальным.
Моделировалась эволюция позвоночных. Была описана «биосфера», в которой могло существовать определенное количество организмов. Было задано описание позвоночного, в котором перечислено определенное количество качеств (наличия/отсутствия тех или иных органов и свойств). В начале в модельную биосферу поместили существо типа ланцетника — примитивный вариант, в котором приспособления позвоночных находятся лишь в потенции. «Размножение» осуществлялось путем копирования имеющихся в биосфере организмов. В ходе копирования были возможны ошибки — «мутации». После каждого цикла размножения возникал избыток организмов, и программа удаляла описания менее приспособленных организмов, а «генотипы» более приспособленных отсылала на следующее копирование.
В результате этого эксперимента удалось доказать, что ход эволюции предопределен и неизбежно ведет к появлению разума. В эксперименте Меншуткина-Медникова «ланцетники» дали разнообразных «рыб», имевших три пары парных плавников, а затем вышли на сушу в виде шестиногих существ. В результате эволюции наземной жизни возникли существа типа кентавров — перемещавшиеся на четырех ногах организмы со свободными для труда передними конечностями. У них был крупный мозг и способствующая развитию разума социальная жизнь.
Достигнув этого этапа, экспериментаторы «отмотали» машинное время назад и населили сушу четвероногими существами. О чудо! Теперь возникший в ходе эволюции разум оказался двуног. Итак, удалось доказать, что в эволюции есть определенная свобода, но в целом ее ход предрешен.
Я считаю, что эволюция направлена, но убежден в этом не благодаря эксперименту Медникова-Меншуткина, а вопреки ему. И дело не в том, что позвоночные не могли быть шестиногими (см. врезку). Дело в том, как в данном эксперименте оценивалась приспособленность «организмов».