Алекс в стране чисел. Необычайное путешествие в волшебный мир математики - Беллос Алекс. Страница 78
Давайте теперь перейдем к комбинированию математических объектов. Рассмотрим выражение x + у. Что представляет собой (x + у)2? Это то же самое, что (x + у)(x + у). Чтобы разложить это выражение, умножим каждый член в первой скобке на каждый член во второй. Таким образом, получится xx + xy + yх + yy, или х2 + 2ху + у2. Дальнейшие вычисления делают структуру более ясной. Коэффициенты перед отдельными членами — это строки из треугольника Паскаля:
(x + у)2 = х2 + 2ху + у2,
(x + у)3 = х3 + 3х2у + 3ху2 + y3,
(x + y)4 = х4 + 4х3y + 6х2у2 + 4ху3 + у4.
В начале XVIII столетия математик Абрахам де Муавр (1667–1754) — француз и гугенот, нашедший убежище в Лондоне, — первым понял, что коэффициенты в этих равенствах все лучше ложатся на кривую-колокол по мере, того как (x + у) все большее число раз умножается само на себя. Он не назвал то, что получилось, ни колоколообразной кривой, ни кривой ошибок, ни нормальным распределением, ни даже гауссовым распределением — все эти имена были даны ей позже. Данная кривая впервые появилась в математической литературе в написанной в 1718 году книге Муавра об играх — «Теория случайностей» («The Doctrine of Chances»). To был первый учебник по теории вероятностей, а заодно и пример того, как азартные игры способствовали прогрессу научного знания.
Я говорил о колоколообразной кривой так, как если бы это была одна кривая; на самом же деле это семейство кривых. Все они выглядят похожими на колокол, но одни уже, а другие шире.
Вот объяснение, почему ширина бывает различной. Если бы Галилей, скажем, в своих астрономических измерениях пользовался телескопом XXI века, то ошибка была бы меньше, чем при использовании телескопа XVI столетия. Современный инструмент дал бы гораздо более узкую колоколообразную кривую, чем первый телескоп. Ошибки были бы намного меньше, но все равно были бы распределены нормально.
Колоколообразные кривые с различными отклонениями
Помимо среднего значения, колоколообразная кривая характеризуется еще шириной, называемой отклонением. Если известны среднее и отклонение, то полностью известна и форма кривой. Это исключительное удобство связано с тем фактом, что нормальную кривую можно описать, используя всего два параметра. Ну или, быть может, это даже слишком удобно. Те, кто имеет дело со статистикой, нередко принимают желаемое за действительное, стремясь обнаружить колоколообразную кривую во всех своих результатах. Билл Робинсон — экономист, возглавляющий отдел судебной бухгалтерии в KPMG [66] в Лондоне, признает, что подобное имеет место. «Мы обожаем работать с нормальными распределениями, потому что их математические свойства очень хорошо изучены. Стоит нам только узнать, что речь идет о нормальном распределении, как мы уже готовы делать всяческие интересные утверждения».
Работа Робинсона, грубо говоря, состоит в том, чтобы, исследуя структуру колоссальных объемов данных, сказать, не намухлевал ли кто в бухгалтерской отчетности. Робинсон придерживается той же стратегии, что использовал Пуанкаре, ежедневно взвешивая хлеб, с той лишь разницей, что он — британский экономист — ежедневно анализирует гигабайты финансовых данных и применяет для этого гораздо более продвинутые средства.
Робинсон говорит, что сотрудники его отдела имеют склонность работать, исходя из предположения, что любому набору данных априорно свойственно нормальное распределение. «Я полагаю, что в отношении финансовых рынков истина состоит в том, что мы зачастую предполагаем наличие нормального распределения там, где оно, возможно, не работает». В последние годы и правда наблюдалось некоторое попятное движение — как в мире науки, так и в мире финансов — прочь от исторически сложившейся практики опираться на нормальное распределение.
Когда некоторое распределение сконцентрировано вблизи среднего в меньшей степени, чем колоколообразная кривая, про него говорят, что оно плосковершинное или что у него эксцесс меньше нормального. Наоборот, когда распределение в большей степени сконцентрировано вблизи среднего, говорят, что оно островершинное, или что оно имеет положительный эксцесс. Уильям Сили Госсет, специалист по статистике, работавший на пивоварне Гиннесса в Дублине [67], придумал в 1908 году памятку, облегчающую запоминание того, что есть что: «У утконоса с плоским утиным носом (и плоской спиной) плосковершинное распределение, а у целующихся кенгуру — островершинное». Он выбрал кенгуру из-за того, что они «высоко скачут, хотя, честно говоря, по той же самой причине можно было выбрать и зайцев!». Поскольку в составленной Госсетом памятке главные действующие лица — животные, далекие правые и далекие левые участки кривых, описывающих распределения, называют хвостами.
Плосковершинное и островершинное распределения
Когда экономисты говорят, что у распределения «толстые» или «тяжелые» хвосты, они имеют в виду, что кривые в далеких от среднего областях проходят выше, то есть на большем удалении от горизонтальной оси, чем кривая нормального распределения, как если бы у госсетовских животных хвосты были толще средних. Эти кривые описывают распределения, в которых крайние события более вероятны, чем в случае нормального распределения. Например, если вариации в цене акций имеют толстые хвосты, это означает, что вероятность резкого падения или, наоборот, резкого роста этих акций в цене больше, чем в случае нормального распределения. По этой причине иногда довольно безрассудно предполагать колоколообразную кривую там, где распределение имеет толстые хвосты.
В своем бестселлере «Черный лебедь» [68] экономист Нассим Николас Талеб утверждает, что нам свойственна тенденция к недооценке размера и важности хвостов кривых, описывающих распределения. Его аргумент состоит в том, что колоколообразная кривая — это исторически дефективная модель, потому что она не позволяет предсказывать ни появление очень редких, крайних событий, ни производимый ими эффект, — а к таким событиям могут относиться ключевые научные открытия, подобные изобретению Интернета, или нападение террористов, подобное атаке и сентября 2001 года. Вездесущность нормального распределения не относится к числу свойств окружающего мира, утверждает он, — тут проблема нашего восприятия, порожденная тем, как мы смотрим на те или иные явления.
Желание всюду усматривать колоколообразную кривую, пожалуй, сильнее всего проявляется в образовании. Расстановка оценок от А до F на экзаменах [69] в конце учебного года основана на том, как набранные учащимися баллы ложатся на колоколообразную кривую, — причем предполагается, что она и в самом деле будет аппроксимировать полученные оценки. Затем данная кривая разбивается на участки, и оценка А выставляется тем, чьи баллы попали в самый верхний участок, В — в следующий и т. д. Во избежание резких встрясок образовательной системы важно, чтобы из года в год процент учащихся, получающих оценки от А до F, оставался примерно постоянным. Если в какой-то год получается слишком много оценок А или слишком много оценок F, то потом на некоторых курсах окажется слишком много или слишком мало студентов, что, в свою очередь, повлечет изменение требований к преподавательскому составу. Экзамены целенаправленно устроены таким образом, чтобы распределение результатов по возможности наилучшим образом ложилось на колоколообразную кривую, независимо от того, насколько точно это отражает реальный уровень знаний.
66
KPMG — одна из крупнейших аудиторских компаний мира. (Примеч. перев.)
67
Госсет У. С. (1876–1937) более известен под псевдонимом Стьюдент («распределение Стьюдента», «критерий Стьюдента» в статистике). Госсет взял себе псевдоним, чтобы иметь возможность публиковаться, используя в своих работах данные, полученные им на заводе Гиннесса и составлявшие коммерческую тайну. (Примеч. перев.)
68
Талеб Н. Н. Черный лебедь. Под знаком непредсказуемости. Москва: КоЛибри. 2012.
69
А, В, С и D — проходные оценки, F («failure» — провал, неудача) — аналог отечественной двойки. (Примеч. перев.)