Том13. Абсолютная точность и другие иллюзии. Секреты статистики - Грима Пере. Страница 2
Изучив источник питьевой воды, Сноу не обнаружил заметных следов заражения. Далее он обратился к архивам и составил подробный список всех умерших за последние два дня. Ни один из рабочих пивоварни, расположенной вблизи источника, не заразился, а в приюте для бедняков, также расположенном неподалеку, где проживали более 500 человек, было зарегистрировано лишь пять летальных исходов. Газеты сообщали о новых жертвах эпидемии, проживавших в отдаленных районах: Хампстеде и Излингтоне. Казалось, что Сноу ошибался.
Он удвоил усилия: обойдя дом за домом, он убедился, что и в приюте для бедняков, и на пивоварне имелись собственные источники питьевой воды. Одно из семейств, проживавших в Хампстеде, сообщило, что женщина — жертва холеры, ежедневно приносила воду из источника на улице Броуд, так как ей нравился вкус именно этой воды. Племянница этой женщины, также умершая от холеры, поступала аналогичным образом. «А где жила ее племянница?» — нетрудно представить, что Сноу задал именно этот вопрос. «В Излингтоне», — последовал ответ.
Сноу записал: «Вывод моего исследования заключается в том, что в этой части Лондона отсутствует вспышка холеры или видимое присутствие заболевания за исключением тех, кто брал воду в упомянутом источнике». Эта простая фраза позднее изменила систему здравоохранения во всем мире.
7 сентября, когда эпидемия все еще не стихла, Сноу добился созыва срочного совещания с местными властями и сообщил им о своем открытии. Он не только выступил с речью, но и представил карту района, на которой отметил численность и место жительства умерших. Карта оказалась настолько убедительной, что уже на следующий день колонка была закрыта. Число умерших резко сократилось, и через некоторое время эпидемия остановилась.
Сила графиков
Оригинал карты, составленной Сноу, хранится в Британском музее. В 1855 году улучшенная версия карты была включена в отредактированную статью Сноу, написанную в 1849 году. Фрагмент этой карты приведен на следующей странице. Современному читателю сложно понять, насколько передовым был тогда такой способ представления данных, ведь сегодня он используется повсеместно.
Фрагмент карты района Сохо, где в 1854 году разразилась эпидемия холеры. Источник питьевой воды на улице Броуд обозначен словом PUMP в центре карты. Горизонтальные линии обозначают число умерших в каждом доме.
Умершие от холеры обозначены параллельными отрезками. При нанесении этих обозначений на обычную карту рядом с каждым домом сразу же становится понятно, где располагался очаг эпидемии. Очевидно, что большинство смертельных исходов зафиксировано рядом с источником питьевой воды (pump) на улице Броуд в центральной части карты. Если прибавить к этому скрупулезный труд Сноу по сбору информации, то связь эпидемии с источником питьевой воды не требует дополнительных подтверждений в виде какой-то конкретной теории. Именно так посчитали местные власти и приняли решение закрыть колонку. Очаг заболевания угас, что и стало доказательством того, что холера передается через зараженную воду.
Эксперименты, проведенные Луи Пастером в период с 1860 по 1864 год, сыграли ключевую роль в формировании теории патогенов и позволили дать теоретическое объяснение наблюдениям Сноу постфактум. В 1885 году немецкий ученый Роберт Кох установил, что возбудителем холеры является бактерия Vibrio cholerae, и уже в конце века системы водоснабжения большей части крупных европейских городов были заменены. Призрак холеры перестал угрожать половине мира.
Описать подозреваемого в преступлении так, чтобы другие смогли гарантированно опознать его, — непростая задача, если только у подозреваемого нет какой-то отличительной черты. Однако эксперты полиции знают, на что следует обращать внимание и какие эпитеты нужно использовать при описании преступника, чтобы другой человек мог себе его представить. Они также знают, как нужно составить фоторобот преступника, чтобы его было легче опознать.
Чем-то подобным занимается и статистика. Чтобы обобщить обширное множество данных, рассчитывается несколько показателей (их может быть, например, пять или шесть), которые содержат больше всего информации и помогают получить достаточно точное представление обо всех данных в целом. Эти показатели обычно делятся на три группы: показатели центра распределения, показатели вариации и квантили. В этом разделе мы расскажем о показателях первой группы, которые указывают, в окрестности каких значений располагаются данные.
Среднее арифметическое
Мы все рассчитывали свой средний балл, когда учились в школе или институте. Например, баллы выставляются по шкале от 0 до 10, итоговый балл рассчитывается как средний балл трех промежуточных экзаменов, а пороговая оценка равна 5. Оценки 3, 2 и 6 на промежуточных экзаменах означают, что вы не сдали экзамен; оценки 4, 4 и 7 означают успешную сдачу (а как быть, если вы получили 4, 4,3 и 6,3?).
Среднее арифметическое — это один из наиболее распространенных показателей центра распределения. Эта величина используется весьма широко благодаря своим особым свойствам и простоте расчетов. Она также демонстрирует нетривиальные свойства при некоторых расчетах. Попробуем, к примеру, найти среднее арифметическое средних арифметических. Среднее арифметическое (3, 4, 3) равно 4, среднее арифметическое (4, 6) равно 5, но среднее арифметическое всех этих чисел равно 4,4, а не среднему значению средних арифметических (4 + 5)/2 = 4,5. Как правило, если дано множество из n1 значений со средним арифметическим и второе x¯1 множество из n2 значений со средним арифметическим x¯2, то средним арифметическим значений множества из (n1 + n2) значений будет
Эта формула эквивалентна формуле расчета среднего для всех значений, так как если выборка содержит n элементов, среднее значение которых равно х¯, их сумма будет равна nх¯. Таким образом, числитель общего среднего арифметического равен сумме всех элементов выборки, а знаменатель — общему числу элементов выборки.
Рассмотрим пример. Если средний возраст сотрудников-мужчин в компании равен 36 годам, а средний возраст женщин — 32 годам, то каков средний возраст всех сотрудников? Ответ зависит от конкретной численности мужчин и женщин. Если половина сотрудников — мужчины, а половина — женщины, то средний возраст будет равняться 34 годам. Если 73 % сотрудников — мужчины, а 23 % — женщины, то средний возраст будет равен 35 годам. Заметим, что доля мужчин и женщин рассчитывается по следующим формулам: p1 = n1(n1 + n2) и р2 = n2(n1 + n2), поэтому первую формулу можно записать в следующем виде: x¯t = р1x¯1 + р2x¯2.
В некоторых случаях среднее арифметическое является не самой подходящей величиной. Если мы хотим обобщить данные о сроках доставки товара или о времени поезда в пути, среднее арифметическое не даст нам полезной информации. Может быть так, что по договору срок поставки должен составлять 10 дней, при этом в половине случаев товар доставляется за два дня, что становится неожиданностью для заказчика (на складе может не быть места для товара, к примеру), а в другой половине — за 18 (заказчик уже потерял надежду получить товар). Хотя в среднем сроки поставок соблюдаются идеально точно, означает ли это, что в компании все в порядке?