За стеной фильтров. Что Интернет скрывает от вас? - Паризер Эли. Страница 29

Онлайн-сервис видеопроката Netflix работает на основе Алгоритма CineMatch. Сначала все было довольно-таки просто. Если он взял на прокат первый фильм трилогии «Властелин колец», то Netflix мог изучить, какие фильмы брали другие люди, посмотревшие его. Если многие из них просили «Звездные войны», то велика вероятность, что и я захотел бы их посмотреть.

Этот метод анализа называется k-NN (метод «к-ближайших соседей» [270]), и с его помощью CineMatch научился довольно ловко угадывать, что люди хотели бы посмотреть, исходя из тех фильмом, что они уже брали, и оценок, которые им поставили. К 2006 году CineMatch мог с точностью до балла предсказывать оценку, которую пользователь выставит любому из многих сотен тысяч фильмов в коллекции Netflix. Он дает более точные рекомендации, чем большинство людей. Человек-продавец ни за что не порекомендовал бы фильм «Молчание ягнят» поклонникам «Волшебника страны Оз», однако CineMatch знает: людям, которым по душе один из этих фильмов, зачастую нравится и другой. Но главу Netflix Рида Хастингса это не устроило. «Сейчас мы вывели модель Т [271], а возможно гораздо большее», — сказал он журналисту в 2006 году [272]. 2 октября 2006 года на сайте Netflix появилось объявление: «Мы заинтересованы. Цена вопроса — 1 миллион долларов». Netflix опубликовал колоссальные массивы данных — рецензии, записи о прокате фильмов и другую информацию из своей базы, очищенную от всего, что могло бы указать на конкретного пользователя. И компания была готова заплатить миллион долларов человеку или команде, которые смогут опередить CineMatch по точности предсказаний хотя бы на 10 процентов. Конкурс Netflix Challenge был открыт для всех. «Все, что вам нужно, — это компьютер и классные идеи», — заявил Хастингс в интервью New York Times [273].

За девять месяцев в конкурсе поучаствовали около 1800 команд из более чем 150 стран. Они опирались на идеи машинного обучения, коллаборативной фильтрации, нейронных сетей и интеллектуального анализа данных. Обычно конкурсанты, соревнующиеся за такой крупный приз, действуют в тайне от других. Но Netflix призывала конкурирующие группы общаться друг с другом и открыла интернет-форум, где они могли совместно работать над общими затруднениями. Если почитать этот форум, можно практически пощупать те проблемы, которые терзали конкурсантов во время трехлетней погони за более совершенным алгоритмом. Проблема чрезмерно близкой подгонки возникала снова и снова.

При создании алгоритмов анализа данных возникают две большие сложности. Первая — найти все структуры и вычленить их из шума. Вторая — противоположность первой: не выводить структур, которых на самом деле не существует. Формула, описывающая последовательность «1,2,3», может звучать как «предыдущее число плюс один» или же как «положительные простые числа от меньшего к большему». Вы не сможете выбрать верную, пока не получите больше данных. А если вы слишком поспешно делаете выводы, то занимаетесь чрезмерно близкой подгонкой.

В прокате фильмов риски невелики: в прошлом, например, многие зрители были убеждены, что если им понравились фильмы «Крестный отец» и «Крестный отец — 2», то понравится и «Крестный отец — 3». Но проблема чрезмерной подгонки — это, по сути, одна из центральных, неустранимых проблем стены фильтров. В сущности, это создание стереотипов.

Под «стереотипами» (этот термин употреблял еще Уолтер Липпман) часто понимаются злонамеренные, ксенофобские представления, не соответствующие действительности. Классический пример — «люди с таким-то цветом кожи глупее других». Однако даже если стереотипы и их негативные последствия в целом довольно точно описывают реальность, они все равно несправедливы по отношению к конкретным людям.

Маркетологи уже давно изучают «серую зону» между областью возможных прогнозов и теми прогнозами, которые оказались справедливы. По словам Чарли Страйкера, бывалого игрока отрасли поведенческого таргетирования, выступавшего на саммите «Социальный граф», армия США добилась поразительных успехов, используя данные социальных графов для рекрутирования новых солдат [274]. Ведь если шестеро ваших друзей по Facebook записались в армию, вероятно, и вы рассмотрите такую возможность. Выводить определенные заключения о вас на основании того, каким людям нравитесь вы или какие люди дали на вас ссылку, — это весьма неплохой бизнес. И метод этот работает не только в армии. Банки начинают использовать социальные данные, чтобы определить, кому можно давать кредит: если ваши друзья не платят вовремя, есть шанс, что и вы окажетесь таким же никчемным клиентом. «Решение будет приниматься исходя из кредитоспособности ваших друзей», — говорит Страйкер. «У этой технологии есть очень мощные варианты применения, — сказал еще один предприниматель, занимающийся социальным таргетированием, в интервью Wall Street Journal. — Кто знает, как далеко мы зайдем?» [275]

Это вызывает тревогу еще и потому, что от компаний не требуют объяснять, на основе чего они принимают решения. В результате суждение о вас вам неизвестно, и вы не сможете его оспорить. К примеру, Linkedln, социальная сеть по поиску работы, предлагает спрогнозировать вашу дальнейшую карьеру: сравнив ваше резюме с резюме других людей из вашей области, продвинувшихся дальше, она может предсказать, где вы окажетесь через пять лет. Программисты компании надеются, что вскоре она сможет подсказывать решения, которые принесут вам больше пользы: «IT-профессионалы среднего уровня вроде вас, окончившие бизнес-школу Wharton, зарабатывают на 25 тысяч долларов в год больше, чем те, кто в ней не учился». Это весьма полезный сервис. Но представьте, что будет, если Linkedin передаст эти данные корпоративным клиентам, чтобы помочь им отсеять людей, которые по прогнозу оказываются неудачниками. Это может произойти в тайне от вас, вы не сможете поспорить, доказать, что прогноз ошибочен. Здесь не действует презумпция невиновности.

Вам кажется несправедливым, что банки дискриминируют клиентов лишь потому, что их школьные приятели не спешат оплачивать свои счета, или потому, что ваши вкусы совпадают со вкусами многих злостных неплательщиков? Действительно, так и есть. И это подводит к более общей проблеме индукции — логического метода, на основе которого алгоритмы выводят прогнозы из данных. Философы бились над этой проблемой задолго до появления компьютеров. Вы можете подтвердить истинность математического доказательства, выводя его из аксиом, однако философ Давид Юм в 1722 году заметил, что на деле все иначе [276]. Как следует из одного инвестиционного клише, предыдущие показатели не гарантируют достижения таких же результатов в будущем.

Возникает ряд серьезных вопросов по поводу науки, ведь она, по сути, представляет собой метод использования данных для прогнозирования будущего. Карл Поппер, выдающийся философ науки, всю жизнь пытался разобраться в проблеме индукции. Мыслители-оптимисты конца XIX века, изучая историю науки, видели и пей движение к истине. Поппер же решил сосредоточиться на тех обломках, что бросают вдоль этой дороги: на изобилии неверных теорий и идей, полностью соответствующих научным канонам и при этом ужасающе ошибочных. В конце концов, птолемеева концепция мира, где в центре — Земля, а Солнце и другие планеты вращаются вокруг нее, выдержала огромное количество математических проверок и научных экспериментов.

Поппер поставил проблему несколько иначе: если вы видели только белых лебедей, это еще не значит, что все лебеди — белые. Искать нужно черного лебедя — контрпример, подтверждающий, что теория ошибочна. «Фальсифицируемость», доказывал Поппер, — это ключ к поиску истины. Целью науки, с его точки зрения, было нахождение максимально убедительных аргументов, против которых никто не сможет найти контрпример — черного лебедя [277]. В основе взглядов Поппера лежало глубокое смирение в отношении выводимых научным методом знаний — ощущение, что мы ошибаемся столь же часто, как оказываемся правы, и обычно не знаем, правы мы или нет.

вернуться

270

к в данном случае — число анализируемых людей (или других объектов), похожих на вас (или исходный объект) своими характеристиками. Прим. пер.

вернуться

271

Имеется в виду Ford Model Т, выпускавшийся с 1908 по 1927 год и ставший первым действительно доступным автомобилем. Прим. пер.

вернуться

272

Geoff Duncan. Netflix Offers $lMln for Good Movie Picks. Digital Trends, Oct. 2, 2006, www.digitaltrends.com/computing/netflix-offers-l-mln-for-good-movie-picks.

вернуться

273

Katie Hafner. And If You Liked the Movie, a Netflix Contest May Reward You Handsomely. New York Times, Oct. 2, 2006, www.nytimes.com/2006/10/02/technology/02netflix.html.

вернуться

274

Charlie Stryler. Marketing Panel at 2010 Social Graph Symposium, Microsoft Campus, Mountain View, CA, May 21, 2010.

вернуться

275

Angwin. Web's New Gold Mine. Wall Street Journal, July 30, 2010, http://online.wsj.com/article/SB10001424052748703940904575395073512989404.html.

вернуться

276

David Hume. An Enquiry Concerning Human Understanding, Harvard Classics Volume 37, online edition, P. F. Collier & Son: 1910, Section VII, Part I, http://18th.eserver.org/hume-enquiry.html.

вернуться

277

Karl Popper. The Logic of Scientific Discovery. New York: Routledge, 1992.