Журнал «Компьютерра» № 11 от 20 марта 2007 года - Компьютерра. Страница 20

Концепция проста и элегантна: громадный массив контента, привлекательный для максимально широкого пласта Рунет-тусовки, выкладывается на два файлохранилища — Rapidshare и FileFactory. Все линки — в открытом доступе, никакой регистрации на портале и членства не требуется. Хотите — качайте, сколько душа просит, через фриварные аккаунты. Кто пробовал, тот знает: мизерный лимит на объем скачивания и часовые ожидания допуска быстро заставляют душу ничего больше не хотеть. В этот момент и включается бизнес-модель: Пуля продает премиум-аккаунты Rapidshare и FileFactory по льготной цене (4—10 WMZ в зависимости от длительности подписки). Цены меньше, чем у самих файлохранилищ, плюс — удобная для Рунета оплата не кредитной картой, а WebMoney. Источник аккаунтов на продажу — пойнты, которые зарабатываются официально на файлохранилищах за счет гигантских объемов того самого трафика, что создается контентом, выложенным на портале. Эдакий perpetuum mobile и, на мой взгляд, ценная модель для изучения на предмет адаптации.

Второй сайт, который хочется представить читателям, называется «Война и мир» (www.warandpeace.ru). Посвящен геополитике, причем в том бесконечно редком ключе, что идеально вписывается в мою собственную модель современного мира. Небольшая выдержка из «Основных принципов информационной политики» сайта, проливающая свет на весь подход: «Игнорирование новостного мусора из СМИ — „светской жизни“, будней „реалити-шоу“ и прочих явлений массовой культуры; криминальной хроники; скандальных сюжетов о чиновниках, проституции и „сексуальных меньшинствах“. Принципиальное неприятие „желтизны“ в любых видах». Освещаемая тематика — романс Америки с Осамой, трения с Грузией, война в Ираке, доктрина Блэра, исламский банкинг (тот самый, в котором нельзя начислять проценты за кредит), политика Уго Чавеса и т. п.

Теперь — обещанная софтина. Пару лет назад я рассказывал читателям об одной из замечательных астрономических (не путать с астрологическими!) программ — Starry Night канадской компании Imaginova. Речь шла о релизе Starry Night Enthusiast 5 (категория New To Astronomy), которым я наслаждался несколько лет. Не так давно программа обновилась до версии 6, и мне посчастливилось тестировать ее самый полный вариант — Starry Night Pro Plus 6 (категория Experts).

Сказать, что я потрясен, значит ничего не сказать. Добавление одной цифры к номеру релиза в случае Starry Night служит пожизненным укором всем тем шареварным халтурщикам, что штампуют обновления, отличающиеся лишь новыми алгоритмами и ухищрениями защиты. Шестой релиз Starry Night — самая настоящая революция! Список нововведений огромен и занимает несколько страниц, поэтому я не буду утомлять читателя, тем более что он вряд ли подготовлен к адекватному восприятию астрономических реалий. Назову лишь главное — то самое революционное — новшество: полноцветовое цифровое фотографическое изображение всего звездного неба, видимого с Земли! Если в предыдущих версиях Starry Night, как и во всех прочих астрономических программах, мы имели дело с векторной симуляцией, то теперь видим так называемую AllSky CCD mosaic — цельную панораму неба, составленную из двадцати тысяч снимков, сделанных мощнейшим телескопом, размером 6,44 млрд. пикселов (съемка велась с разрешением 12 арксекунд на пиксел)! Просмотр любого уголка Вселенной возможен на пяти уровнях зуммирования, открывающих совсем уж неописуемые зрелища: как вам 24-битная цветная фотокарта всей поверхности Марса, снятая с высоты полета космического зонда? Или матушка Земля с разрешением до 1 км (здравствуй, GoogleEarth!)? Неудивительно, что пять лет усилий, направленных на создание нового революционного релиза, отлились в 11 Гбайт информации, ложащейся божественно желанным грузом на жесткий диск.

Специально не дописываю последнюю тысячу знаков «Голубятни», оставляя место для лишнего скриншота!

ТЕХНОЛОГИИ: Великие раскопки и великие вызовы

Автор: Леонид Левкович-Маслюк

Наука об извлечении содержания из гигантских массивов данных становится все более изощренной, а задачи, за которые берутся мастера такого поиска, — все более человечными.

ЦИФРА

Агентство IDC прогнозирует, что объем цифровой информации в мире достигнет тысячи экзабайт к 2010 году,

то есть по сравнению с 2006 годом увеличится в 6 раз (1 экзабайт = 260 байт, или

миллиард гигабайт).

Прочесыванием гор информации в поисках скрытых в них закономерностей люди занимаются уже многие века. Но только с появлением компьютеров, баз данных, локальных и глобальных сетей понятие «больших массивов» обрело нынешний смысл, а их вдумчивое сканирование, когда-то занимавшее лишь шпионов и каббалистов-мистиков, позже — социологов культуры и теоретиков медиа с их страстью к контент-анализу, превратилось в индустрию. Причем индустрию высокотехнологичную даже на фоне инфотеха. Ведь найти смысловые связи в новостной заметке, правильно ответить на элементарный вопрос — о чем она, к какому тематическому классу ее причислить, — сложнейшая, как оказалось, задача для машины. С другой стороны, даже простая для машины, но неподъемная и невыносимо тоскливая для человека задача механического сканирования текста с одновременной сортировкой имен, названий, ключевых слов часто оказывается очень и очень востребованной. А если еще и выйти за пределы мира текстов, попытаться научить компьютер понимать, о чем люди говорят (хотя бы в телефонных переговорах с туристическим бюро), что они показывают друг другу на фотографиях и видеолентах, — станет ясно, что колоссальный спрос на результаты таких исследований сталкивается с колоссальными трудностями в их реализации.

Вот где-то между этими молотом и наковальней и зародился современный датамайнинг (data mining, буквально — раскопки данных, или добыча чего-то из данных), в котором научные и индустриальные компоненты трудно разделить. В 1998 году научную зрелость этой отрасли подтвердило создание Special Interest Group (SIG), Группы особых интересов, в рамках авторитетной международной организации по компьютерным исследованиям ACM (Association for Computing Machinery, Ассоциация по вычислительным машинам).

Что такое SIG? Вспомним о самой популярной из подобных групп — SIGGRAPH. Ежегодные мегаконференции, на которых делаются доклады, читаются лекции и демонстрируются высшие достижения компьютерной графики, анимации и сопутствующей всему этому математики, других наук и технологий, известны далеко за пределами сообщества специалистов. Другие SIG’и (сейчас их тридцать четыре, в том числе SIGART [искусственный интеллект], SIGMOD [базы данных], SIGPLAN [языки программирования], SIGSOFT [разработка ПО] и др.) не так знамениты среди широкой публики, но заслужили уважение специалистов, а проводимые ими конференции, издаваемые журналы являются индикаторами качества в своих областях.

На наши вопросы о теории и практике датамайнинга ответил Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro), основатель и председатель SIGKDD — Группы особых интересов, посвященной «открытию знаний в данных» (Knowledge Discovery in Data).

ОЦЕНКА

Удачные статистические модели позволили выявить потенциальные «налоговые убежища» обеспеченных американцев объемом в сотни миллионов долларов.

Какие новые разделы датамайнинга (ДМ) появились в последние годы? Какие из них самые перспективные для бизнеса, для исследовательской работы?

— Одно из замечательных новых полей исследований — анализ связей (link analysis). Приложения весьма обширны, от биоинформатики до выявления преступлений, от маркетинга до исследования социальных сетей. Вокруг Web 2.0 сейчас столько шума именно потому, что он очень эффективно использует веб как инструмент социальных связей, — а это придает все большую значимость анализу этих связей.