Журнал «Компьютерра» № 38 от 17 октября 2006 года - Компьютерра. Страница 15
Изобил повидла в прошлонедельной «Голубятне» компенсируем сегодня морем софтверной полезности. Прежде, однако, делюсь благой вестью: таки разжал тиски лень-тоски и целиком восстановил раздел «Голубятен» на своем сайте (internettrading.net/beritut), где отдаю в добрые руки несокращенные варианты колонки (для бумажной «Компьютерры» режу безбожно из-за ограничений формата) с традиционными линками на помянутые программы.
Теперь философский вопрос: что считать софтверной полезностью? Вопрос отнюдь не праздный и давно не дает мне покоя: чему отдать предпочтение — презентации новых названий или углублению знаний по старым добрым лошадкам? Лично для меня переломным оказался сентябрь, когда я скачал рекордный объем информации — 96 гигабайт! Все благодаря льготному удвоению скорости трафика, кое «Стрим» непродуманно обрушил на головы пользователей.
Дело даже не в том, что злой пых «спальных кабельщиков» («Не выдержат нагрузки, как пить дать — не выдержат!») не оправдался — «Стрим» выдержал, даже не крякнув (сказался, видать, животворный эффект новообретенных яиц!), хотя и догадываюсь (сужу по себе!) — армада обезумевших от счастья пользователей ринулась качать на халяву даже то, что им в помине не нужно. Ну а как не качать-то, скажите на милость? После безвозмездного увеличения скорости мой канал легко и с песнями засасывает 350 мегабайт в час — фильмов, музыки, программ, книг. Положительный момент: из жизни напрочь исключились визиты на Горбушку, ибо абсолютно все свои визуально-акустические нужды справляю онлайн, где благодаря бит-торренту сегодня можно заполучить абсолютно все — свежайший сериал NBC, последнюю пластинку бразильского умопомрачительного блюзмена Нуно Минделиса, запись любого футбольного матча на боливийской площадке или причитания свободолюбивого Шустера на тему «Чего выгорит и не выгорит Украине в конфликте между Россией и Грузией». О сотнях наисвежайших релизах софтверных программ вообще не говорю.
Есть, однако, и отрицательный момент: 96 скачанных гигабайт цифрового приданого лежат мертвым грузом на природной ограниченности 24-часовых суток: из сорока пяти новых фильмов за месяц я нашел время на посмотреть только четыре, из сотни новых книжек бегло пролистал дай-то бог десяток, из семидесяти новых пластинок прослушал в машине семь… О софте вообще не говорю — давно слит на бэкапные диски и забыт.
Это-то все и беспокоит. Причем не в частностях, а по существу: за каким лешим нам нужно новое? Что с ним делать? Я давно уже понял, что информационное накопительство является идентичной сублимацией накопительства материального — все тот же трагический тупик консьюмеризма, в который мы сами себя загнали после утраты последних проблесков духовных ориентиров. Интерполируя Федора Михайловича в XXI век: если бога нет, вовсе не обязательно мочить процентщиц, можно довольствоваться коллекционированием крутых тачек либо загружать свежие программы по торренту. Follow me?
Вот и спрашивается: нужно ли потчевать читателей «Голубятен», которые к тому же давным-давно осознали, что изюмина колонки не в софте, а повидле, новыми программами? Может, лучше заняться информационной интенсификацией? В смысле, что рассказывать о реальной работе с реальным, давно зарекомендовавшим себя софтом? Тем самым, от которого есть прок, есть творческая польза, отличная от пользы истерического хватательного рефлекса, возникающего на почве сублимации страха смерти?[Думаю, все понимают, что мы покупаем всё новые и новые игрушки — от яхт до цифровых фотоаппаратов и женщин — да и просто стремимся к потреблению удовольствий жизни, дабы забить в беспробудное подсознание зияющий ужас мысли:
«Настанет миг, когда меня, вот именно меня, такого пушистого и любимого, не станет»] Однозначного ответа для себя самого я так и не нашел, поэтому самым разумным представляется диверсификация. Скажем, одна «Голубятня» об интенсивном сельском хозяйстве, следующая — об экстенсивном, третья — вообще из одного повидла. Ну вы меня понимаете.
В контексте только что выработанной и утвержденной новой линии партии расскажу об одном предельно важном аспекте дата-майнинга, коим в той или иной мере занимаются все люди, работающие с компьютером. Читатели «Голубятен» прекрасно знакомы с моим алгоритмом МИНОА [Методы Изыскания, Накопления, Обработки и Анализа информации], поэтому не буду повторяться. Сегодня поговорим о выборочном слежении за изменяющимся содержанием веб-страниц с помощью хорошо знакомой читателям программы первого этапа дата-майнинга (изыскания информации) — WebSite-Watcher.
Поясню на простом примере, о чем идет речь. Предположим, мы отслеживаем регулярные изменения на сайте типа библиотеки «Альдебаран» (рис. 1).
На скриншоте видно, что помимо содержательной информации (списка новых ежедневных поступлений) программа отлавливает и паразитарные изменения: в правом верхнем углу приводится изменяющееся количество книг и авторов библиотеки. Вопрос: нужно ли отфильтровывать паразитарную информацию в данном случае? Ответ: разумеется, не нужно. По вполне понятной причине: сайт библиотеки «Альдебаран» ежедневно пополняется новыми книгами, за которыми вы так или иначе будете следить.
Соответственно, дополнительный желтый хайлайтинг паразитарной информации не снижает эффективность вашей работы (вы просто проигнорируете цифры новых книг и авторов). Соответственно, когда вы вбиваете в WebSite-Watcher линк на «Альдебаран», вы не вносите никаких изменений в раздел фильтров (рис. 2).
Взгляните теперь на такую страницу (рис. 3). Мы отслеживаем ветку одного из бакунианских форумов, на котором обновления случаются спорадически и непредсказуемо. Тем не менее при каждой проверке WebSite-Watcher старательно отлавливает паразитарные изменения, о которых и уведомляет пользователя. В нашем примере: в правом верхнем углу окна меняется новостной фидер с совершенно ненужной нам информацией. Вопрос: нужно ли устанавливать фильтр слежения? Ответ чисто апофатический: попробуйте его не установить, если в вашем списке WebSite-Watcher числится более сотни объектов (у меня их вообще 215)! Дело в том, что подавляющее большинство сайтов принадлежит как раз ко второму типу, в котором объем паразитарной информации зашкаливает по сравнению с изменениями по существу. В результате на слежение за псевдоизменениями уходит от 15 до 30 минут ежедневно. Полчаса жизни, потраченных впустую! Для меня лично это непростительная роскошь.
Итак, надлежит просеять паразитарную информацию. Я бы не завел разговор о фильтрах, если бы предварительно не опросил своих студентов, посаженных на иглу дата-майнинга: все они знают, что программа умеет производить тонкую настройку слежения, и при этом ни один человек ею не пользуется! Почему? Учебная курса себе дороже! Оно понятно: опция фильтрования в WebSite-Watcher доведена до такого профессионального совершенства (чего стоит целый язык псевдопрограммирования, позволяющий разложить на атомы html-код любой веб-страницы!), что руки опускаются, еще не поднявшись. А напрасно! Сейчас я вам продемонстрирую, как простые нужды фильтрации (а это 90% всех случаев) удовлетворяются за считанные секунды.
Формулируем задачу в нашем примере: необходимо исключить из слежения кусок веб-страницы, который начинается словами «Новости» (самый верх страницы справа) и заканчивается заголовком ветки форума, которая нас, собственно, только и интересует.
Вот как это делается.
1. В свойствах страницы слежения (Alt+Enter или через меню Закладки — Свойства) — закладка «Общие» — на ней кнопка «Мастер фильтра»: выделяем мышью слово «Новости» (рис. 4).
2. Нажимаем на кнопку «Создать фильтр вручную» — «Новый фильтр Игнорируемые» — "Текст между двумя выделениями (Начало/Конец) — «Выделенный текст содержит изменяющиеся числа» (рис. 5).