Журнал «Компьютерра» № 38 от 17 октября 2006 года - Компьютерра. Страница 15

Изобил повидла в прошлонедельной «Голубятне» компенсируем сегодня морем софтверной полезности. Прежде, однако, делюсь благой вестью: таки разжал тиски лень-тоски и целиком восстановил раздел «Голубятен» на своем сайте (internettrading.net/beritut), где отдаю в добрые руки несокращенные варианты колонки (для бумажной «Компьютерры» режу безбожно из-за ограничений формата) с традиционными линками на помянутые программы.

Теперь философский вопрос: что считать софтверной полезностью? Вопрос отнюдь не праздный и давно не дает мне покоя: чему отдать предпочтение — презентации новых названий или углублению знаний по старым добрым лошадкам? Лично для меня переломным оказался сентябрь, когда я скачал рекордный объем информации — 96 гигабайт! Все благодаря льготному удвоению скорости трафика, кое «Стрим» непродуманно обрушил на головы пользователей.

Дело даже не в том, что злой пых «спальных кабельщиков» («Не выдержат нагрузки, как пить дать — не выдержат!») не оправдался — «Стрим» выдержал, даже не крякнув (сказался, видать, животворный эффект новообретенных яиц!), хотя и догадываюсь (сужу по себе!) — армада обезумевших от счастья пользователей ринулась качать на халяву даже то, что им в помине не нужно. Ну а как не качать-то, скажите на милость? После безвозмездного увеличения скорости мой канал легко и с песнями засасывает 350 мегабайт в час — фильмов, музыки, программ, книг. Положительный момент: из жизни напрочь исключились визиты на Горбушку, ибо абсолютно все свои визуально-акустические нужды справляю онлайн, где благодаря бит-торренту сегодня можно заполучить абсолютно все — свежайший сериал NBC, последнюю пластинку бразильского умопомрачительного блюзмена Нуно Минделиса, запись любого футбольного матча на боливийской площадке или причитания свободолюбивого Шустера на тему «Чего выгорит и не выгорит Украине в конфликте между Россией и Грузией». О сотнях наисвежайших релизах софтверных программ вообще не говорю.

Есть, однако, и отрицательный момент: 96 скачанных гигабайт цифрового приданого лежат мертвым грузом на природной ограниченности 24-часовых суток: из сорока пяти новых фильмов за месяц я нашел время на посмотреть только четыре, из сотни новых книжек бегло пролистал дай-то бог десяток, из семидесяти новых пластинок прослушал в машине семь… О софте вообще не говорю — давно слит на бэкапные диски и забыт.

Это-то все и беспокоит. Причем не в частностях, а по существу: за каким лешим нам нужно новое? Что с ним делать? Я давно уже понял, что информационное накопительство является идентичной сублимацией накопительства материального — все тот же трагический тупик консьюмеризма, в который мы сами себя загнали после утраты последних проблесков духовных ориентиров. Интерполируя Федора Михайловича в XXI век: если бога нет, вовсе не обязательно мочить процентщиц, можно довольствоваться коллекционированием крутых тачек либо загружать свежие программы по торренту. Follow me?

Вот и спрашивается: нужно ли потчевать читателей «Голубятен», которые к тому же давным-давно осознали, что изюмина колонки не в софте, а повидле, новыми программами? Может, лучше заняться информационной интенсификацией? В смысле, что рассказывать о реальной работе с реальным, давно зарекомендовавшим себя софтом? Тем самым, от которого есть прок, есть творческая польза, отличная от пользы истерического хватательного рефлекса, возникающего на почве сублимации страха смерти?[Думаю, все понимают, что мы покупаем всё новые и новые игрушки — от яхт до цифровых фотоаппаратов и женщин — да и просто стремимся к потреблению удовольствий жизни, дабы забить в беспробудное подсознание зияющий ужас мысли:

«Настанет миг, когда меня, вот именно меня, такого пушистого и любимого, не станет»] Однозначного ответа для себя самого я так и не нашел, поэтому самым разумным представляется диверсификация. Скажем, одна «Голубятня» об интенсивном сельском хозяйстве, следующая — об экстенсивном, третья — вообще из одного повидла. Ну вы меня понимаете.

В контексте только что выработанной и утвержденной новой линии партии расскажу об одном предельно важном аспекте дата-майнинга, коим в той или иной мере занимаются все люди, работающие с компьютером. Читатели «Голубятен» прекрасно знакомы с моим алгоритмом МИНОА [Методы Изыскания, Накопления, Обработки и Анализа информации], поэтому не буду повторяться. Сегодня поговорим о выборочном слежении за изменяющимся содержанием веб-страниц с помощью хорошо знакомой читателям программы первого этапа дата-майнинга (изыскания информации) — WebSite-Watcher.

Поясню на простом примере, о чем идет речь. Предположим, мы отслеживаем регулярные изменения на сайте типа библиотеки «Альдебаран» (рис. 1).

Журнал «Компьютерра» № 38 от 17 октября 2006 года - _658s5a1.jpg

На скриншоте видно, что помимо содержательной информации (списка новых ежедневных поступлений) программа отлавливает и паразитарные изменения: в правом верхнем углу приводится изменяющееся количество книг и авторов библиотеки. Вопрос: нужно ли отфильтровывать паразитарную информацию в данном случае? Ответ: разумеется, не нужно. По вполне понятной причине: сайт библиотеки «Альдебаран» ежедневно пополняется новыми книгами, за которыми вы так или иначе будете следить.

Журнал «Компьютерра» № 38 от 17 октября 2006 года - _658o5p2.jpg

Соответственно, дополнительный желтый хайлайтинг паразитарной информации не снижает эффективность вашей работы (вы просто проигнорируете цифры новых книг и авторов). Соответственно, когда вы вбиваете в WebSite-Watcher линк на «Альдебаран», вы не вносите никаких изменений в раздел фильтров (рис. 2).

Журнал «Компьютерра» № 38 от 17 октября 2006 года - _658o5f3.jpg

Взгляните теперь на такую страницу (рис. 3). Мы отслеживаем ветку одного из бакунианских форумов, на котором обновления случаются спорадически и непредсказуемо. Тем не менее при каждой проверке WebSite-Watcher старательно отлавливает паразитарные изменения, о которых и уведомляет пользователя. В нашем примере: в правом верхнем углу окна меняется новостной фидер с совершенно ненужной нам информацией. Вопрос: нужно ли устанавливать фильтр слежения? Ответ чисто апофатический: попробуйте его не установить, если в вашем списке WebSite-Watcher числится более сотни объектов (у меня их вообще 215)! Дело в том, что подавляющее большинство сайтов принадлежит как раз ко второму типу, в котором объем паразитарной информации зашкаливает по сравнению с изменениями по существу. В результате на слежение за псевдоизменениями уходит от 15 до 30 минут ежедневно. Полчаса жизни, потраченных впустую! Для меня лично это непростительная роскошь.

Итак, надлежит просеять паразитарную информацию. Я бы не завел разговор о фильтрах, если бы предварительно не опросил своих студентов, посаженных на иглу дата-майнинга: все они знают, что программа умеет производить тонкую настройку слежения, и при этом ни один человек ею не пользуется! Почему? Учебная курса себе дороже! Оно понятно: опция фильтрования в WebSite-Watcher доведена до такого профессионального совершенства (чего стоит целый язык псевдопрограммирования, позволяющий разложить на атомы html-код любой веб-страницы!), что руки опускаются, еще не поднявшись. А напрасно! Сейчас я вам продемонстрирую, как простые нужды фильтрации (а это 90% всех случаев) удовлетворяются за считанные секунды.

Формулируем задачу в нашем примере: необходимо исключить из слежения кусок веб-страницы, который начинается словами «Новости» (самый верх страницы справа) и заканчивается заголовком ветки форума, которая нас, собственно, только и интересует.

Вот как это делается.

1. В свойствах страницы слежения (Alt+Enter или через меню Закладки — Свойства) — закладка «Общие» — на ней кнопка «Мастер фильтра»: выделяем мышью слово «Новости» (рис. 4).

Журнал «Компьютерра» № 38 от 17 октября 2006 года - _658p5n4.jpg

2. Нажимаем на кнопку «Создать фильтр вручную» — «Новый фильтр Игнорируемые» — "Текст между двумя выделениями (Начало/Конец) — «Выделенный текст содержит изменяющиеся числа» (рис. 5).