Империя – II - Фоменко Анатолий Тимофеевич. Страница 132
Мы уже вкратце описали идею метода, пользуясь модельной задачей о колоде карт (см. главу 1). Проведем теперь эти рассуждения уже не для модельной задачи, а для реальных хронологических списков.
Пусть имеется список имен Х, который может содержать ошибки, пропуски и (или) дубликаты.
Неизвестный нам истинный список имен, лежащий в основе реального списка Х, обозначим через Y. Таким образом, Y – воображаемый список имен, содержащий полные неискаженные данные (скажем, об именах правителей данного государства) для длительного исторического промежутка времени I_Y.
Реальный список имен Х, который находится в нашем распоряжении является искажением, «зашумлением» списка Y с возможной потерей доли информации.
Предположим, что промежуток времени I_Y был описан многими летописцами – очевидцами или современниками происходящих событий.
Каждый из них составлял свою короткую летопись Z_i по современным ему событиям. Поскольку мы изучаем сейчас не весь текст летописи, а только имена, извлеченные из нее, то можем считать (для удобства), что каждый летописец составлял некий короткий хронологический список имен, который мы также обозначим через Z_i.
Если промежуток времени I_Y описывался K летописцами, то в основе наших знаний о события, происходивших на этом промежутке, лежит K коротких летописей Z_1, Z_2,…, Z_K (включая и утраченные летописи). Множество этих летописей (коротких хронологических списков имен) мы обозначим через Z_i.
Множество Z_i образует некоторое покрытие списка Y.
Это покрытие мы будем считать:
а) Достаточно плотным, то есть предположим, что каждый отдельный год из промежутка I_Y описывался не одним, а сразу несколькими летописцами независимо друг от друга.
б) Состоящим из уже искаженных – как-то разреженных и местами ошибочных коротких хронологических списков. В самом деле, даже в своем исходном виде каждая из летописей Z_1, Z_2,…, Z_K упоминала, возможно, не все имена правителей, не всех исторических деятелей, участвующих в событиях. Кроме того, при последующем переписывании и компиляциях появлялись ошибки, пропуски, произвольные вставки и т.п. Для простоты рассуждений мы будем считать все эти ошибки присущими летописям Z_i с самого начала.
Итогом работы по составлению хронологии в ее современном виде явилась некоторая новая склейка списков Z_i (новое совмещение их на оси времени), которая и породила известный нам хронологический список имен Х.
Рассмотрим два отрезка Д_1, Д_2 списка имен Х и попытаемся ответить на вопрос: нет ли такой пары Z_i, Z_j коротких хронологических списков из множества Z_i, которые в списке Y (в реальности) относились к одному и тому же месту, а в списке Х оказались «подклеенными» к Д_1 и Д_2 соответственно? Так же как и в модельном примере с картами (см. главу 1), заключаем, что если такая пара есть, то увеличивается вероятность того, что имена из Д_1 и Д_2 окажутся близко друг от друга где-то в списке Х (за счет третьей, «склеивающей» летописи Z_m, смешивающей имена из Z_i и Z_j).
2. Математическое описание связей между дубликатами в летописи
Пусть дан хронологический список имен Х. Начиная с этого места забудем на время о разбиении списка Х на главы. В отличие от задачи определения величин сдвигов между дубликатами, для построения матрицы связей временная шкала в списке не используется. После построения матрицы мы снова воспользуемся ею для содержательной интерпретации результатов.
Для уточнения понятий «отрезок списка» и «близость в списке» введем следующие определения.
Определение.
Для i-го имени a_i в списке имен Х=a_1,…, a_n его определяющей окрестностью радиуса k назовем отрезок списка:
Д_a_i(k) = Д_i(k) = Д_i = a_i-k,…, a_i+k, (k? i? n-k).
Определяющая окрестность радиуса k не вводится для k первых и k последних имен списка. Число 2k+1, равное числу имен в определяющей окрестности, будем называть длиной этой окрестности.
Определение.
Ненормированной связью двух имен из множества I различных имен списка Х назовем число пар таких же имен, расположенных друг от друга в списке Х на расстоянии меньшем, чем p (то есть разность их номеров в списке меньше, чем p). Число p явяется параметром модели и называется длиной связывающей окрестности. Ненормированную связь имен u_i и u_j обозначим через l_0(u_i, u_j).
Параметры k и p подбирались в каждом случае отдельно с целью получить наиболее четкий результат. Оказалось однако, что изменение этих параметров для реальных хронологических списков имен слабо влияет на результат.
В частности, общая структура матрицы связей оставалась неизменной при всех рассмотренных значениях k и p (1«k«7, 3«p«17).
Ненормированная связь l_0(u_i, u_j) неудобна тем, что она не учитывает резких различий в кратностях вхождения имен в список Х, характерных для реальных хронологических списков. В то же время, часто употреблямые имена естественным образом должны в среднем чаще «случайно» сближаться в списке Х, чем имена более редкие. Чтобы исключить влияние кратности имен на их связь, введем следующее определение.
Определение. Пусть два имени u_i и u_j входят в список Х с кратностями k_i и k_j соответственно. Назовем нормированной связью этих имен (или просто – связью) число
Для уникального имени в списке (то есть при i=j, k_i=1) понятие связи такого имени с самим собой не вводится.
Поясним выбор нормировки в этом определении. Эта нормировка выбиралась так, чтобы связь любой пары имен из списка Х являлась бы случайной величиной со средним, не зависящим от выбора этой пары.
При этом предполагалось, что вероятностный механизм возникновения правильного хронологического списка Х таков, что при условии, что нам известно все множество имен списка, но неизвестен их порядок, все перестановки имен (все варианты выбора их порядка) равновероятны. Другими словами, мы вводим следующее предположение.
Предположение.
Знание лишь неупорядоченного множества имен правильного хронологического списка Х не может нести в себе никакой информации о порядке следования этих имен в списке Х.
В этом предположении справедлива следующая лемма.
Лемма 1.
Пусть дан правильный хронологический список Х. Предположим, что максимальная кратность имени в этом списке, а также параметр p (длина связывающей окрестности) много меньше длины списка Х. Тогда среднее значение ненормированной связи двух имен u_i и u_j, входящих в список Х с кратностями k_i и k_j соответственно, пропорционально числу
Доказательство.
а) Рассмотрим случай i=j. Схему равновероятных размещений имен в списке Х можно представить как итог последовательного размещения n имен по n местам в списке. При этом, каждое имя равновероятно занимает одно из оставшихся свободными мест. Очередность размещения имен может быть выбрана произвольно, но будучи выбранной должна быть фиксирована.
Поэтому можно считать, что перед размещением k_j экземпляров имени u_j все k_i экземпляров имени u_i уже размещены. По предположению, k_i, k_j, p«n (напомним, что n обозначает длину списка Х). Поэтому числом случаев, когда два экземпляра имени u_i оказались в списке Х рядом (на расстоянии, меньшем, чем p) можно пренебречь по сравнению с общим числом способов размещения k_i экземпляров имени u_i в списке Х.
Представим теперь размещение k_j экземпляров имени u_j в виде последовательности испытаний Бернулли, причем успехом в одном испытании будем считать попадание в связывающую окрестность к одному из уже размещенных экземпляров имени u_i. Тогда значение ненормированной связи l_0(u_i, u_j) равно числу успехов в этой схеме Бернулли.