В.В.Калашников, Г.В.Носовский, А.Т.Фоменко
ЗВЕЗДЫ СВИДЕТЕЛЬСТВУЮТ.
Астрономический анализ хронологии.
Датировка Альмагеста Птолемея. Коперник, Тихо Браге и "античный" Гиппарх.

Том 3 , книга 1

Глава 5.
АНАЛИЗ СИСТЕМАТИЧЕСКИХ ОШИБОК ЗВЕЗДНОГО КАТАЛОГА.

5. СТАТИСТИЧЕСКИЕ СВОЙСТВА ОЦЕНОК γstat И φstat.

Сейчас мы подойдем к задаче оценки параметров γ и φ, задающих систематическую ошибку каталога, как к задаче статистической. Для этого поступим так. Пусть составитель каталога в момент времени tA совершил систематическую ошибку, задаваемую параметрами γA и φA. Пусть, кроме того, широта каждой измеренной им звезды подвергалась, -- вследствие ошибки наблюдения, -- случайному возмущению ξ, имеющему нулевое среднее, то есть E}ξi=0. Предполагается, что случайные погрешности ξi, отвечающие различным звездам, независимы и имеют одно и то же распределение. Пусть σ2= E}ξi2 -- дисперсия случайной величины ξi. Эта дисперсия нам, вообще говоря, неизвестна.

В этих предположениях широта i-той звезды в каталоге будет иметь вид

bi = Bi(tA) - γA sin(Li(tA) + φA) + ξi. (5.5.1.)

Со статистической точки зрения мы имеем выборку, состоящую из N реализаций случайных величин {bi}Ni=1 вида (5.5.1). По этой выборке требуется определить статистические оценки и параметров γA и φA, а также оценить величину σ, представляющую собой среднеквадратичную ошибку наблюдения. Мы сразу ограничим задачу и будем изучать оценки = φstat и = γstat, получаемые методом наименьших квадратов. Эти оценки имеют вид (5.3.6), (5.3.7). Основное внимание будет уделено оценке величины γA по причинам, объясненным в конце раздела 4.

Равенство (5.5.1) имеет вид, традиционный для регрессионного анализа. В самом деле, это равенство утверждает, что ошибка наблюдения Δ bi = Bi(tA) - bi является случайной величиной со средним γA sin(Li(tA) + φA), зависящим от неизвестных параметров γA и φA, и дисперсией σ2. Требуется оценить значения неизвестных параметров методом наименьших квадратов и установить статистические свойства полученных оценок. В такой постановке кривую Y(x) = γA sin(x + φA) обычно называют линией регрессии.

Определим величины φ и γ с помощью соотношений (5.3.6) и (5.3.7). Отклонения Δ bi случайны по предположению. Поэтому и получаемые из соотношений (5.3.6) и (5.3.7) оценки φstat и γstat также являются случайными величинами. Изучим их статистические свойства и рассмотрим, как они связаны с истинными, но неизвестными нам, значениями φA и γA.

Подставим в приведенные выше формулы для s_b и c_b вместо Δ bi разность γA sin(Li(tA) + φA) - ξi и используем эту подстановку в формулах (5.3.6), (5.3.7). Получим следующие выражения для величин φstat и γstat.

Если ошибки наблюдения ξi нормально распределены, то и величина γstat является нормально распределенной, и первые два момента (5.5.5) и (5.5.6) полностью определяют ее распределение. Этот факт даст нам возможность построить доверительный интервал для значения γA.

Анализ оценки φstat несколько более сложен. Воспользуемся следующим равенством, получаемым из (5.5.4):

и тем фактом, что при больших N второе слагаемое в знаменателе правой части (5.5.7) -- величина малая. В самом деле, эта величина -- случайная с нулевым средним и дисперсией

Если ξi нормально распределены, то и рассматриваемая величина также нормально распределена. Из этого факта для каталога Альмагеста следует, что уже для N=30 вероятность p_N того, что знаменатель правой части (5.5.7) будет отрицательным, не превосходит 5 x10-3. С ростом N данная вероятность быстро убывает: p50 ≤ 2,5 x 10-4, p80 ≤ 4 x 10-6, p100 ≤ 3 x 10-7, p200 ≤ 8 x 10-13, p300≤ 2,5 x 10-18.

Из формулы (5.5.7) следует, что, вообще говоря, Etanφstat ≠ tanφA. Однако из этой формулы легко получить функцию распределения F(x) случайной величины tanφstat - tanφA, необходимую при нахождении доверительного интервала для φA. В самом деле, если пренебречь тем маловероятным случаем, что знаменатель в (5.5.7) становится отрицательным, то из этой формулы получается выражение для F(x):

F(x) =P(tanφstat - tanφA < x) = P(ηx < x), где случайная величина ηx имеет вид

Следовательно, если величины ξi нормально распределены с дисперсией σ2, то и величина ηx имеет гауссовское распределение со средним, равным нулю, и дисперсией

Следовательно,


где

Найденные выше значения γstat и φstat являются, как говорят, точечными оценками неизвестных параметров γA и φA. Поскольку найдены функции распределения этих оценок, то можно исследовать вопрос об их возможной погрешности. Дадим ответ на этот вопрос в стандартных терминах доверительных интервалов, основываясь на формулах (5.5.5), (5.5.6), (5.5.8), (5.5.9).

В математической статистике задача нахождения доверительного интервала порождена следующей ситуацией, которую поясним на примере оценки величины γA. Эта величина является вполне определенной, детерминированной ошибкой, сделанной составителем каталога. В результате статистической оценки γA, -- в нашем случае по методу наименьших квадратов -- получается случайная величина γstat. Возникает вопрос, какие границы можно указать для неизвестной нам величины γA, если мы определили γstat?

Чтобы границы эти не оказались тривиальными, необходимо задать допустимую вероятность ошибки, то есть, вероятность указать такие границы, в которых истинное значение γA не лежит. Обозначим допустимую вероятность ошибки через ε. Тогда уровень доверия будет равен равен 1 - ε. Случайная величина γstat распределена по нормальному закону с параметрами, задаваемыми формулами (5.5.5) и (5.5.6). Поэтому при x > 0 имеем

Определим величину ε/2-квантили нормального распределения xε из уравнения

или, что то же, из уравнения

Тогда интервал

Iγ(ε) = (γstat - xε, γstat + xε) (5.5.10)

представляет собой доверительный интервал для γA с уровнем доверия 1 - ε. Это следует из того, что P(|γstat - γA| ≥ xε) = ε.

При определении величины xε мы, в частности, использовали значение {\bf D}_γ, которое зависит от неизвестных нам параметров σ2 и φA. Как это обычно делается в математической статистике, вместо σ2 подставим в формулу для D_γ сходящуюся к ней остаточную дисперсию

определяемую формулой (5.3.3), а вместо φA -- величину φstat. Момент tA составления каталога нам также неизвестен, поэтому все перечисленные выше вычисления необходимо проделать для всех моментов времени t с тем, чтобы оценить систематическую ошибку γstat(t), φstat(t) при условии, что каталог был составлен в произвольную фиксированную эпоху t.

Аналогичным образом можно найти доверительный интервал для φA с уровнем доверия 1 - ε. Этот интервал Iφ(ε) будет таким:

где yε -- решение уравнения F(yε) - F(-yε) = 1 - ε, в котором функция распределения F задана равенством (5.5.9), то есть ε/2-квантиль соответствующего нормального распределения.

Замечание. Полученные выше оценки истинных значений ошибок γ и φ в каталоге, как функций предполагаемой датировки, важны не только для того, чтобы их скомпенсировать, но и для косвенной проверки правильности предлагаемого подхода. Например, если бы в качестве γstat получилась величина, в несколько раз превышающая точность каталога, это указывало бы на какие-то неучтенные нами существенные эффекты.

Однако если речь идет лишь о датировке, то само значение γstat в соответствующей процедуре не участвует. Нам необходимо лишь знание длины соответствующего доверительного интервала. Поэтому возможно существенное упрощение вычислений, состоящее в следующем. Вычисляются γstat и φstat, относящиеся к любому фиксированному моменту времени t0. Например, к 1900 году, для чего не требуется использования уравнений Ньюкомба. Тогда вместо кривых γstat(t) и φstat(t) мы получим постоянные значения, соответствующие ошибкам наблюдений, но только не в координатах эпохи наблюдений, а в координатах эпохи 1900 года. Затем вокруг этих постоянных значений откладываются доверительные интервалы, ширина которых от t не зависит. В результате статистической процедуры датировки, описываемой ниже, будет получен тот же интервал возможных датировок каталога, что и при оценивании ошибок γ и φ относительно координат на эпоху предполагаемой датировки t. Единственная информация, которая при этом будет потеряна, -- это оценки истинных значений величин γstat и φstat.

 

 

6. ВЫВОДЫ

ВЫВОД 1. Групповая ошибка звездной конфигурации сводится к перемещению этой конфигурации как единого целого по небесной сфере. Данное перемещение, при учете лишь широтных невязок, можно параметризовать двумя параметрами, а именно, γ и φ, либо γ и β.

ВЫВОД 2. Существующие в каталоге широтные невязки могут быть уменьшены за счет компенсации групповых ошибок.

ВЫВОД 3. Если в большой части каталога групповые ошибки совпадают, то эта общая ошибка называется систематической и может быть обнаружена статистическими методами.

При условии, что каталог составлен в эпоху t, значения параметров φ(t) и γ(t) оцениваются методом наименьших квадратов. Соответствующие оценки φstat(t) и γstat(t) имеют вид (5.3.6) и (5.3.7) соответственно.

ВЫВОД 4. Знания значений γstat(t1) и γstat(t2) для двух различных моментов времени достаточно для восстановления функций γstat(t) и φstat(t).

ВЫВОД 5. В предположении нормального распределения случайных ошибок измерения найдены доверительные интервалы I_φ(ε) и I_γ(ε) для истинных значений параметров φ(t) и γ(t). См. формулы (5.5.11) и (5.5.10) соответственно.

В заключение, на рис.5.8, приведем страницу из Альмагеста издания 1551 года.