Практическая геостатистика – программа консультаций специалистов,
занимающихся обработкой материалов и построением карт в области наук о Земле
(автор В.Д.Брусницын)
В практической работе, связанной с компьютерной обработкой материалов в области наук о Земле существует определенные трудности. Многие высококлассные специалисты геологи недостаточно владеют современными методами компьютерной обработки материалов и автоматизированного построения карт различного типа при помощи разнообразных программ. С другой стороны специалисты-информатики не достаточно понимают предмет и объекты исследования в геологии. В настоящее время накоплен огромный материал в цифровом виде: массивы данных, картографические материалы, количество которого постоянно растет. Небоходимо эффективное использовать этот материал.
Это основная причина разработки данной программы.
В программе предпринята попытка разработать системный подход к обработке как аналитических, так и картографических материалов.
Основная цель программы дать главные положения практической статистической обработки материалов и автоматизированной картографии наиболее часто применяемые на практике в геологии. Многие детали, прекрасно изложенные в обширной литературе (смотри краткий список литературы) не приводятся. С учетом важности и наибольшей трудности наибольшее внимание уделено методам классификации (в том числе диагностической).
Общие принципы обработки
информации:
Тип анализа, который может быть осуществлен с данными, определяется шкалой измерений или способом которым наблюдению приписываются численные значения.
Обычно выделяют четыре шкалы измерений:
n номинальная шкала - классифицирует две две взаимно исключающие друг друга категории. Например “А”, “Б” или гранит, диорит и тд. Можно сосчитать только количество экземпляров по категориям или “классам”; два класса в пространстве разделяются резкой границей без плавных переходов.
n порядковая шкала - позволяет наряду с отнесением наблюдения к определенному классу позволяет определенным образом упорядочивать эти классы. Например шкала Мооса - 10 делений но разность между соседними уровнями различна; Применяется при использовании не очень качественных данных (спектральный анализ) и иногда для огрубления данных, так как ряд специалистов считает, что для классификации в геологии следует применять только порядковые данные. В настоящее время при хорошем практическом материале отдается предпочтение арифметическим шкалам. В данной шкале можно выполнять только ограниченное число математических расчетов.
n интервальная шкала и шкала отношений (арифметические) почти одинаковы за исключением того, что последняя имеет естественный нуль. В этих шкалах длина последовательных интервалов постоянна. Пример интервальной шкалы - температурная шкала Цельсия, отношений - содержание элемента в различных объектах. Можно выполнять все возможные виды статистических расчетов.
Приведение данных к единообразному виду или к одним единицам измерения, и в первую очередь соответствующим единицам измерения, необходимо для полной автоматизации дальнейшей обработки информации с использованием справочных данных. Наиболее распространенны следующие единицы измерения: мг/кг или г/т; мг/л или мг/дм3; весовые % и др.
В связи с вышесказанным возникает необходимость четкого планирования содержания и единиц измерения данных, содержащихся в справочниках. Четкость и однозначность интерпретации данных, содержащихся в справочниках, определяет успех не только автоматизированной обработки данных, но и получения надежных материалов для работы не связанной со статистической и другой обработкой информации.
Основные операции предварительного преобразований данных:
1. Замена необнаруженных данных (0) на половину чувствительности, фоновые содержания, половину минимума по выборке, на случайные величины в интервале минимум – 0.
2. Перемножение данных на 10, логарифмирование возведение в степень и др.
1. Блок статистики и корреляции - необходим для автоматического и быстрого анализа данных с обходом и учетом NULLей и 0 и др. При этом исследуется: средние, стандарты другое медианы, тип распределения по величине стандартизированной асимметрии и эксцессу и многие другие показатели
2. Более сложную статистическую обработку, включающую факторный анализ, рекомендуется проводить на программах типа Statisticа, SPSS и др.
1. Преобразование данных:
1.1. Перевод данных в логарифмы, возведение в степень и др. Поводится для приведения к более нормальному виду для дальнейшей обработки, вид преобразования принимается в зависимости от результатов предварительной обработки данных и полученных на первом этапе таблиц статистики.
1.2. Приведение к нормальному распределению с параметрами (0, 1) путем автоматического преобразованных (в случае необходимости) данных, расчета среднего (`Хj) и стандарта (Sj)
nj
`Хj = S Хji
nj ,
i=1
1 nj
Sj = ————— S (Xji - `Хj)2 ,
n–1 i=1
затем производится нормировка Хji по формуле:
Хji - `Хj
Zji = ————————— .
Sj
Zji – нормированные величины
1.3. Преобразование в интервал 0-1 и др.
Обычно выполняется простым делением значения переменной на ее максимальное значение, которое определяется автоматически.
1.4. Ранжирование проводится путем простой сортировки массива и придания переменным рангов (в соответствии с адресом в массиве) вместо значений по возрастанию или убыванию. При наличии одинаковых значений переменной, получаются так называемые связанные ранги, которые в нашем случае вычисляются путем усреднения рангов. При этом вводится поправка Т для расчета коэффициента ранговой корреляции Спирмена;
mс t3j - tj
Т = S ———————— ;
j=1 12
mс – число групп элементов с совпадающими (усредненными) рангами; tj – объем j группы элементов с совпадающими рангами;
Для расчета коэффициента Кендалла если наблюдается связь t последовательных членов, то все оценки перестановок в этих парах равны 0. Таких пар насчитывается t(t-1). Соответственно сумма а2ij = n*(n-1) - Sum t(t-1), где суммирование производится только для различных комбинаций связей.
T для каждой последовательности - например:
m
Tj = 1/2*∑t(t-1)
l=1
1.5. Группировка выполняется различными и по различным методам. Например:
Zi = E[k*(Xi-Xmin)/(Xmax - Xmin)+0.5],
Где Zi – i-е значение признака в шкале порядка; E[а] – целая часть числа а; к- число градаций (классов) порядка; Xi, Xmin, Xmax - i-е, минимальное и максимальное значения признака в исходной шкале.
1.6. Расчет коэффициентов концентраций и суммирующего коэффициента например Zc.
Значения Zc вычисляются в соответствии с разработанной Ю.Е.Саетом и др. методикой (Методические, 1992; Burenkov E.S. et al. 1991) в каждой пробе вычисляются значения Zc по формуле:
n
Zc=∑Кk-(n-1)), где
i=1
С
Кk = ------;
Ck
С - содержание элемента в пробе; Ck - кларковое (фоновое) содержание элемента,; Кk - коэффициент концентрации элемента пробе; n - число слагаемых элементов со значениями Кk≥ 1.
1.7. Расчет баллов по Вострокнутову Г.А.(хитрая нормировка (группировка – смотри формулу выше) с учетом рудных уровней содержаний) и или др. Ка.
lgCji - lgCкj
Бji = 10 —————————————— ,
lgCрj - lgCкj
где Сji, Скj, Срj - наблюдаемые в i пробе, кларковые (к) и рудные (р) содержания j элемента.
1.8. Пересчет содержаний в молекулярные.
1.9. Пересчет содержаний в эквивалентные.
1.10. Расчет величины электрохимического потенциала по содержаниям окислов или минералов в породах.
1.11. Пересчет содержаний, выраженных в эквивалентных и молекулярных формах в эквивалент-процентную форму для построения треугольных диаграмм по различным типам данных (замкнутая система по тройкам = 100%).
1.12. Пересчет нормативный петрохимический например CIPW.
1.13. Другие показатели возникшие при практической деятельности.
Обзор статистического описания мер связи между элементами или объектами систем
Принято различать меры на две категории – сопряжения признаков и сходства или расстояния.
В арифметической шкале
Коэффициент корреляции (Пирсона)
__ _
1/n*S Xik Xjk - Xik Xjk
Rs = -----------------,
SkSl __ __
Где Xik Xjk – значения признаков в объекте, Xik Xjk –средние значения признаков, SkSl – стандартные отклонения, вычисляемые повыборке объемом n наблюдений.
Косинус θ – в случае стандартизированных данных равный коэффициенту корреляции (Пирсона)
m
∑ Xik Xjk
k=1
COSθij = ------------
m m _______________________
√ ∑ Xik2
∑Xjk2
k=1 k=1
В порядковой шкале
Если обозначить ранги элементов (R) в первом объекте как R1, а во втором – как R2, то rс рассчитывается по формуле:
n
6S[R(1)–R(2)]2
rс = 1 - ——————————————.
n(n2-1)
И при наличии связанных рангов rс рассчитывается по формуле:
m
(m3-m)/6 - S (R(maxZc)-Ri)2
– Tк - Tl
j=1
rc=
—————————————————————————————————————————
[(m3-m)/6 - 2Tк]1/2 · [[(m3-m)/6 - 2Tl] 1/2
где R1 – ранги элементов в 1 пробе, R2 – ранги элементов во 2 сравниваемой пробе; Tк и Tl – поправки на совпадающие ранги; m – число ранжированных элементов;
Ранговый коэффициент КЕНДАЛЛА rk или t (tau - тау). (Кендэл.М. 1975)
Существенно от вышеназванных коэффициентов отличается коэффициент Кендалла – так, как он представляет из себя вероятность нахождения ранжированных данных в однаковом порядке.
Из двух последовательностей рангов по n членов можно выбрать два предмета 1/2*n*(n-1) раз, тогда
S
t = ----------
1/2*n*(n-1)
здесь S=P+Q со своим знаком. P и Q положительные и отрицательные суммы (правильный порядок и инверсия). Из этого следуют эквивалентные формулы для вычисления
P-Q 2Q 2P
t = ---------- = 1- ---------- = ---------- - 1.
1/2*n*(n-1) 1/2*n*(n-1) 1/2*n*(n-1)
Sjk
t = ------------------------------------------
sqrt(1/2*n*(n-1)- Tj)* sqrt(1/2*n*(n-1)- Tk)
Общий вид расстояния (Рожков, 1989)
1 q |Xlj - Xtj|^m
dlt = --- * (∑ ------------)^1/m,
q j=1 Wj
где q - число признаков; l,t = 1,n; j = 1,q; m, Wj - параметры.
d1 при Wj = 1 и m = 2 получается эвклидово или таксономическое расстояние. Сходства противоположны расстояниям - Clt = 1 - dlt и так далее.
Среди многих десятков мер стоит отметить нами уже описанные ранее и их модификации arccos(rlt); 0.5*(1+rlt) - вводятся для исключения отрицательных значений.
Для вычисления по основной формуле признаки могут быть как в порядковой, так и арифметической шкале в зависимости от преобразований. Однако при расчете эвклидова расстояния и ряда других, значения признаков желательно привести к виду при котором их размах укладывается в интервал (0, 1), При этом
При классификации применяются различные методы группировки объектов. Наиболее распространенные из них приведены ниже в таблице
Систематизация методов
группировки объектов (Рожков, 1989)
Основания |
Структура |
Методы |
|
|
1. Агломеративные |
Отношения |
Иерархическая |
2. Разделительные |
сходства |
|
3. Деревьев связи |
объектов |
|
4. Разделительные |
|
Неиерархическая |
5. Пороговые (гиперсфер) |
|
|
6. Ординации |
Распределе- |
|
7. Координатные |
ние признаков |
Неиерархическая |
8.Разделение смеси распределений |
|
|
9.Оценки однородности |
1.Объединение объектов сначала в более мелкие а затем более крупные классы (снизу вверх)- много алгоритмов.
2.Множество объектов делится сверху вниз (вариант алгоритма разработан автором, применялся в практике но не доведен до логического конца).
3.Кратчайший незамкнутый путь - два самых близких объекта. К ним из оставшихся подбирается тот, который ближе к одному из двух! Метод “ближайшего соседа”.
4.Поиск наиболее различающихся объектов, принимаемых за базовые и затем проводится деление на заданное число классов (вариант алгоритма, разработанный автором в программе КЕМГЕП отличается от приведенного выше и заключается в выборе начальной точки классификации).
5.Основаны на введении порога или радиуса сходства (варианты алгоритма, разработанные автором в программе КЕМГЕП отличается от приведенного выше и заключается в выборе начальной точки классификации в первом случае порог задается строго, а во втором вычисляется исходя из строго заданного уровня значимости).
6.Впервые предложен метод - Синоним многомерное шкалирование - метод представления сходства объектов в пространстве меньшей размерности. Вытеснен другими методами? Метод главных координат и компонент <>(факторный анализ) !!! (вариант алгоритма с дополнением кластерного анализа разрабатывается автором, применялся в практике, но не доведен до логического конца. Похожий вариант предложен М.К.Овсовым ).
7.Этот подход разработан для ситуаций, когда нет никакой информации о числе классов на множестве объектов - развитие координатного метода.
8.В основе методов лежит представление о постепенном переходе одного класса в другой, кое-где редко применяется.
9.Перспективный в геологии на основе критерия однородности Д.А.Родионова
Daniels H.E., “Biometrika”, v. 35 1948.