Практическая геостатистика – программа консультаций специалистов, занимающихся обработкой материалов и построением карт в области наук о Земле (автор В.Д.Брусницын)

В практической работе, связанной с компьютерной обработкой материалов в области наук о Земле существует определенные трудности. Многие высококлассные специалисты геологи недостаточно владеют современными методами компьютерной обработки материалов и автоматизированного построения карт различного типа при помощи разнообразных программ. С другой стороны специалисты-информатики не достаточно понимают предмет и объекты исследования в геологии. В настоящее время накоплен огромный материал в цифровом виде: массивы данных, картографические материалы, количество которого постоянно растет. Небоходимо эффективное использовать этот материал.

Это основная причина разработки данной программы.


В программе предпринята попытка разработать системный подход к обработке как аналитических, так и картографических материалов.

Основная цель программы дать главные положения практической статистической обработки материалов и автоматизированной картографии наиболее часто применяемые на практике в геологии. Многие детали, прекрасно изложенные в обширной литературе (смотри краткий список литературы) не приводятся. С учетом важности и наибольшей трудности наибольшее внимание уделено методам классификации (в том числе диагностической).

 

Общие принципы обработки информации:

Тип анализа, который может быть осуществлен с данными, определяется шкалой измерений или способом которым наблюдению приписываются численные значения.

Обычно выделяют четыре шкалы измерений:

n    номинальная шкала - классифицирует две две взаимно исключающие друг друга категории. Например “А”, “Б” или гранит, диорит и тд. Можно сосчитать только количество экземпляров по категориям или “классам”; два класса в пространстве разделяются резкой границей без плавных переходов.

 

n    порядковая шкала - позволяет наряду с отнесением наблюдения к определенному классу позволяет определенным образом упорядочивать эти классы. Например шкала Мооса - 10 делений но разность между соседними уровнями различна; Применяется при использовании не очень качественных данных (спектральный анализ) и иногда для огрубления данных, так как ряд специалистов считает, что для классификации в геологии следует применять только порядковые данные. В настоящее время при хорошем практическом материале отдается предпочтение арифметическим шкалам. В данной шкале можно выполнять только ограниченное число математических расчетов.

 

n    интервальная шкала и шкала отношений (арифметические) почти одинаковы за исключением того, что последняя имеет естественный нуль. В этих шкалах длина последовательных интервалов постоянна. Пример интервальной шкалы - температурная шкала Цельсия, отношений - содержание элемента в различных объектах. Можно выполнять все возможные виды статистических расчетов.

 

Подготовка данных к обработке

 

Приведение данных к единообразному виду или к одним единицам измерения, и в первую очередь соответствующим единицам измерения, необходимо для полной автоматизации дальнейшей обработки информации с использованием справочных данных. Наиболее распространенны следующие единицы измерения: мг/кг или г/т; мг/л или мг/дм3; весовые % и др.

В связи с вышесказанным возникает необходимость четкого планирования содержания и единиц измерения данных, содержащихся в справочниках. Четкость и однозначность интерпретации данных, содержащихся в справочниках, определяет успех не только автоматизированной обработки данных, но и получения надежных материалов для работы не связанной со статистической и другой обработкой информации.

 

Основные операции предварительного преобразований данных:

1.  Замена необнаруженных данных (0) на половину чувствительности, фоновые содержания, половину минимума по выборке, на случайные величины в интервале минимум – 0.

2.  Перемножение данных на 10, логарифмирование возведение в степень и др.

 

Блок предварительного статистического анализа

 

1.  Блок статистики и корреляции - необходим для автоматического и быстрого анализа данных с обходом и учетом NULLей и 0 и др. При этом исследуется: средние, стандарты другое медианы,  тип распределения по величине стандартизированной асимметрии и эксцессу и многие другие показатели

2.  Более сложную статистическую обработку, включающую факторный анализ, рекомендуется проводить на программах типа Statisticа, SPSS и др.

 

Справочно-подготовительный блок

 

1. Преобразование данных:

 

Без справочных данных

 

1.1. Перевод данных в логарифмы, возведение в степень и др. Поводится для приведения к более нормальному виду для дальнейшей обработки, вид преобразования принимается в зависимости от результатов предварительной обработки данных и полученных на первом этапе таблиц статистики.

 

1.2. Приведение к нормальному распределению с параметрами (0, 1) путем автоматического преобразованных (в случае необходимости) данных, расчета среднего (`Хj) и стандарта (Sj)

  nj

                  `Хj = S Хji   nj                ,

  i=1

 


1   nj

             Sj =   ————— S (Xji - `Хj)2             ,

n–1  i=1

 

затем производится нормировка Хji по формуле:

Хji - `Хj

                Zji = —————————                  .

Sj

Zjiнормированные величины

1.3. Преобразование в интервал 0-1 и др.

Обычно выполняется простым делением значения переменной на ее максимальное значение, которое определяется автоматически.

1.4. Ранжирование проводится путем простой сортировки массива и придания переменным рангов (в соответствии с адресом в массиве) вместо значений по возрастанию или убыванию. При наличии одинаковых значений переменной, получаются так называемые связанные ранги, которые в нашем случае вычисляются путем усреднения рангов. При этом вводится поправка Т для расчета коэффициента ранговой корреляции Спирмена;

mс t3j - tj

Т  = S ————————         ;

j=1    12

mс – число групп элементов с совпадающими (усредненными) рангами; tj – объем j группы элементов с совпадающими рангами;

Для расчета коэффициента Кендалла если наблюдается связь t последовательных членов, то все оценки перестановок в этих парах равны 0. Таких пар насчитывается t(t-1). Соответственно сумма а2ij = n*(n-1) - Sum t(t-1), где суммирование производится только для различных комбинаций связей.

T для каждой последовательности - например:

         m

Tj = 1/2*∑t(t-1)

        l=1

1.5. Группировка выполняется различными и по различным методам. Например:

 

                  Zi = E[k*(Xi-Xmin)/(Xmax - Xmin)+0.5],

  Где Zii-е значение признака в шкале порядка; E[а] – целая часть числа а; к- число градаций (классов) порядка; Xi, Xmin, Xmax - i-е, минимальное и максимальное значения признака в исходной шкале.

 

Со справочными данными

 

1.6. Расчет коэффициентов концентраций и суммирующего коэффициента например Zc.

Значения Zc вычисляются в соответствии с разработанной Ю.Е.Саетом и др. методикой (Методические, 1992; Burenkov E.S. et al. 1991) в каждой пробе вычисляются значения Zc по формуле:

    n            

Zc=∑Кk-(n-1)), где

   i=1          

       С

Кk = ------;

       Ck

С - содержание элемента в  пробе; Ck - кларковое (фоновое) содержание  элемента,; Кk - коэффициент концентрации элемента пробе; n - число слагаемых элементов со значениями Кk≥ 1.

1.7. Расчет баллов по Вострокнутову Г.А.(хитрая нормировка (группировка – смотри формулу выше) с учетом рудных уровней содержаний) и или др. Ка.

lgCji - lgCкj

Бji = 10  ——————————————          ,

lgCрj - lgCкj

где Сji, Скj, Срj - наблюдаемые в i пробе, кларковые (к) и рудные (р) содержания j элемента.

 

1.8. Пересчет содержаний в молекулярные.

1.9. Пересчет содержаний в эквивалентные.

1.10. Расчет величины электрохимического потенциала по содержаниям окислов или минералов в породах.

1.11. Пересчет содержаний, выраженных в эквивалентных и молекулярных формах в эквивалент-процентную форму для построения треугольных диаграмм по различным типам данных (замкнутая система по тройкам = 100%).

1.12. Пересчет нормативный петрохимический например CIPW.

1.13. Другие показатели возникшие при практической деятельности.

 

 

Обзор статистического описания мер связи между элементами или объектами систем

 

Меры сходства и расстояния

Принято различать меры на две категории – сопряжения признаков и сходства или расстояния.

Коэффициенты сопряжения признаков

В арифметической шкале

Коэффициент корреляции (Пирсона)

                        __  _

           1/n*S Xik Xjk - Xik Xjk

      Rs = -----------------,

             SkSl              __ __

Где Xik Xjk – значения признаков в объекте, Xik Xjk –средние значения признаков, SkSl – стандартные отклонения, вычисляемые повыборке объемом n наблюдений.

Косинус θ – в случае стандартизированных данных равный коэффициенту корреляции (Пирсона)

                    m

          Xik Xjk

                          k=1

COSθij = ------------

m          m          _______________________

Xik2Xjk2

                   k=1         k=1

В порядковой шкале

Ранговый коэффициент Спирмена. Следует отметить, что коэффициент Спирмена – это просто измененный коэффициент корреляции Пирсона (Смирнов Б.И., 1981). При вычислении обоих коэффициентов по одному и тому же набору рангов получаются абсолютно идентичные результаты. То есть вышеуказанные коэффициенты фактически более универсальны и особой необходимости в вычислении коэффициента Спирмена в настоящее время нет. На это же указывает статья РАНГОВОЙ КОРРЕЛЯЦИИ КОЭФФИЦИЕНТ в современной статистической энциклопедии (Вероятность, 1999) со ссылкой на работу (Daniels H.E., 1948). Однако в связи с тем, что в современных статистических программах, (в том числе КЕМГЕП) этот коэффициент применяется, ниже дается метод его вычисления.

Если обозначить ранги элементов (R) в первом объекте как R1, а во втором – как R2, то rс рассчитывается по формуле:

 n

 6S[R(1)–R(2)]2

                       rс = 1 - ——————————————.

n(n2-1)

И при наличии связанных рангов rс рассчитывается по формуле:

m

(m3-m)/6 - S (R(maxZc)-Ri)2 – Tк - Tl

j=1

rc= —————————————————————————————————————————    

[(m3-m)/6 - 2Tк]1/2 · [[(m3-m)/6 - 2Tl] 1/2

где R1 – ранги элементов в 1 пробе, R2 – ранги элементов во 2 сравниваемой пробе; Tк и Tl – поправки на совпадающие ранги; m – число ранжированных элементов;

 

Ранговый коэффициент КЕНДАЛЛА rk или t (tau - тау). (Кендэл.М. 1975)

Существенно от вышеназванных коэффициентов отличается коэффициент Кендалла – так, как он представляет из себя вероятность нахождения ранжированных данных в однаковом порядке.

Из двух последовательностей рангов по n членов можно выбрать два предмета 1/2*n*(n-1) раз, тогда

 

               S

     t =   ----------

           1/2*n*(n-1)

 

здесь S=P+Q со своим знаком. P и Q положительные и отрицательные суммы (правильный порядок и инверсия). Из этого следуют эквивалентные формулы для вычисления

 

       P-Q            2Q              2P

t = ---------- = 1- ----------  = ---------- - 1.

   1/2*n*(n-1)     1/2*n*(n-1)    1/2*n*(n-1)

 

                         Sjk

     t = ------------------------------------------

        sqrt(1/2*n*(n-1)- Tj)* sqrt(1/2*n*(n-1)- Tk)

 

Расстояния как меры сходства-различия

 

Общий вид расстояния (Рожков, 1989)

      1     q  |Xlj - Xtj|^m

dlt = --- * (∑ ------------)^1/m,

      q     j=1    Wj

где q - число признаков; l,t = 1,n; j = 1,q; m, Wj - параметры.

d1 при Wj = 1 и m = 2 получается эвклидово или таксономическое расстояние. Сходства противоположны расстояниям - Clt = 1 - dlt  и так далее.

Среди многих десятков мер стоит отметить нами уже описанные ранее и их модификации arccos(rlt); 0.5*(1+rlt) - вводятся для исключения отрицательных значений.

Для вычисления по основной формуле признаки могут быть как в порядковой, так и арифметической шкале в зависимости от преобразований. Однако при расчете эвклидова расстояния и ряда других, значения признаков желательно привести к виду при котором их размах укладывается в интервал (0, 1), При этом

 

При классификации применяются различные методы группировки объектов. Наиболее распространенные из них приведены ниже в таблице

 

Систематизация методов группировки объектов (Рожков, 1989)

 

Основания

Структура

Методы

 

 

1. Агломеративные

Отношения

Иерархическая

2. Разделительные

сходства

 

3. Деревьев связи

объектов

 

4. Разделительные

 

Неиерархическая

5. Пороговые (гиперсфер)

 

 

6. Ординации

Распределе-

 

7. Координатные

ние признаков

Неиерархическая

8.Разделение смеси распределений

 

 

9.Оценки однородности

 

1.Объединение объектов сначала в более мелкие а затем более крупные классы (снизу вверх)- много алгоритмов.

 

2.Множество объектов делится сверху вниз (вариант алгоритма  разработан автором, применялся в практике но не доведен до логического конца).

 

3.Кратчайший незамкнутый путь - два самых близких объекта. К ним из оставшихся подбирается тот, который ближе к одному из двух! Метод “ближайшего соседа”.

 

4.Поиск наиболее различающихся объектов, принимаемых за базовые и затем проводится деление на заданное число классов (вариант алгоритма, разработанный автором в программе КЕМГЕП отличается от приведенного выше и заключается в выборе начальной точки классификации).

 

5.Основаны на введении порога или радиуса сходства (варианты алгоритма, разработанные автором в программе КЕМГЕП отличается от приведенного выше и заключается в выборе начальной точки классификации в первом случае порог задается строго, а во втором вычисляется исходя из строго заданного уровня значимости).

 

6.Впервые предложен метод - Синоним многомерное шкалирование - метод представления сходства объектов в пространстве меньшей размерности. Вытеснен другими методами? Метод главных координат и компонент <>(факторный анализ) !!! (вариант алгоритма с дополнением кластерного анализа разрабатывается автором, применялся в практике, но не доведен до логического конца. Похожий вариант предложен М.К.Овсовым ).

 

7.Этот подход разработан для ситуаций, когда нет никакой информации о числе классов на множестве объектов - развитие координатного метода.

 

8.В основе методов лежит представление о постепенном переходе одного класса в другой, кое-где редко применяется.

 

9.Перспективный в геологии на основе критерия однородности Д.А.Родионова

 

Вероятность и математическая статистика: Энциклопедия/ Гл.ред. Ю.В.Прохоров. – М.: Большая Российская энциклопедия, 1999 . 910 с.

Геохимия окружающей среды/Ю.Е. Сает, Б.А. Ревич, Е.П. Янин и др. – М.:Недра, 1990. – 335 с.

Дэвис Дж.С. Статистический анализ данных в геологии / Пер. с англ. В 2 кн. – М.: Недра, 1990. Кн. 1, 319 с., кн. 2, 427 с.

Инструкция по геохимическим методам поисков рудных месторождений. - М.: "Недра", 1983. 191 с.

Йёреског К.Г., Клован Д.И., Реймент Р.А. Геологический факторный анализ / Пер. с англ. – Л.: Недра, 1980. – 217 с.

Кендалл, Стюарт А. Статистические выводы и связи. М., Наука, 1973.

Кендэл.М. Ранговые корреляции. М., Статистика, 1975.

Овсов М.К. Интеллектуальная операция структурного анализа геоданных//Изв. Вузов. Геология и разведка, 2000, №1.

Рожков В.А. Почвенная информатика//Всесоюз. Акад. С.-х. Наук им. В.И.Ленина.- М.: Агропромиздат, 1989, 211 с.

Смирнов Б.И. Корреляционные методы при парагенетическом анализе. – М.: Недра, 1981. - 176 с.

Чесалов С.М., Шмагин Б.А. Статистические методы решения гидрогеологических задач на ЭВМ. М.: Недра, 1989. 174 с.

Burenkov E.S. et al. 1991. Geochemical mapping as a method for indicating hazardous environmental situations. Geological Survey of Finland. Special Paper 9. pp. 9-12.

Daniels H.E., “Biometrika”, v. 35 1948.

Howarth R.J. (ed.) Statistics and data analysis in geochemical prospecting. Elsevier Pupl. Co., Amsterdam, 1983 437 p.

Kickert W. J. M. Organization of decision -making. NORTH-HOLLAND PUBLISHING COMPANY-AMSTERDAM, 1980.

 

Сайт управляется системой uCoz