Статистические методы
Статистические методы — методы анализа статистических данных.
Выделяют методы прикладной статистики, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.
Статистические методы анализа данных как область научно-практической деятельностиПравить
Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.
Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):
а) разработка и исследование методов общего назначения, без учета специфики области применения;
б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;
в) применение статистических методов и моделей для статистического анализа конкретных данных.
Кратко рассмотрим три только что выделенных вида научной и прикладной деятельности. По мере движения от а) к в) сужается широта области применения конкретного статистического метода, но при этом повышается его значение для анализа конкретной ситуации. Если работам вида а) соответствуют научные результаты, значимость которых оценивается по общенаучным критериям, то для работ вида в) основное - успешное решение конкретных задач той или иной области применения (техники и технологии, экономики, социологии, медицины и др.). Работы вида б) занимают промежуточное положение, поскольку, с одной стороны, теоретическое изучение свойств статистических методов и моделей, предназначенных для определенной области применения, может быть весьма сложным и математизированным (см., например, монографию [1]), с другой - результаты представляют не всеобщий интерес, а лишь для некоторой группы специалистов. Можно сказать, что работы вида б) нацелены на решение типовых задач конкретной области применения.
Прикладная статистикаПравить
Статистические методы анализа данных, относящиеся к группе а), обычно называют методами прикладной статистики. Таким образом, прикладная статистика – это наука о том, как обрабатывать данные произвольной природы, без учета их специфики [2].
Математическая основа прикладной статистики и статистических методов анализа данных в целом – это математическая наука, известная под названием «теория вероятностей и математическая статистика». Следует подчеркнуть, что прикладная статистика - другая область знаний, чем математическая статистика. Это очень четко проявляется в процессе обучения. Курс математической статистики состоит в основном из доказательств теорем, в то время как в курсах статистических методов основное - методология анализа данных и алгоритмы расчетов, а теоремы приводятся для обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе). Так построены и учебники [2] и [4].
Прикладная статистика – одна из статистических наук, она не относится к математике. Внутренняя структура статистики как науки была выявлена и обоснована при создании в 1990 г. Всесоюзной статистической ассоциации (см., например, статью [3]). Прикладная статистика - методическая дисциплина, являющаяся центром, идейным ядром статистики. Внутри прикладной статистики выделяют задачи описания данных, оценивания и проверки гипотез.
Описание вида данных и, при необходимости, механизма их порождения – начало любого статистического исследования. Отметим, что для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей, оставляя детерминированные методы экономической учебной дисциплине «Общая теория статистики».
Мы не считаем возможным противопоставлять детерминированные и вероятностно-статистические методы. Мы рассматриваем их как последовательные этапы статистического анализа. На первом этапе необходимо проанализировать имеющие данные, представить их в удобном для восприятия виде с помощью таблиц и диаграмм. Затем статистические данные целесообразно проанализировать на основе тех или иных вероятностно-статистических моделей. Отметим, что возможность более глубокого проникновения в суть реального явления или процесса обеспечивается разработкой адекватной математической модели.
В простейшей ситуации статистические данные – это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.
При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат – числа, а часть – качественные (категоризованные) данные, то говорим о векторе разнотипных данных.
Одним элементом выборки, т.е. одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, т.е. его изменение во времени, - электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.
Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы – образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т.д.
Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных – числовые и нечисловые. Соответственно прикладная статистика разбивается на две части – числовую статистику и нечисловую статистику.
Числовые статистические данные – это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы больших чисел и центральные предельные теоремы.
Нечисловые статистические данные – это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т.д. (см. [2]).
В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента времени, то получаем т.н. цензурированные данные, состоящие из набора чисел – продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.
Обычно отдельно рассматривают статистические методы анализа данных первых трех типов. Это ограничение вызвано тем отмеченным выше обстоятельством, что математический аппарат для анализа данных нечисловой природы – существенно иной, чем для данных в виде чисел, векторов и функций. Статистика нечисловых данных рассмотрена в [2, 4].
Вероятностно-статистическое моделированиеПравить
При применении статистических методов в конкретных областях знаний и отраслях народного хозяйства получаем научно-практические дисциплины типа "статистические методы в промышленности", "статистические методы в медицине" и др. С этой точки зрения эконометрика - это "статистические методы в экономике" [4]. Эти дисциплины группы б) обычно опираются на вероятностно-статистические модели, построенные в соответствии с особенностями области применения. Весьма поучительно сопоставить вероятностно-статистические модели, применяемые в различных областях, обнаружить их близость и вместе с тем констатировать некоторые различия. Так, видна близость постановок задач и применяемых для их решения статистических методов в таких областях, как научные медицинские исследования, конкретные социологические исследования и маркетинговые исследования, или, короче, в медицине, социологии и маркетинге. Они часто объединяются вместе под названием «выборочные исследования».
Отличие выборочных исследований от экспертных проявляется, прежде всего, в числе обследованных объектов или субъектов – в выборочных исследованиях речь обычно идет о сотнях, а в экспертных – о десятках. Зато технологии экспертных исследований гораздо изощреннее. Еще более выражена специфика в демографических или логистических моделях, при обработке нарративной (текстовой, летописной) информации или при изучении взаимовлияния факторов. Ряд иных полезных моделей рассмотрен в [5-7].
Вопросы надежности и безопасности технических устройств и технологий, теории массового обслуживания подробно рассмотрены, например, в ставших классическими монографиях [8-10].
Статистический анализ конкретных данныхПравить
Применение статистических методов и моделей для статистического анализа конкретных данных тесно привязано к проблемам соответствующей области. Результаты третьего из выделенных видов научной и прикладной деятельности находятся на стыке дисциплин. Их можно рассматривать как примеры практического применения статистических методов. Но не меньше оснований относить их к соответствующей области деятельности человека.
Например, результаты опроса потребителей растворимого кофе естественно отнести к маркетингу (что и делают, читая лекции по маркетинговым исследованиям). Исследование динамики роста цен с помощью индексов инфляции, рассчитанных по независимо собранной информации, представляет интерес прежде всего с точки зрения экономики и управления народным хозяйством (как на макроуровне, так и на уровне отдельных организаций).
Заказчики прикладных исследований получают отчеты, в которых проблемы соответствующих областей деятельности рассмотрены подробно. Примером такого отчета является монография [5], посвященная подходам к проблеме вероятностно-статистического моделирования процессов налогообложения.
О высоких статистических технологияхПравить
Термин "высокие технологии" популярен в современной научно-технической литературе. Он используется для обозначения наиболее передовых технологий, опирающихся на последние достижения научно-технического прогресса. Есть такие технологии и среди технологий статистического анализа данных - как в любой интенсивно развивающейся научно-практической области. Они подробно обсуждаются в настоящем учебнике. Их роль подчеркнута тем, что термин «высокие статистические технологии» вынесен в название учебника.
Обсудим этот пока не вполне привычный термин (он был введен в статье [11], опубликованной в 2003 г.). Каждое из трех слов несет свою смысловую нагрузку.
"Высокие", как и в других областях, означает, что статистическая технология опирается на современные достижения статистической теории и практики. Это означает, во-первых, что математическая основа технологии получена сравнительно недавно в рамках соответствующей научной дисциплины, во-вторых, что алгоритмы расчетов разработаны и обоснованы в соответствии с нею (а не являются т.н. эвристическими).
Термин "статистические" привычен. Статистические данные – это результаты измерений, наблюдений, испытаний, анализов, опытов, а "статистические технологии" - это технологии анализа статистических данных.
Наконец, сравнительно редко используемый применительно к статистике термин "технологии". Статистический анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие этапы:
- планирование статистического исследования;
- организация сбора необходимых статистических данных по оптимальной или рациональной программе (планирование выборки, создание организационной структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
- непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
- первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
- оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),
- проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы),
- более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
- проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, в частности, изучение свойств оценок методом размножения выборок;
- применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
- составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".
Возможны и иные структуризации статистических технологий. Важно подчеркнуть, что квалифицированное и результативное применение статистических методов - это отнюдь не проверка одной отдельно взятой статистической гипотезы или оценка параметров одного заданного распределения из фиксированного семейства. Подобного рода операции - только отдельные кирпичики, из которых складывается статистическая технология.
Процедура статистического анализа данных – это информационный технологический процесс, другими словами, та или иная информационная технология. Статистическая информация подвергается разнообразным операциям (последовательно, параллельно или по более сложным схемам). В настоящее время об автоматизации всего процесса статистического анализа данных говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем, вызывающих дискуссии среди статистиков.
Программное обеспечение статистических методовПравить
В настоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов. Мы не сочли целесообразным приводить ссылки на те или иные пакеты программ по нескольким причинам.
Во-первых, популяции программных продуктов быстро обновляются. Пакеты программ, разработанные 10-15 лет назад, безнадежно устарели. Новые версии, как правило, весьма отличаются от предшественников десятилетней давности. В то же время лучшие книги 40-60-х годов по статистическим методам остаются актуальными и сейчас. Например, монографии [12-14].
Во-вторых, каждый программный продукт обладает определенными достоинствами и недостатками. Как показывает опыт [15], при сравнении нескольких пакетов программ крайне трудно сделать обоснованный вывод о том, какой из них следует предпочесть.
Необходимо отметить, что между математической и прикладной статистикой имеется и с течением времени углубляется разрыв. Он проявляется, в частности, в том, что большинство методов, включенных в статистические пакеты программ (например, в заслуженные Statgraphics и SPSS или в более новую систему Statistica), даже не упоминается в учебниках по математической статистике. В результате разрыва специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже - и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки. Типовые ошибки при применении критериев согласия Колмогорова и омега-квадрат давно проанализированы в литературе (например, в статье 1985 г. [16] и учебнике [2]). Об удручающих результатах анализа государственных стандартов по статистическим методам управления качеством рассказано в [2].
По оценкам экспертов, распространенные статистические пакеты программ обычно соответствуют уровню научных исследований 60-70-х годов. В них нет большинства статистических методов, включенных в современные учебники [2, 4]. Впрочем, как показывает практика преподавания, студенты и слушатели легко реализуют новые статистические методы с помощью подручных вычислительных средств.
О перспективах развития статистических методовПравить
Теория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Отметим, что актуальной является задача анализа истории статистических методов с целью выявления тенденций развития и применения их для прогнозирования.
Ситуация с внедрением современных статистических методов на предприятиях и в организациях различных отраслей народного хозяйства внушает оптимизм. На отечественных предприятиях продолжают развиваться структуры, нуждающиеся в статистических методах, - подразделения качества, надежности, управления персоналом, центральные заводские лаборатории и другие. Толчок к развитию в последние годы получили службы контроллинга, маркетинга и сбыта, логистики, сертификации, прогнозирования и планирования, инноваций и инвестиций, управления рисками, которым также полезны различные статистические методы, в частности, методы экспертных оценок. Включенные в учебник методы необходимы органам государственного и муниципального управления, организациям силовых ведомств, транспорта и связи, медицины, образования, агропромышленного комплекса, научным и практическим работникам всех областей деятельности.
ЛитератураПравить
1. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
2. Орлов А.И. Прикладная статистика. Учебник. – М.: Экзамен, 2006. – 671 с.
3. Орлов А.И. О перестройке статистической науки и её применений. - Журнал "Вестник статистики". 1990. No.1. С.65 - 71.
6. Орлов А.И., Федосеев В.Н. Менеджмент в техносфере: Учебное пособие. – М.: Издательский центр «Академия», 2003. – 384 с.
7. Орлов А.И. Теория принятия решений. Учебник. – М.: Экзамен, 2006. – 576 с.
8. Гнеденко Б.В., Беляев Ю.К., Соловьев А.Д. Математические методы в теории надежности. - М.: Наука, 1965. - 524 с.
9. Гнеденко Б.В., Коваленко И.Н. Введение в теорию массового обслуживания. - М.: Наука, 1966. - 301 с.
10. Нейлор Т. Машинные имитационные эксперименты с моделями экономических систем. – М.: Мир, 1975. - 500 с.
12. Крамер Г. Математические методы статистики. – М.: Мир, 1948 (1-е изд.), 1975 (2-е изд.). – 648 с.
13. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).
14. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. Изд. 3-е, стереотипное. – М.: Наука, 1969. – 512 с.
15. Орлов А.И. Математическое обеспечение сертификации: сравнительный анализ диалоговых систем по статистическому контролю. – Журнал «Заводская лаборатория». 1996. Т.62. No.7. С.46-49.
16. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат. – Журнал «Заводская лаборатория».1985. Т.51. No.1. С.60-62.