Основные методы статистического анализа. Основы статистического анализа данных

Статистические методы

Статисти́ческие ме́тоды - методы анализа статистических данных. Выделяют методы прикладной статистики , которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.

Классификация статистических методов

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Прикладная статистика

Описание вида данных и механизма их порождения - начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.

Мы не считаем возможным противопоставлять детерминированные и вероятностно-статистические методы. Мы рассматриваем их как последовательные этапы статистического анализа. На первом этапе необходимо проанализировать имеющие данные, представить их в удобном для восприятия виде с помощью таблиц и диаграмм. Затем статистические данные целесообразно проанализировать на основе тех или иных вероятностно-статистических моделей. Отметим, что возможность более глубокого проникновения в суть реального явления или процесса обеспечивается разработкой адекватной математической модели.

В простейшей ситуации статистические данные - это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.

При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат - числа, а часть - качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

Одним элементом выборки, то есть одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, то есть его изменение во времени, - электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.

Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы - образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т. д.

Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных - числовые и нечисловые. Соответственно прикладная статистика разбивается на две части - числовую статистику и нечисловую статистику.

Числовые статистические данные - это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки - это (классические) законы больших чисел и центральные предельные теоремы.

Нечисловые статистические данные - это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т. д. (см. ).

В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента времени, то получаем т. н. цензурированные данные, состоящие из набора чисел - продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.

Обычно отдельно рассматривают статистические методы анализа данных первых трех типов. Это ограничение вызвано тем отмеченным выше обстоятельством, что математический аппарат для анализа данных нечисловой природы - существенно иной, чем для данных в виде чисел, векторов и функций.

Вероятностно-статистическое моделирование

При применении статистических методов в конкретных областях знаний и отраслях народного хозяйства получаем научно-практические дисциплины типа «статистические методы в промышленности», «статистические методы в медицине» и др. С этой точки зрения эконометрика - это «статистические методы в экономике». Эти дисциплины группы б) обычно опираются на вероятностно-статистические модели, построенные в соответствии с особенностями области применения. Весьма поучительно сопоставить вероятностно-статистические модели, применяемые в различных областях, обнаружить их близость и вместе с тем констатировать некоторые различия. Так, видна близость постановок задач и применяемых для их решения статистических методов в таких областях, как научные медицинские исследования, конкретные социологические исследования и маркетинговые исследования, или, короче, в медицине , социологии и маркетинге . Они часто объединяются вместе под названием «выборочные исследования».

Отличие выборочных исследований от экспертных проявляется, прежде всего, в числе обследованных объектов или субъектов - в выборочных исследованиях речь обычно идет о сотнях, а в экспертных - о десятках. Зато технологии экспертных исследований гораздо изощреннее. Еще более выражена специфика в демографических или логистических моделях, при обработке нарративной (текстовой, летописной) информации или при изучении взаимовлияния факторов.

Вопросы надежности и безопасности технических устройств и технологий, теории массового обслуживания подробно рассмотрены, в большом количестве научных работ.

Статистический анализ конкретных данных

Применение статистических методов и моделей для статистического анализа конкретных данных тесно привязано к проблемам соответствующей области. Результаты третьего из выделенных видов научной и прикладной деятельности находятся на стыке дисциплин. Их можно рассматривать как примеры практического применения статистических методов. Но не меньше оснований относить их к соответствующей области деятельности человека.

Например, результаты опроса потребителей растворимого кофе естественно отнести к маркетингу (что и делают, читая лекции по маркетинговым исследованиям). Исследование динамики роста цен с помощью индексов инфляции, рассчитанных по независимо собранной информации, представляет интерес прежде всего с точки зрения экономики и управления народным хозяйством (как на макроуровне, так и на уровне отдельных организаций).

Перспективы развития

Теория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, то есть путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Актуальной является задача анализа истории статистических методов с целью выявления тенденций развития и применения их для прогнозирования.

Литература

2. Нейлор Т. Машинные имитационные эксперименты с моделями экономических систем. - М.: Мир, 1975. - 500 с.

3. Крамер Г. Математические методы статистики. - М.: Мир, 1948 (1-е изд.), 1975 (2-е изд.). - 648 с.

4. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).

5. Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. Изд. 3-е, стереотипное. - М.: Наука, 1969. - 512 с.

6. Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. - 3-е изд. - М.: «Диалектика» , 2007. - С. 912. - ISBN 0-471-17082-8

Смотри также

Wikimedia Foundation . 2010 .

  • Yat-Kha
  • Амальгама (значения)

Смотреть что такое "Статистические методы" в других словарях:

    СТАТИСТИЧЕСКИЕ МЕТОДЫ - СТАТИСТИЧЕСКИЕ МЕТОДЫ научные методы описания и изучения массовых явлений, допускающих количественное (численное) выражение. Слово “статистика” (от игал. stato государство) имеет общий корень со словом “государство”. Первоначально оно… … Философская энциклопедия

    СТАТИСТИЧЕСКИЕ МЕТОДЫ – - научные методы описания и изучения массовых явлений, допускающих количественное (численное) выражение. Слово «статистика» (от итал. stato – государство) имеет общий корень со словом «государство». Первоначально оно относилось к науке управления и … Философская энциклопедия

    Статистические методы - (в экологии и биоценологии) методы вариационной статистики, позволяющие исследовать целое (напр., фитоценоз, популяцию, продуктивность) по его частным совокупностям (напр., по данным, полученным на учетных площадках) и оценить степень точности… … Экологический словарь

    статистические методы - (в психологии) (от лат. status состояние) нек рые методы прикладной математической статистики, используемые в психологии в основном для обработки экспериментальных результатов. Основная цель применения С. м. повышение обоснованности выводов в… … Большая психологическая энциклопедия

    Статистические методы - 20.2. Статистические методы Конкретные статистические методы, используемые для организации, регулирования и проверки деятельности, включают, но не ограничиваются следующими: а) планированием экспериментов и факторный анализ; b) анализ дисперсии и … Словарь-справочник терминов нормативно-технической документации

    СТАТИСТИЧЕСКИЕ МЕТОДЫ - методы исследования количеств. стороны массовых обществ. явлений и процессов. С. м. дают возможность в цифровом выражении характеризовать происходящие изменения в обществ. процессах, изучать разл. формы социально экономич. закономерностей, смену… … Сельско-хозяйственный энциклопедический словарь

    СТАТИСТИЧЕСКИЕ МЕТОДЫ - некоторые методы прикладной математической статистики, используемые для обработки экспериментальных результатов. Ряд статистических методов был разработан специально для проверки качества психологических тестов, для применения в профессиональном… … Профессиональное образование. Словарь

    СТАТИСТИЧЕСКИЕ МЕТОДЫ - (в инженерной психологии) (от лат. status состояние) некоторые методы прикладной статистики, используемые в инженерной психологии для обработки экспериментальных результатов. Основная цель применения С. м. повышение обоснованности выводов в… … Энциклопедический словарь по психологии и педагогике

ФЕДЕРАЛЬНОЕ АНЕНСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ЮГОРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

ИНСТИТУТ ДОПОЛНИТЕЛЬНОГО ОБРАЗОВАНИЯ

ПРОФЕССИОНАЛЬНАЯ ПЕРЕПОДГОТОВКА ПО ПРОГРАММЕ

«ГОСУДАРСТВЕННОЕ И МУНИЦИПАЛЬНОЕ УПРАВЛЕНИЕ»

РЕФЕРАТ

По дисциплине: «Статистика»

«Статистические методы исследования»

Выполнила:

Ханты-Мансийск

Введение

1. Методы статистического исследования.

1.1. Метод статистического наблюдения

1.4. Вариационные ряды

1.5. Выборочный метод

1.6. Корреляционный и регрессионный анализ

1.7. Ряды динамики

1.8. Статистические индексы

Заключение

Список использованной литературы


Полная и достоверная статистическая информация является тем необходимым основанием, на котором базируется процесс управления экономикой. Вся информация, имеющая народнохозяйственную значимость, в конечном счете, обрабатывается и анализируется с помощью статистики.

Именно статистические данные позволяют определить объемы валового внутреннего продукта и национального дохода, выявить основные тенденции развития отраслей экономики, оценить уровень инфляции, проанализировать состояние финансовых и товарных рынков, исследовать уровень жизни населения и другие социально-экономические явления и процессы. Овладение статистической методологией - одно из условий познания конъюнктуры рынка, изучения тенденций и прогнозирования, принятия оптимальных решений на всех уровнях деятельности.

Статистическая наука - это отрасль знаний, изучающая явления общественной жизни с их количественной стороны в неразрывной связи с их качественным содержанием в конкретных условиях места и времени. Статистическая практика - это деятельность по сбору, накоплению, обработке и анализу цифровых данных, характеризующих все явления в жизни общества.

Говоря о статистике следует помнить, что цифры в статистике не абстрактные, а выражают глубокий экономический смысл. Каждый экономист должен уметь пользоваться статистическими цифрами, анализировать их, уметь использовать для обоснования своих выводов.

Статистические законы действуют в пределах времени и места, в которых они обнаружены.

Окружающий мир состоит из массовых явлений. Если отдельный факт зависит от законов случая, то масса явлений подчиняется закономерностям. Для обнаружения этих закономерностей используется закон больших чисел.

Для получения статистической информации органы государственной и ведомственной статистики, а также коммерческие структуры проводят различного рода статистические исследования. Процесс статистического исследования включает три основные стадии: сбор данных, их сводка и группировка, анализ и расчет обобщающих показателей.

От того, как собран первичный статистический материал, как он обработан и сгруппирован в значительной степени зависят результаты и качество всей последующей работы, а в конечном итоге при нарушениях могут привести к абсолютно ошибочным выводам.

Сложной, трудоемкой и ответственной является заключительная, аналитическая стадия исследования. На этой стадии рассчитываются средние показатели и показатели распределения, анализируется структура совокупности, исследуется динамика и взаимосвязь между изучаемыми явлениями и процессами.

На всех стадиях исследования статистика использует различные методы. Методы статистики - это особые примы и способы изучения массовых общественных явлений.

На первой стадии исследования применяются методы массового наблюдения, собирается первичный статистический материал. Основное условие - массовость, т.к. закономерности общественной жизни проявляются в достаточно большом массиве данных в силу действия закона больших чисел, т.е. в сводных статистических характеристиках случайности взаимопогашаются.

На второй стадии исследования, когда собранная информация подвергается статистической обработке, используется метод группировок. Применение метода группировок требует непременного условия - качественной однородности совокупности.

На третьей стадии исследования проводится анализ статистической информации с помощью таких методов как метод обобщающих показателей, табличный и графический методы, методы оценки вариации, балансовый метод, индексный метод.

Аналитическая работа должна содержать элементы предвидения, указывать на возможные последствия складывающихся ситуаций.

Руководство статистикой в стране осуществляет Государственный комитет Российской Федерации по статистике. Как федеральный орган исполнительной власти он осуществляет общее руководство статистикой в стране, предоставляет официальную статистическую информацию Президенту, Правительству, Федеральному Собранию, федеральным органам исполнительной власти, общественным и международным организациям, разрабатывает статистическую методологию, координирует статистическую деятельность федеральных и региональных организаций исполнительной власти, осуществляет анализ экономико-статистической информации, составляет национальные счета и делает балансовые расчеты.

Система органов статистики в РФ образована в соответствии с административно территориальным делением страны. В республиках, входящих в РФ, имеются Республиканские комитеты. В автономных округах, краях, областях, в Москве и Санкт-Петербурге действуют Государственные комитеты по статистике.

В районах (городах) - управления (отделы) государственной статистики. Кроме государственной существует еще ведомственная статистика (на предприятиях, ведомствах, министерствах). Она обеспечивает внутренние потребности в статистической информации.

Цель данной работы – рассмотреть статистические методы исследования.

1. Методы статистического исследования

Между наукой-статистикой и практикой существует тесная взаимосвязь: статистика использует данные практики, обобщает и разрабатывает методы проведения статистических исследований. В свою очередь в практической деятельности применяются теоретические положения статистической науки для решения конкретных управленческих задач. Знание статистики необходимо современному специалисту для принятия решений в условиях стохастики (когда анализируемые явления подвержены влиянию случайностей), для анализа элементов рыночной экономики, в сборе информации, в связи с увеличением числа хозяйственных единиц и их типов, аудите, финансовом менеджменте, прогнозировании.

Для изучения предмета статистики разработаны и применяются специфические приемы, совокупность которых образует методологию статистики (методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод и др.). Применение в статистике конкретных методов предопределяется поставленными задачами и зависит от характера исходной информации. При этом статистика опирается на такие диалектические категории, как количество и качество, необходимость и случайность, причинность, закономерность, единичное и массовое, индивидуальное и общее. Статистические методы используются комплексно (системно). Это обусловлено сложностью процесса экономико-статистического исследования, состоящего из трех основных стадий: первая - сбор первичной статистической информации; вторая - статистическая сводка и обработка первичной информации; третья - обобщение и интерпретация статистической информации.

Общей методологией изучения статистических совокупностей является использование основных принципов которыми руководствуются в любой науке. К этим принципам, как к своего рода началам относятся следующие:

1. объективность изучаемых явлений и процессов;

2. выявление взаимосвязи и системности в которых проявляется содержание изучаемых факторов;

3. целеполагание, т.е. достижение поставленных целей со стороны исследователя, изучающего соответствующие статистические данные.

Это выражается в получении сведений о тенденциях, закономерностях и возможных последствиях развития изучаемых процессов. Знание закономерностей развития социально-экономических процессов, интересующих общество, имеет важное практическое значение.

К числу особенностей статистического анализа данных следует отнести метод массового наблюдения, научной обоснованности качественного содержания группировок и его результатов, вычисление и анализ обобщенных и обобщающих показателей изучаемых объектов.

Что касается конкретных методов экономической, промышленной или статистики культуры, населения, национального богатства и т.п., то здесь могут быть свои специфические методы сбора, группировки и анализа соответствующих совокупностей (суммы фактов).

В экономической статистике, например, широко применяется балансовый метод как наиболее распространенный метод взаимной увязки отдельных показателей в единой системе экономических связей в общественном производстве. К методам применяемым в экономической статистике также относятся составление группировок, исчисление относительных показателей (процентное соотношение), сравнения, исчисление различных видов средних величин, индексов и т.п.

Метод связующих звеньев состоит в том, что два объемных, т.е. количественных показателя сопоставляются на основе существующего между ними отношения. Например, производительность труда в натуральных показателях и отработанного времени, или объем перевозок в тоннах и средней дальности перевозок в км.

При анализе динамики развития народного хозяйства основным методом выявления этой динамики (движения) является индексный метод, методы анализа временных рядов.

При статистическом анализе основных экономических закономерностей развития народного хозяйства важным методом статистики является вычисление тесноты связей между показателями с помощью корреляционного и дисперсионного анализа и др.

Кроме названных методов широкое распространение получили математико-статистические методы исследования которые расширяются по мере движения масштабов применения ЭВМ и создания автоматизированных систем.

Этапы статистического исследования:

1. Статистическое наблюдение – массовый научно организованный сбор первичной информации об отдельных единицах изучаемого явления.

2. Группировка и сводка материала – обобщение данных наблюдения для получения абсолютных величин (учетно-оценочных показателей) явления.

3. Обработка статистических данных и анализ результатов для получения обоснованных выводов о состоянии изучаемого явления и закономерностях его развития.

Все этапы статистического исследования тесно связаны друг с другом и одинаково важны. Недостатки и ошибки, возникающие на каждой стадии, сказываются на все исследовании в целом. Поэтому правильное использование специальных методов статистической науки на каждом этапе позволяет получить достоверную информацию в результате статистического исследования.

Методы статистического исследования:

1. Статистическое наблюдение

2. Сводка и группировка данных

3. Расчет обобщающих показателей (абсолютные, относительные и средние величины)

4. Статистические распределения (вариационные ряды)

5. Выборочный метод

6. Корреляционно-регрессионный анализ

7. Ряды динамики

Задача статистики – исчисление статистических показателей и их анализ, благодаря чему управляющие органы получают всестороннюю характеристику управляемого объекта, будь то вся национальная экономика или отдельные ее отрасли, предприятия и их подразделения. Управлять социально-экономическими системами нельзя, не располагая оперативной, достоверной и полной статистической информацией.


Статистическое наблюдение - это планомерный, научно-организованный и, как правило, систематический сбор данных о явлениях общественной жизни. Оно осуществляется путем регистрации заранее намеченных существенных признаков с целью получения в дальнейшем обобщающих характеристик этих явлений.

Например, при проведении переписи населения о каждом жителе страны записываются сведения о его поле, возрасте, семейном положении, образовании и др., а затем статистические органы определяют на основе этих сведений численность населения страны, его возрастную структуру, размещение по территории страны, семейный состав и другие показатели.

К статистическому наблюдению предъявляются следующие требования: полнота охвата изучаемой совокупности, достоверность и точность данных, их однообразие и сопоставимость.

Формы, виды и способы статистического наблюдения

Статистическое наблюдение осуществляется в двух формах: отчетность и специально организованное статистическое наблюдение.

Отчетностью называют такую организационную форму статистического наблюдения, при которой сведения поступают в статистические органы от предприятий, учреждений и организаций в виде обязательных отчетов об их деятельности.

Отчетность может быть общегосударственной и внутриведомственной.

Общегосударственная - поступает в вышестоящие органы и в органы государственной статистики. Она необходима для целей обобщения, контроля, анализа и прогнозирования.

Внутриведомственная - используется в Министерствах и ведомствах для оперативных нужд.

Отчетность утверждается Госкомстатом РФ. Отчетность составляется на основании первичного учета. Особенность отчетности в том, что она обязательна, документально обоснована и юридически подтверждена подписью руководителя.

Специально-организованное статистическое наблюдение - наблюдение, организуемое с какой-нибудь особой целью для получения сведений, которых нет в отчетности, или для проверки и уточнения данных отчетности. Это перепись населения, скота, оборудования, всевозможные единовременные учеты. Как, например, бюджетные обследования домашних хозяйств, опросы общественного мнения и т.п.

Виды статистического наблюдения можно сгруппировать по двум признакам: по характеру регистрации фактов и по охвату единиц совокупности.

По характеру регистрации фактов статистическое наблюдение может быть: текущим или систематическим и прерывным .

Текущее наблюдение - это непрерывный учет, например, производства продукции, отпуск материала со склада и т.д., т.е. регистрация осуществляется по мере совершения факта.

Прерывное наблюдение может быть периодическим, т.е. повторяющимся через определенные промежутки времени. Например, перепись скота на 1 января или регистрация цен на рынке на 22 число каждого месяца. Единовременное наблюдение организуется по мере надобности, т.е. без соблюдения периодичности или вообще единожды. Например, изучение общественного мнения.

По охвату единиц совокупности наблюдение может быть сплошным и несплошным.

При сплошном наблюдении обследованию подвергаются все единицы совокупности. Например, перепись населения.

При несплошном наблюдении обследуется часть единиц совокупности. Несплошное наблюдение можно подразделить на подвиды: выборочное, монографическое, метод основного массива.

Выборочное наблюдение - это наблюдение, основанное на принципе случайного отбора. При правильной его организации и проведении выборочное наблюдение дает достаточно достоверные данные об изучаемой совокупности. В некоторых случаях им можно заменить сплошной учет, т.к. результаты выборочного наблюдения с вполне определенной вероятностью можно распространить на всю совокупность. Например, контроль качества продукции, изучение продуктивности скота и т.д. В условиях рыночной экономики сфера применения выборочного наблюдения расширяется.

Монографическое наблюдение - это детальное, глубокое изучение и описание характерных в каком-то отношении единиц совокупности. Оно проводится с целью выявления имеющихся и намечающихся тенденций в развитии явления (выявление недостатков, изучения передового опыта, новых форм организации и т.д.)

Метод основного массива заключается в том, что обследованию подвергается наиболее крупные единицы, которые вместе взятые имеют преобладающий удельный вес в совокупности по основному для данного исследования признаку (признакам). Так при изучении работы рынков в городах обследованию подвергаются рынки крупных городов, где проживает 50% всего населения, а оборот рынков составляет 60% от общего оборота.

По источнику сведений различают непосредственное наблюдение, документальное и опрос.

Непосредственным называют такое наблюдение, при котором сами регистраторы путем замера, взвешивания или подсчета устанавливают факт и производят запись его в формуляре (бланке) наблюдения.

Документальное - предполагает запись ответов на основании соответствующих документов.

Опрос - это наблюдение, при котором ответы на вопросы записываются со слов опрашиваемого. Например, перепись населения.

В статистике сведения об изучаемом явлении могут быть собраны различными способами: отчетным, экспедиционным, самоисчислением, анкетным, корреспондентским.

Сущность отчетного способа заключается в предоставлении отчетов в строго обязательном порядке.

Экспедиционный способ заключается в том, что специально привлеченные и обученные работники записывают сведения в формуляр наблюдения (перепись населения).

При самоисчислении (саморегистрации) формуляры заполняют сами опрашиваемые. Этот способ применяется, например, при изучении маятниковой миграции (передвижения населения от места жительства до места работы и обратно).

Анкетный способ - это сбор статистических данных с помощью специальных вопросников (анкет), рассылаемых определенному кругу лиц или публикуемых в периодической печати. Этот способ применяется очень широко, особенно в различных социологических обследованиях. Однако он имеет большую долю субъективизма.

Сущность корреспондентского способа заключается в том, что статистические органы договариваются с определенными лицами (добровольными корреспондентами), которые берут на себя обязательство вести наблюдение за какими-либо явлениями в установленные сроки и сообщать результаты в статистические органы. Так, например, проводятся экспертные оценки по конкретным вопросам социально-экономического развития страны.

1.2. Сводка и группировка материалов статистического наблюдения

Сущность и задачи сводки и группировки

Сводка - это операция по отработке конкретных единичных фактов, образующих совокупность и собранных в результате наблюдения. В результате сводки множество индивидуальных показателей относящихся к каждой единице объекта наблюдения, превращаются в систему статистических таблиц и итогов, проявляются типические черты и закономерности изучаемого явления в целом.

По глубине и точности обработки различают сводку простую и сложную.

Простая сводка - это операция по подсчету общих итогов, т.е. по совокупности единиц наблюдения.

Сложная сводка - это комплекс операций, включающих группировку единиц наблюдения, подсчет итогов по каждой группе и по объекту в целом, оформление результатов в виде статистических таблиц.

Проведение сводки включает следующие этапы:

Выбор группировочного признака;

Определение порядка формирования группы;

Разработка системы показателей для характеристики групп и объекта в целом;

Разработка макетов таблиц для представления результатов сводки.

По форме обработки сводка бывает:

Централизованная (весь первичный материал поступает в одну вышестоящую организацию, например, Госкомстат РФ, и там полностью обрабатывается);

Децентрализованная (обработка собранного материала идет по восходящей линии, т.е. материал подвергается сводке и группировке на каждой ступени).

На практике обычно сочетают обе формы организации сводки. Так, например, при переписи предварительные итоги получают в порядке децентрализованной сводки, а сводные окончательные - в результате централизованной разработки бланков переписи.

По технике выполнения сводка бывает механизированной и ручной.

Группировкой называется расчленение изучаемой совокупности на однородные группы по определенным существенным признакам.

На основе метода группировок решаются центральные задачи исследования, обеспечивается правильное применение других методов статистического и статистико-математического анализа.

Работа по составлению группировок сложная и трудная. Приемы группировок разнообразны, что обусловлено разнообразием группировочных признаков и различными задачами исследования. К основным задачам, решаемым с помощью группировок относятся:

Выделение социально -экономических типов;

Изучение структуры совокупности, структурных сдвигов в ней;

Выявление связи между явлениями и взаимозависимости.

Виды группировок

В зависимости от задач, решаемых с помощью группировок, выделяют 3 типа группировок: типологические, структурные и аналитические.

Типологическая группировка решает задачу выявления социально-экономических типов. При построении группировки этого вида основное внимание должно быть уделено идентификации типов и выбору группировочного признака. Исходят при этом из сущности изучаемого явления. (таблица 2.3).

Структурная группировка решает задачу изучения состава отдельных типических групп по какому-то признаку. Например, распределение постоянного населения по возрастным группам.

Аналитическая группировка позволяет выявить взаимосвязи между явлениями и их признаками, т.е. выявить влияние одних признаков (факторных) на другие (результативные). Взаимосвязь проявляется в том, что с возрастанием факторного признака возрастает или убывает значение результативного признака. В основе аналитической группировки всегда лежит факторный признак, а каждая группа характеризуется средними величинами результативного признака.

Например, зависимость объема розничного товарооборота от величины торговой площади магазина. Здесь факторный (группировочный) признак - торговая площадь, а результативный - средний на 1 магазин объем товарооборота.

По сложности группировка бывает простой и сложной (комбинированной).

В простой группировке в основании один признак, а в сложной - два и более в сочетании (в комбинации). В этом случае сначала группы образуются по одному (основному) признаку, а затем каждая из них делится на подгруппы по второму признаку и т.д.

1.3. Абсолютные и относительные статистические величины

Абсолютные статистические величины

Исходной, первичной формой выражения статистических показателей являются абсолютные величины. Абсолютные величины характеризуют размер явлений в мерах массы, площади, объема, протяженности, времени и т.д.

Индивидуальные абсолютные показатели получаются, как правило, непосредственно в процессе наблюдения в результате замера, взвешивания, подсчета, оценки. В некоторых случаях абсолютные индивидуальные показатели представляют собой разность.

Сводные, итоговые объемные абсолютные показатели получают в результате сводки и группировки.

Абсолютные статистические показатели всегда являются числами именованными, т.е. имеют единицы измерения . Существует 3 типа единиц измерения абсолютных величин: натуральные, трудовые и стоимостные.

Натуральные единицы измерения - выражают величину явления в физических мерах, т.е. мерах веса, объема, протяженности, времени, счета, т.е. в килограммах, кубических метрах, километрах, часах, штуках и т.д.

Разновидностью натуральных единиц являются условно-натуральные единицы измерения , которые используются для сведения воедино нескольких разновидностей одной и той же потребительной стоимости. Одну из них принимают за эталон, а другие пересчитываются с помощью специальных коэффициентов в единицы меры этого эталона. Так, например, мыло с разным содержанием жирных кислот пересчитывают на 40% содержание жирных кислот.

В отдельных случаях для характеристики какого-либо явления одной единицы измерения недостаточно, и используется произведение двух единиц измерения.

Примером может служить грузооборот в тонно-километрах, производство электроэнергии в киловатт-часах и др.

В условиях рыночной экономики наибольшее значение имеют стоимостные (денежные) единицы измерения (рубль, доллар, марка и т.д.). Они позволяют получить денежную оценку любых социально-экономических явлений (объем продукции, товарооборота, национального дохода и т.п.). Однако, следует помнить, что в условиях высоких темпов инфляции показатели в денежной оценке становятся несопоставимыми. Это следует учитывать при анализе стоимостных показателей в динамике. Для достижения сопоставимости показатели необходимо пересчитывать в сопоставимые цены.

Трудовые единицы измерения (человеко-часы, человеко-дни) используются для определения затрат труда на производстве продукции, на выполнение какой-нибудь работы и т.п.

Относительные статистические величины, их сущность и формы выражения

Относительными величинами в статистике называются величины, выражающие количественное соотношение между явлениями общественной жизни. Они получаются в результате деления одной величины на другую.

Величина с которой производится сравнение (знаменатель) называется основанием, базой сравнения; а та, которая сравнивается (числитель) - называется, сравниваемой, отчетной или текущей величиной.

Относительная величина показывает, во сколько раз сравниваемая величина больше или меньше базисной, или какую долю первая составляет от второй; а в отдельных случаях - сколько единиц одной величины приходится на единицу (или на 100, на 1000 и т.д.) другой (базисной) величины.

В результате сопоставления одноименных абсолютных величин получаются отвлеченные неименованные относительные величины, показывающие во сколько раз данная величина больше или меньше базисной. В этом случае базисная величина принимается за единицу (в результате получается коэффициент ).

Кроме коэффициента широко распространенной формой выражения относительных величин являются проценты (%). В этом случае базисная величина принимается за 100 единиц.

Относительные величины могут выражаться в промилле (‰), в продецимилле (0 / 000). В этих случаях база сравнения принимается соответственно за 1 000 и за 10 000. В отдельных случаях база сравнения может быть принята и за 100 000.

Относительные величины могут быть числами именованными. Ее наименование представляет собой сочетание наименований сравниваемого и базисного показателей. Например, плотность населения чел/кв. км (сколько человек приходится на 1 квадратный километр).

Виды относительных величин

Виды относительных величин подразделяются в зависимости от их содержания. Это относительные величины: планового задания, выполнения плана, динамики, структуры, координации, интенсивности и уровня экономического развития, сравнения.

Относительная величина планового задания представляет собой отношение величины показателя, устанавливаемой на планируемый период к величине его, достигнутой к планируемому периоду.

Относительной величиной выполнения плана называется величина, выражающая соотношение между фактическим и плановым уровнем показателя.

Относительная величина динамики представляет собой отношение уровня показателя за данный период к уровню этого же показателя в прошлом.

Три вышеперечисленные относительные величины связаны между собой, а именно: относительная величина динамики равна произведению относительных величин планового задания и выполнения плана.

Относительная величина структуры представляет собой отношение размеров части к целому. Она характеризует структуру, состав той или иной совокупности.

Эти же величины в процентах называют удельным весом.

Относительной величиной координации называют соотношение частей целого между собой. В результате получают, во сколько раз данная часть больше базисной. Или сколько процентов от нее составляет или сколько единиц данной структурной части приходится на 1 единицу (100 или 1000 и т.д. единиц) базисной структурной части.

Относительная величина интенсивности характеризует развитие изучаемого явления или процесса в другой среде. Это отношение двух взаимосвязанных явлений, но разных. Оно может быть выражено и в процентах, и в промилле, и продецемилле, и именованной. Разновидностью относительной величины интенсивности является показатель уровня экономического развития , характеризующий производство продукции на душу населения.

Относительная величина сравнения представляет собой соотношение одноименных абсолютных показателей по разным объектам (предприятиям, районам, областям, странам и т.д.). Он может быть выражен как в коэффициентах, так и в процентах.

Средние величины их сущность и виды

Статистика, как известно, изучает массовые социально-экономические явления. Каждое из этих явлений может иметь различное количественное выражение одного и того же признака. Например, заработная плата одной и той же профессии рабочих или цены на рынке на один и тот же товар и т.д.

Для изучения какой-либо совокупности по варьирующим (количественно изменяющимся) признакам статистика использует средние величины.

Средняя величина - это обобщающая количественная характеристика совокупности однотипных явлений по одному варьирующему признаку.

Важнейшее свойство средней величины заключается в том, что она представляет значение определенного признака во всей совокупности одним числом, несмотря на количественные различия его у отдельных единиц совокупности, и выражает то общее, что присуще всем единицам изучаемой совокупности. Таким образом, через характеристику единицы совокупности она характеризует всю совокупность в целом.

Средние величины связаны с законом больших чисел. Суть этой связи заключается в том, что при осреднении случайные отклонения индивидуальных величин в силу действия закона больших чисел взаимопогашаются и в средней выявляется основная тенденция развития, необходимость, закономерность однако, для этого среднюю необходимо вычислять на основе обобщения массы фактов.

Средние величины позволяют сравнивать показатели, относящиеся к совокупностям с различной численностью единиц.

Важнейшим условием научного использования средних величин в статистическом анализе общественных явлений является однородность совокупности, для которой исчисляется средняя. Одинаковая по форме и технике вычисления средняя в одних условиях (для неоднородной совокупности) фиктивная, а в других (для однородной совокупности) соответствует действительности. Качественная однородность совокупности определяется на основе всестороннего теоретического анализа сущности явления. Так, например, при исчислении средней урожайности требуется, чтобы исходные данные относились к одной и той же культуре (средняя урожайность пшеницы) или группе культур (средняя урожайность зерновых). Нельзя вычислять среднюю для разнородных культур.

Математические приемы, используемые в различных разделах статистики, непосредственно связаны с вычислением средних величин.

Средние в общественных явлениях обладают относительным постоянством, т.е. в течение какого-то определенного промежутка времени однотипные явления характеризуются примерно одинаковыми средними.

Средине величины очень тесно связаны с методом группировок, т.к. для характеристики явлений необходимо исчислять не только общие (для всего явления) средние, но и групповые (для типических групп этого явления по изучаемому признаку).

Виды средних величин

От того, в каком виде представлены исходные данные для расчета средней величины, зависит по какой формуле она будет определятся. Рассмотрим наиболее часто применяемые в статистике виды средних величин:

Среднюю арифметическую;

Среднюю гармоническую;

Среднюю геометрическую;

Среднюю квадратическую.

1.4. Вариационные ряды

Сущность и причины вариации

Информация о средних уровнях исследуемых показателей обычно бывает недостаточной для глубокого анализа изучаемого процесса или явления.

Необходимо учитывать и разброс или вариацию значений отдельных единиц, которая является важной характеристикой изучаемой совокупности. Каждое индивидуальное значение признака складывается под совместным воздействием многих факторов. Социально-экономические явления, как правило, обладают большой вариацией. Причины этой вариации содержатся в сущности явления.

Показатели вариации определяют как группируются значения признака вокруг средней величины. Они используются для характеристики упорядоченных статистических совокупностей: группировок, классификаций, рядов распределения. В наибольшей степени вариации подвержены курсы акций, объёмы спроса и предложения, процентные ставки в разные периоды и в разных местах.

Абсолютные и относительные показатели вариации

По смыслу определения вариация измеряется степенью колеблемости вариантов признака от уровня их средней величины, т.е. как разность х-х. На использовании отклонений от средней построено большинство показателей применяемых в статистике для измерения вариаций значений признака в совокупности.

Самым простейшим абсолютным показателем вариации является размах вариации R=xmax-xmin . Размах вариации выражается в тех же единицах измерения, что и Х. Он зависит только от двух крайних значений признака и, поэтому, недостаточно характеризует колеблемость признака.

Абсолютные показатели вариации зависят от единиц измерения признака и затрудняют сравнение двух или нескольких различных вариационных рядов.

Относительные показатели вариации вычисляются как отношение различных абсолютных показателей вариации к средней арифметической. Наиболее распространённым из них является коэффициент вариации.

Коэффициент вариации характеризует колеблемость признака внутри средней. Самые лучшие значения его до 10%, неплохие до 50%, плохие свыше 50%. Если коэффициент вариации не превышает 33%, то совокупность по рассматриваемому признаку можно считать однородной.

1.5. Выборочный метод

Сущность выборочного метода заключается в том, чтобы по свойствам части (выборки) судить о численных характеристиках целого (генеральной совокупности), по отдельным группам вариантов их общей совокупности, которая иногда мыслится как совокупность неограниченно большого объема. Основу выборочного метода составляет та внутренняя связь, которая существует в популяциях между единичным и общим, частью и целым.

Выборочный метод имеет очевидные преимущества перед сплошным изучением генеральной совокупности, так как сокращает объем работы (за счет уменьшения числа наблюдении) позволяет экономить силы и средства, получать информацию о таких совокупностях, полное обследование которых практически невозможно или нецелесообразно.

Опыт показал, что правильно произведенная выборка довольно хорошо представляет или репрезентирует (от лат. represento-представляю) структуру и состояние генеральной совокупности. Однако полного совпадения выборочных данных с данными обработки генеральной совокупности, как правило, не бывает. В этом и заключается недостаток выборочного метода, на фоне которого видны преимущества сплошного описания генеральной совокупности.

В виду неполного отображения выборкой статистических характеристик (параметров) генеральной совокупности перед исследователем возникает важная задача: во-первых, учитывать и соблюдать те условия, при которых выборка наилучшим образом репрезентирует генеральную совокупность, а во-вторых, в каждом конкретном случае устанавливать, с какой уверенностью можно перенести результаты выборочного наблюдения на всю генеральную совокупность, из которой выборка взята.

Репрезентативность выборки зависит от целого ряда условий и прежде всего от того, как она осуществляется, или планомерно (т. е. по заранее намеченной схеме), или путем непланомерного отбора вариант из генеральной совокупности. В любом случае выборка должна быть типичной и вполне объективной. Эти требования должны выполняться неукоснительно как наиболее существенные условия репрезентативности выборки. Прежде чем обрабатывать выборочный материал, его нужно тщательно проверить и освободить выборку от всего лишнего, что нарушает условия репрезентативности. В то же время при образовании выборки нельзя поступать по произволу, включать в ее состав только те варианты, которые кажутся типичными, а все остальные браковать. Доброкачественная выборка должна быть объективной, т. е. производиться без предвзятых побуждений, при исключении субъективных влияний на ее состав. Выполнению этого условия репрезентативности отвечает принцип рендомизации (от англ. rendom-случай), или случайного отбора вариант из генеральной совокупности.

Этот принцип положен в основу теории выборочного метода и должен соблюдаться во всех случаях образования репрезентативной выборочной совокупности, не исключая и случаев планомерного или преднамеренного отбора.

Существуют различные способы отбора. В зависимости от способа отбора различают выборки следующих типов:

Случайная выборка с возвратом;

Случайная выборка без возврата;

Механическая;

Типическая;

Серийная.

Рассмотрим образование случайных выборок с возвратом и без возврата. Если выборка производится из массы изделий (например, из ящика), то после тщательного перемешивания следует брать объекты случайно, т. е. так, что бы они все имели одинаковую вероятность попасть в выборку. Часто для образования случайной выборки элементы генеральной совокупности предварительно номеруются, а каждый номер записывается на отдельной карточке. В результате получается пачка карточек, число которых совпадает с объемом генеральной совокупности. После тщательного перемешивания из этой пачки берут по одной карточке. Объект, имеющий одинаковый номер с карточкой считается попавшим в выборку. При этом возможны два принципиально различных способа образования выборочной совокупности.

Первый способ - вынутая карточка после фиксации ее номера возвращается в пачку, после чего карточки снова тщательно перемешиваются. Повторяя такие выборки по одной карточке, можно образовать выборочную совокупность любого объема. Выборочная совокупность, образованная по такой схеме, получила название случайной выборки с возвратом.

Второй способ - каждая вынутая карточка после ее записи обратно не возвращается. Повторяя по такой схеме выборки по одной карточке, можно получить выборочную совокупность любого заданного объема. Выборочную совокупность, образованную по данной схеме называют случайной выборкой без возврата. Случайная выборка без возврата образуется в том случае, если из тщательно перемешанной пачки сразу берут нужное число карточек.

Однако при большом объеме генеральной совокупности описанный выше способ образования случайной выборки с возвратом и без возврата оказывается очень трудоемким. В этом случае пользуются таблицами случайных чисел, в которых числа расположены в случайном порядке. Доля того, что бы отобрать, например, 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд 50 случайных чисел; в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами, если случайное число таблицы окажется больше объема генеральной совокупности, то такое число пропускают.

Заметим, что различие между случайными выборками с возвратом и без возврата стирается, если они составляют незначительную часть большой генеральной совокупности.

При механическом способе образования выборочной совокупности, подлежащие обследованию элементы генеральной совокупности отбираются через определенный интервал. Так, например, если выборка должна составлять 50% генеральной совокупности, то отбирается каждый второй элемент генеральной совокупности. Если выборка десяти процентная, то отбирается каждый десятый ее элемент и т. д.

Следует отметить, что иногда механический отбор может не обеспечить репрезентативной выборки. Например, если отбирается каждый двенадцатый обтачиваемый валик, причем сразу же после отбора производят замену резца, то отобранными окажутся все валики, обточенные затупленными резцами. В таком случае необходимо устранить совпадение ритма отбора с ритмом замены резца, для чего следует отбирать хотя бы каждый десятый валик из двенадцати обточенных.

При большом количестве выпускаемой однородной продукции, когда в ее изготовлении принимают участие различные станки, и даже цеха, для образования репрезентативной выборки пользуются типическим способом отбора. В этом случае, генеральную совокупность предварительно разбивают на непересекающиеся группы. Затем из каждой группы, по схеме случайной выборки с возвратом или без возврата отбирают определенной число элементов. Они и образуют выборочную совокупность, которая называется типической.

Пусть, например, выборочным путем исследуется продукция цеха, в котором имеются 10 станков, производящих одну и ту же продукцию. Пользуясь схемой случайной выборки с возвратом или без возврата, отбирают изделия, сначала из продукции, сделанной на первом, затем на втором и т. д. станках. Такой способ отбора позволяет образовать типическую выборку.

Иногда на практике бывает целесообразно пользоваться серийным способом отбора, идея которого заключается в том, что генеральную совокупность разбивают на некоторое количество непересекающихся серий и по схеме случайной выборки с возвратом или без возврата контролируют все элементы лишь отобранных серий. Например, если изделия изготовляются большой группой станков-автоматов, то сплошному обследованию подвергают продукцию только нескольких станков. Серийным отбором пользуются в случае, если обследуемый признак колеблется в различных сериях незначительно.

О том, какому способу отбора следует отдать предпочтение в той или иной ситуации, следует судить, исходя из требований поставленной задачи и условий производства. Заметим, что на практике при составлении выборки часто используют одновременно несколько способов отбора в комплексе.

1.6. Корреляционный и регрессионный анализ

Регрессионный и корреляционный анализы - это эффективные методы, которые разрешают анализировать значительные объемы информации с целью исследования вероятной взаимосвязи двух или больше переменных.

Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак.

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчётных значений зависимой переменной (функции регрессии).

Решение всех названных задач приводит к необходимости комплексного использования этих методов.

1.7. Ряды динамики

Понятие о рядах динамики и виды рядов динамики

Рядом динамики называется ряд последовательно расположенных во времени статистических показателей, которые в своем изменении отражают ход развития изучаемого явления.

Ряд динамики состоит из двух элементов: момента или периода времени , которым относятся данные и статистических показателей (уровней) . Оба элемента вместе образуют члены ряда . Уровни ряда обычно обозначают через "y", а период времени - через "t".

По длительности времени, к которым относятся уровни ряда, ряды динамики делятся на моментные и интервальные.

В моментных рядах каждый уровень характеризует явления на момент времени . Например: число вкладов населения в учреждениях сберегательного банка РФ, на конец года.

В интервальных рядах динамики каждый уровень ряда характеризует явление за период времени . Например: производство часов в РФ по годам.

В интервальных рядах динамики уровни ряда можно суммировать и получить общую величину за ряд следующих друг за другом периодов. В моментных рядах эта сумма не имеет смысла.

В зависимости от способа выражения уровней ряда различают ряды динамики абсолютных величин, относительных величин и средних величин.

Ряды динамики могут быть с равным и неравным интервалами. Понятие интервала в моментных и интервальных рядах различные. Интервал моментного ряда - это период времени от одной даты до другой даты, на которые приведены данные. Если это данные о числе вкладов на конец года, то интервал равен от конца одного года, до конца другого года. Интервал интервального ряда - это период времени за который обобщены данные. Если это производство часов по годам, то интервал равен одному году.

Интервал ряда может быть равным и неравным как в моментных, так и в интервальных рядах динамики.

С помощью рядов динамики определяют скорость и интенсивность развития явлений, выявляют основную тенденцию их развития, выделяют сезонные колебания, сравнивают развитие во времени отдельных показателей разных стран, выявляют связи между развивающимися во времени явлениями.

1.8. Статистические индексы

Понятие об индексах

Слово "index" латинское и означает "показатель", "указатель". В статистике под индексом понимается обобщающий количественный показатель, выражающий соотношение двух совокупностей, состоящих из элементов, непосредственно не поддающихся суммированию. Например, объем продукции предприятия в натуральном выражении суммировать нельзя (кроме однородной), а для обобщающей характеристики объема это необходимо. Нельзя суммировать цены на отдельные виды продукции и т.д. Для обобщающей характеристики таких совокупностей в динамике, в пространстве и по сравнению с планом применяются индексы. Кроме сводной характеристики явлений индексы позволяют дать оценку роли отдельных факторов в изменении сложного явления. Индексы используются и для выявления структурных сдвигов в народном хозяйстве.

Индексы рассчитываются как для сложного явления (общие или сводные), так и для отдельных его элементов (индивидуальные индексы).

В индексах, характеризующих изменение явления во времени различают базисный и отчетный (текущий) периоды. Базисный период - это период времени к которому относится величина, принятая за базу сравнения. Обозначается он подстрочным знаком "0". Отчетный период - это период времени, к которому относится величина, подвергающаяся сравнению. Обозначается он подстрочным знаком "1".

Индивидуальные индексы - это обычная относительная величина.

Сводный индекс - характеризует изменение всей сложной совокупности в целом, т.е. состоящей из несуммируемых элементов. Следовательно, чтобы рассчитать такой индекс надо преодолеть несуммарность элементов совокупности.

Это достигается введением дополнительного показателя (соизмерителя). Сводный индекс состоит из двух элементов: индексируемой величины и веса.

Индексируемая величина - это показатель, для которого рассчитывается индекс. Вес (соизмеритель) - это дополнительный показатель вводимый для целей соизмерения индексируемой величины. В сводном индексе в числителе и знаменателе всегда сложная совокупность, выраженная суммой произведений индексируемой величины и веса.

В зависимости от объекта исследования как общие, так и индивидуальные индексы подразделяются на индексы объемных (количественных) показателей (физического объема продукции, посевной площади, численности рабочих и др.) и индексы качественных показателей (цены, себестоимости, урожайности, производительности труда, заработной платы и др.).

В зависимости от базы сравнения индивидуальные и общие индексы могут быть цепными и базисными .

В зависимости от методологии расчета общие индексы имеют две формы: агрегатную и форму среднего индекса.

Правильно проведённый сбор, анализ данных и статистические расчёты позволяют обеспечить заинтересованные структуры и общественность информацией о развитии экономики, о направлении её развития, показать эффективность использования ресурсов, учесть занятость населения и его трудоспособность, определить темпы роста цен и влияние торговли на сам рынок или отдельно взятую сферу.

Список использованной литературы

1. Глинский В.В., Ионин В.Г. Статистический анализ. Учебное пособие.- М.: ФИЛИНЪ, 1998 г.-264 с.

2. Елисеева И.И., Юзбашев М.М. Общая теория статистики. Учебник.-

М.: Финансы и статистика, 1995 г.-368 с.

3. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. Учебник.-М.: ИНФРА-М, 1996 г.-416 с.

4. Костина Л.В. Методика построения статистических графиков. Методическое пособие.- Казань, ТИСБИ, 2000 г.-49 с.

5. Курс социально-экономической статистики: Учебник/под ред. проф. М.Г. Назарова.-М.: Финстатинформ, ЮНИТИ-ДИАНА, 2000 г.-771 с.

6. Общая теория статистики: статистическая методология в изучении коммерческой деятельности: Учебник/под ред. А.А. Спирина, О.Э.Башеной-М.: Финансы и статистика, 1994 г.-296 с.

7. Статистика: курс лекций/ Харченко Л.П., Долженкова В.Г., Ионин В.Г. и др.- Новосибирск,: НГАЭиУ, М.: ИНФРА-М, 1997 г.-310 с.

8. Статистический словарь/ гл.ред. М.А. Королёв.-М.: Финансы и статистика, 1989 г.-623 с.

9. Теория статистики: Учебник/под ред. проф. Шмойловой Р.А.- М.: Финансы и статистика, 1996 г.-464 с.

Для анализа данных могут применяться разные методы. Статистические методы анализа данных предназначены для их уплотнения, выявления взаимосвязей и структур.

Статистические методы – методы анализа статистических данных. По своей природе они делятся на количественные и категориальные.

Количественные (метрические ) данные являются непрерывными по своей структуре. Эти данные либо измерены с помощью интервальной шкалы (числовая шкала, количественно равные промежутки которой отображают равные промежутки между значениями измеряемых характеристик), либо с помощью шкалы отношений (кроме расстояния определен и порядок значений).

Категориальные (неметрические ) данные – это качественные данные с ограниченным числом уникальных значений и категорий. Существует два вида категориальных данных: номинальные – используется для нумерации объектов и порядковые – данные, для которых существует естественный порядок категорий.

Статистические методы делятся на одно- и многомерные. Одномерные методы используются тогда, когда все элементы выборки оцениваются единым измерителем либо если этих измерителей несколько для каждого элемента, но каждая переменная анализируется при этом отдельно ото всех остальных.

3.4.3.1. Одномерные статистические методы

Одномерные статистические методы (Univariate techniques ) – методы статистического анализа данных в случаях, если существует единый измеритель для оценки каждого элемента выборки либо если эти измерителей несколько, но каждая переменная анализируется отдельно от всех остальных .

Одномерные методы (рис. 3.9) можно классифицировать на основе того, какие данные анализируются: метрические или неметрические. Метрические данные (metric data ) измеряются по интервальной или относительной шкале. Неметрические данные (nonmetric data ) оцениваются по номинальной или порядковой шкале. Затем эти методы делят на классы на основе того, сколько выборок – одна, две или более – анализируется в ходе исследования. Стоит отметить, что число выборок определяется тем, как ведется работа с данными для конкретного анализа, а не тем, каким способом собирались данные.

Рис. 3.9.

Рассмотрим некоторые из перечисленных на рис. 3.9 одномерных статистических методов.

Однофакторный дисперсионный анализ

Задачей дисперсионного анализа является изучение влияния одного или нескольких факторов на рассматриваемый признак. Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений. Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами, если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

Вариационный ряд

Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени. Например, работники фирмы различаются по доходам, затратам времени на работу, росту, весу, любимому занятию в свободное время и т.д. Она возникает в результате того, что индивидуальные значения признака складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае. Таким образом, величина каждого варианта объективна.

Вариационный ряд – это упорядоченное распределение единиц совокупности чаще всего по возрастающим (реже по убывающим) значениям признака и подсчет числа единиц с тем или иным значением признака. Существуют следующие формы вариационного ряда: ранжированный ряд – представляет собой перечень отдельных единиц совокупности в порядке возрастания (или убывания) изучаемого признака; дискретный вариационный ряд – таблица, состоящая из конкретных значений варьирующего признака х и числа единиц совокупности с данным значением f -признака частот; интервальный ряд – значения непрерывного признака задаются интервалами, которые характеризуются интервальной частотой т.

Вариационный анализ предназначен для проверки того, существенно ли влияет изменение независимых переменных на зависимые. Например, данный метод используется для ответов на следующие вопросы:

  • влияет ли вид рекламы на объем продаж;
  • влияет ли цвет рекламного объявления на количество людей, вспомнивших рекламу;
  • влияет ли выбор сбытовой политики на величину продаж?

Статистическая проверка значимости результатов маркетинговых исследований .

В процессе анализа данных у исследователя регулярно возникает вопрос: достаточно ли значимы результаты исследования? Другими словами, может ли результат объясняться тем, что в выборку попали респонденты, которые нс представляют генеральную совокупность в целом? Для ответа на этот вопрос используют статистические гипотезы.

Гипотезы – это предположения или теории, которые исследователь выдвигает относительно некоторых характеристик генеральной совокупности, подлежащей обследованию. Пользуясь статистическими приемами, исследователь пытается установить, существует ли эмпирическое доказательство, подтверждающее выдвинутые гипотезы. Проверка статистических гипотез позволяет рассчитать вероятность наступления какого-либо события. Но в условиях отсутствия полной всесторонней информации (что естественно в случаях использования данных выборки) всегда есть некоторая вероятность и ошибочного заключения.

Выдвижение гипотезы (нулевой или альтернативной). Нулевая гипотеза (H 0), называемая также гипотезой status quo, представляет собой утверждение, в котором исследователь констатирует факт отсутствия каких-либо отличий либо влияний в исходных данных. Она предназначена для определения согласованности исходных данных с выдвинутым предположением. Исследователю необходимо сформулировать нулевую гипотезу так, чтобы отказ от нее приводил к желательному заключению. Например, предприятие рассматривает возможность разработки нового товара и выведения его на рынок. Для принятия положительного решения необходимо, чтобы объем продаж увеличился на 20%. Выдвинем следующее предположение: объем продаж увеличится менее чем на 20%. Это предположение и называется нулевой гипотезой и обозначается как Н 0: Р ≤ 0,20.

Альтернативная гипотеза (H a) предназначена для определения согласованности данных с нулевой гипотезой и опровергает ее. В нашем примере против нулевой гипотезы можно выдвинуть альтернативную гипотезу вида Н а: Р > 0,20.

Если данные проверки гипотезы приводят к отказу от нулевой гипотезы, то принимается альтернативная гипотеза, в соответствии с которой можно ожидать увеличения объема продаж на 20%.

Существует множество методов для проверки статистических гипотез, основные методы перечислены в табл. 3.10 и впоследствии описаны с примерами.

Таблица 3.10

Статистические критерии для проверки статистических гипотез

Область применения

Число подгрупп или выборочных совокупностей

Виды шкал

Критерий

Специальные требования

Гипотезы о частоте распределения

Номинальная

Случайная

Случайны или нет наблюдаемые различия в ответах респондентов

Две и более

Номинальная

Случайная выборка, независимые выборки

Случайны или нет различия в численности мужчин и женщин, реагирующих на продвижение товара

Порядковая

Случайная выборка, естественный порядок данных

Случайно или нет распределение женщин, отдающих предпочтение определенному цвету туши (от темного до светлого)

Гипотезы о средних величинах

Одна (большая выборка)

Метрическая (интервальная или относительная)

Z-Критерий для одной средней

Случайная выборка, п > 30

Случайно или нет наблюдаемое различие между выборочной оценкой средней и стандартной или ожидаемой величиной средней

Одна (малая выборка)

t- Критерий для одной средней

Случайная выборка, n < 30

Случайно или нет наблюдаемое различие между выборочной оценкой средней и стандартной или ожидаемой величиной средней. Применяется для малой выборки

Две (большие выборки)

Z-Критерий для двух средних

Случайная выборка, п > 30

Случайно или нет наблюдаемое различие между средними для двух подгрупп (средний доходу мужчин и женщин)

Две (малые выборки)

ANOVA (анализ вариации)

Случайная

Случайна или нет вариация между средними для трех и более подгрупп (средняя величина расходов на развлечения для различных социальных групп)

Гипотезы о пропорциях

Одна (большая выборка)

Z- Критерий для одной пропорции

Случайная выборка, п > 30

Случайно или нет различие между выборочной оценкой пропорций и некоторой группой стандартных или ожидаемых оценок (процентом тех, кто собирается купить данный товар)

Две (большие выборки)

Z- Критерий для двух пропорций

Случайно или нет наблюдаемое различие между оцениваемыми пропорциями для двух подгрупп (процентом мужчин и женщин, которые имеют высшее образование)

Перед тем как разобрать основные критерии для проверки статистических критериев, нужно установить правила принятия решений. Правила принятия решения необходимы для того, чтобы подтвердить или опровергнуть нулевую гипотезу. Эти правила в статистике называются "уровнями значимости" (а). Они являются показателями качества статистической проверки гипотез и характеризуют вероятность ошибочного заключения. А поскольку всякое решение, принимаемое на основе ограниченного ряда наблюдений, неизбежно сопровождается вероятностью ошибочного решения, важно определить, насколько велика эта вероятность. На практике часто пользуются следующими стандартными значениями а: 0,1; 0,05; 0,01; 0,005; 0,001. При фиксированном объеме выборки обычно задается величина а – вероятность ошибочного отвержения проверяемой гипотезы Н 0.

Критерии для проверки гипотез о средних величинах (Z-критерий и t -критерий). Одной из важных проблем в маркетинговых исследованиях является определение средней величины для генеральной совокупности на основе выборочных данных. Соответствующая статистическая проверка гипотезы о средней величине осуществляется с помощью Z-критерия, который используется в случае, если выборка достаточно большая (п > 30). Для малой выборки (п < 30) используется ί-критерий Стьюдента с (п – 1) степенями свободы (п – объем выборки). Для проверки гипотез о двух и более выборочных средних производится оценка различий между средними величинами.

t -Критерий для одной выборки

t -Критерий (t-test) – одномерный метод проверки гипотез, использующий ί-распределение. Применяется, если стандартное отклонение неизвестно и размер выборки мал.

t -Распределение (t-statistic ) – распределение Стьюдента, симметричное колоколоподобное распределение, используемое для проверки выборок небольшого размера. При большом количестве наблюдений стремится к нормальному распределению.

t -Критерий для одной выборки позволяет проверить гипотезу о равенстве выборочного среднего некоторому заданному числу.

В так называемых одновыборочных t -критериях наблюдаемое среднее X (вычисленное по реализации выборки) сравнивается с ожидаемым (или эталонным) средним выборки μ (т.е. с некоторым теоретическим средним):

Статистика критерия:

имеет t -распределение Стьюдента с (п – 1) степенью свободы.

Выборочное стандартное отклонение s оценивается по наблюдаемой реализации выборки:

Вычисленное значение t проверяют на предмет попадания в критическую область (критическое значение можно найти по таблицам). Если вычисленное значение t попадает в критическую область, то говорят, что H 0 отвергается на уровне а в пользу альтернативы.

Например, пусть установлены некоторые фиксированные показатели эффективности деятельности торговой компании: уровень рентабельности товарооборота – 20%. Таким образом, имея данные о рентабельности (скажем, по месяцам), мы можем применить одновыборочный f-критерий для проверки гипотезы о равенстве среднего уровня рентабельности заданному значению.

Отметим, что в данном случае необходимо применить односторонний критерий, так как нарушение эффективности коммерческой деятельности произойдет только в случае снижения показателя рентабельности относительно нормативного.

Пример . Случайным образом в городе были отобраны десять магазинов. Им был предложен для продажи в течение определенного промежутка времени новый безалкогольный напиток. Компания рассчитывала на продажу 100 бутылок нового напитка в день в каждом магазине. Только в этом случае ожидаемая прибыль оправдает расходы на продвижение нового товара (табл. 3.11).

Таблица 3.11

Фактические данные об объемах продаж магазинов

Номер магазина

Средний объем продаж магазина х i

Отклонение от продаж в день

Квадрат отклонения средней величины

1. Выдвигаем нулевую и альтернативную гипотезы:

H 0: М < 100 бутылок (М – средний объем продаж в магазине за неделю).

H 1 : М > 100 бутылок.

  • 2. Установление допустимого уровня ошибки выборки (σ). Для σ = 0,05 и количеству степеней свободы 10-1=9 табличное (критическое) значение t= 2,2622.
  • 3. Расчитываем стандартное отклонение:

4. Расчет стандартной ошибки:

5. Расчет t -критерия:

t -Критерий для двух независимых выборок

t -Критерий для двух независимых выборок (двухвыборочный f-критерий) проверяет гипотезу о равенстве средних в двух выборках (предполагается нормальность распределения переменных, а также равенство дисперсий выборок). Критерий применяется, например, если необходимо сравнить два региона по доходу на душу населения.

Алгоритм принятия решения об отклонении или не отклонении нулевой гипотезы аналогичен рассмотренному выше (одновыборочный t -критерий)

t -Критерий для двух зависимых выборок

t -Критерий для двух зависимых (парных) выборок применяется, например, для оценки эффективности работы предприятия в разные годы или после каких-то нововведений. Нулевая гипотеза также гласит об отсутствии различий (среднее значение разности наблюдений в двух группах равно нулю).

Алгоритм принятия решения об отклонении или не отклонении нулевой гипотезы аналогичен рассмотренному выше.

Z-Критерий для одной выборки

Для выводов относительно средней величины в генеральной совокупности на основе данных выборки можно использовать Z-критерий, если соблюдаются два условия:

  • 1) распределение переменной в генеральной совокупности является нормальным;
  • 2) объем выборки достаточно большой.

Z-Критерий основан на стандартном нормальном распределении и рассчитывается следующим образом:

где – выборочная средняя; X – генеральная средняя по Н 0; S x – стандартная ошибка оценки средней величины.

При этом средняя ошибка оценки равна

Стандартное отклонение где п – объем выборки.

Пример. Один из салонов красоты провел исследование по 500 клиентам, которым предложили сравнить обслуживание в данном салоне с другими, функционирующими в этом же городе. Респонденты могли выбрать следующие ответы

Средний балл, рассчитанный по данным ответов респондентов, оказался равен 3,5, со среднеквадратическим отклонением 1,5. Может ли менеджер быть уверен в том, что в генеральной совокупности средний балл обслуживания будет не ниже 3 (средний балл по используемой шкале)?

Н 0: М ≤ 3 (М – оценка по используемой шкале),

Н 0:М> 3.

  • 2. Установление допустимого уровня ошибки выборки (σ). Для σ = 0,05 табличное значение Z-критерия равно 1,64.
  • 3. Выборочное среднеквадратическое отклонение: у х = 1,5.
  • 4. Расчет стандартной ошибки оценки генеральной средней

по формуле

5. Расчет Z-критерия:

6. Принятие решения о нулевой гипотезе: нулевая гипотеза может быть отвергнута, так как расчетная величина Ζ = 7,454 больше, чем критическая величина Ζ = 1,64. Менеджер может быть уверен в том, что средняя оценка обслуживания выше, чем 3.

Ζ-Критерий для двух независимых выборок

ЛПР часто бывают заинтересованы в проверке различий между группами покупателей. Если выборки сформированы случайным образом и данные одной выборки не оказывают влияния на значения другой, то такие выборки считают независимыми. В практическом маркетинге гипотезы о параметрах двух выборок используются для определения значимости различий между потребителями и теми, кто не употребляет (не использует) товар определенной торговой марки; или различий в потреблении между двумя группами людей (мужчин и женщин, городским и сельским населением, людьми с высокими и низкими доходами, холостыми и семейными, работающими и пенсионерами, жителями двух стран и др.).

Для проверки значимости различий используют Z-критерий:

где – разница между средними в первой и второй выборках; – разница между средними по нулевой гипотезе; – стандартная ошибка различий между двумя средними.

При этом стандартная ошибка рассчитывается исходя из среднеквадратических отклонений по отдельным группам:

Пример . Менеджер одного из магазинов самообслуживания был уверен, что мужчины чаще посещают магазин, чем женщины. Для иллюстрации проверки гипотез о двух средних величинах вернемся к данным о 215 посетителях магазина (табл. 3.12).

Таблица 3.12

Исходные данные для проверки различий между двумя независимыми выборками

1. Выдвижение нулевой и альтернативной гипотез:

H 0: Х т – X f 0, среднее число посещений магазина мужчинами т) такое же или меньше, чем среднее число посещений магазина женщинами (X f). Другими словами, мужчины реже посещают этот магазин, чем женщины;

H 1: Х т – X f > 0, среднее число посещений магазина мужчинами выше, чем число посещений магазина женщинами.

2. Определение фактических различий в средних значениях показателей:

  • 3. Выбор уровня ошибки выборки ). Предположим, что допустимый уровень ошибки выборки в данном случае равен 0,05. Табличное значение Z-критерия для уровня значимости 0,05 равно 1,6449.
  • 4. Среднеквадратическое отклонение составит:
    • для мужчин

для женщин

5. Расчет стандартной ошибки различий между двумя средними величинами по формуле

6. Расчет статистики Z-критерия:

7. Формулирование выводов. Расчетное значение величины Z = 2,782 больше, чем критическое значение Z = 1,64. Нулевая гипотеза отвергается. Менеджер может сделать вывод с вероятностью 95% о том, что в среднем мужчины чаще посещают магазины самообслуживания, чем женщины.

Критерии согласия: -критерий для одной выборки

Для оценки случайности или существенности расхождений между частотами эмпирического и теоретического распределений используется ряд показателей, именуемых критериями согласия. Одним из основных и наиболее распространенных показателей является критерий, предложенный К. Пирсоном:

где – наблюдаемая частота в каждой категории; – ожидаемая частота.

К. Пирсоном найдено распределение величины и составлены таблицы, позволяющие определить предельное верхнее значение при заданном уровне значимости и числе степеней свободы, значение которого в общем случае равно количеству наблюдений за вычетом числа ограничений, необходимых для расчета статистической характеристики. Если фактическое значение меньше табличного, то расхождения между эмпирическими и теоретическими частотами считают случайными, а гипотезу о принятом законе распределения принимают.

Пример . Менеджеру магазина электронной техники необходимо проверить эффективность трех мероприятий, проводимых в магазине с целью привлечения покупателей. Он хотел бы оценить эффект каждого мероприятия по числу покупателей магазина по следующим данным.

Менеджер должен выяснить, существенны ли различия между числом посетителей магазина в различные периоды времени. На этот вопрос позволяет ответить критерий . Обратимся к последовательности проведения расчета в соответствии с рассмотренным ранее процессом проверки гипотез:

1) выдвигаются нулевая и альтернативная гипотезы:

Н 0: число посетителей магазина во время проведения трех мероприятий одинаковое,

H 1: существует значительная разница в численности посетителей магазина во время проводимых мероприятий;

2) определяется ожидаемое (теоретическое) число посетителей в случае, если нулевая гипотеза верна. Естественно предположить, что численность посетителей должна быть одинакова при условии отсутствия влияния других факторов.

Ожидаемое число посетителей можно определить по формуле

3) рассчитывается величина χ2:

Критерии согласия:-критерий для двух независимых выборок

Маркетинговым исследователям часто бывает необходимо определить, существует ли связь между двумя и более переменными. Чтобы сформулировать маркетинговую стратегию, необходимо найти ответ на вопросы: существуют ли различия в группировках мужчин и женщин на активных, умеренных и слабых потребителей или одинакова ли доля респондентов, покупающих и не покупающих данный товар, в группах с низким, средним и высоким доходом. В описанных ситуациях обычно используется -критерий для двух независимых выборок:

где – наблюдаемое число в каждой i -й строке j -ого столбца; – ожидаемое число в i -й строке j- ого столбца.

Пример. Менеджеру необходимо определить природу связи, если она есть, между полом покупателей и частотой посещения магазинов. Частота посещения магазинов изучалась в трех категориях:

  • 1) 1–5 посещений в месяц – слабые потребители;
  • 2) 6–14 посещений – умеренные потребители;
  • 3) 15 и более раз – активные потребители.

Исходные данные приведены в табл. 3.12.

Среднее число посещений магазина мужчинами:

Среднее число посещений магазина женщинами:

Для проведения теста необходимо:

1) сформулировать нулевую и альтернативную гипотезы:

H 0: между полом и частотой посещения магазина связи нет;

H 1: связь между двумя переменными существенна;

2) определить ожидаемые частоты для каждой группы, попавшей в исследование, используя итоговые данные по соответствующим строкам и столбцам (табл. 3.13);

Таблица 3.13

Расчет ожидаемых (теоретических) частот

4) сравнить табличное значение с расчетным (теоретическим). Табличное значение (для уровня значимости 0,05 и степеней свободы) равно 5,991. Так как расчетное значение (= 13,35) больше, чем табличная величина,

нулевая гипотеза отвергается, и можно сделать вывод о том, что существуют различия между мужчинами и женщинами по частоте посещения магазина.

Критерий Колмогорова – Смирнова

Критерий Колмогорова – Смирнова предполагает определение эмпирических накопленных частостей (долей) и сравнение их с теоретическими частостями. Он используется в тех случаях, когда исходные данные упорядочены. Точка, в которой два распределения будут иметь максимальное расхождение (по модулю), может быть использована в качестве расчетного критерия, обозначаемого черези определяемого по формуле

где – накопленные частости (доли) эмпирического распределения; – накопленные частости теоретического распределения. Величина , рассчитанная по данным выборки, сравнивается с критическим значением :

где λ – критерий Колмогорова – Смирнова, соответствующий заданному уровню значимости α, и – размер выборки.

Различным значениям соответствуют различные значения вероятностей. Эти показатели табулированы. При уровне значимости а = 0,05 значение λ для большой выборки равно 1,36. Как и для показателя χ2, считается вполне допустимым рассматривать расхождения между эмпирическими и теоретическими частотами случайными, если фактическое значение D„ меньше критического значения Экрит.

Пример . Предположим, производителя красок интересует мнение потребителей о пяти новых оттенках цветов синей краски (табл. 3.14). Производителю важно знать, отдают ли потребители предпочтение какому-либо из цветов. В ходе обследования были опрошены 1000 респондентов.

Таблица 3.14

Результаты опроса респондентов относительно их предпочтений

Задача состоит в том, чтобы определить, случайно ли были отобраны цвета респондентами или приведенные данные характеризуют значительное предпочтение светлых цветов.

Тест Колмогорова – Смирнова включает следующие этапы:

1) определение нулевой и альтернативной гипотез:

Н 0: потребители не отдают предпочтение ни одному из оттенков;

Н 1: предпочтения потребителей существенны;

  • 2) расчет теоретических накопленных частостей, соответствующих нулевой гипотезе. Нулевая гипотеза заключается в том, что не существует разницы в предпочтениях потребителей для различных оттенков нового цвета. Если это так, то доля лиц, отдающих предпочтение каждому из оттенков, должна быть равна 1/5 (или 0,2);
  • 3) расчет эмпирических накопленных частостей по данным выборки.

В табл. 3.15 приведены необходимые для расчета критерия данные.

Таблица 3.15

Данные для расчета критерия Колмогорова – Смирнова

4) выбор уровня значимости α.

При уровне значимости критическое значение λ равно 1,36, следовательно, для большой выборки определяется по формуле

5) определение фактического значения D n, равного максимальному абсолютному отклонению между теоретическими и эмпирическими частостями.

Наибольшая абсолютная разность равна 0,24, которая и является величиной D n по критерию Колмогорова – Смирнова;

6) сравнение расчетного значения D n и критического значения . Принятие решения о нулевой гипотезе.

Так как расчетное значение превосходит критическое значение , нулевая гипотеза об отсутствии предпочтений отвергается: респонденты предпочитают светлые тона.

3.4.3.2. Многомерные статистические методы

Многомерные статистические методы прекрасно подходят для анализа данных, если для оценки данных каждого элемента выборки используются два или больше измерителей, а эти переменные анализируются одновременно. Многомерные методы отличаются от одномерных прежде всего тем, что при их использовании центр внимания смещается с уровня (средних показателей) и распределений (дисперсий) явлений и сосредоточиваются на степени взаимосвязи (корреляции или ковариации) между этими явлениями.

Многомерные статистические методы (multivariate techniques) – методы статистического анализа, применяемые для анализа данных, если для оценки каждого элемента выборки используются два или больше измерителя и эти переменные анализируются одновременно (рис. 3.10). Данные методы применяются для определения одновременных взаимосвязей между двумя или больше явлениями.

Рис. 3.10.

Кросс-табуляция (cross-tabulation ) – статистический метод, при котором одновременно характеризуются значения двух или более переменных. Кросс-табуляция заключается в создании таблиц сопряженности признаков, отражающих совместное распределение двух или более переменных с ограниченным количеством категорий или определенными значениями.

Дисперсионный анализ (variance analysis) – метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путем исследования значимости различий в средних значениях. В отличие от t-критерия позволяет сравнивать средние значения грех и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (ANalysis Of VAriance ).

Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:

  • 1) вариативность, обусловленную действием каждой из исследуемых независимых переменных;
  • 2) вариативность, обусловленную взаимодействием исследуемых независимых переменных;
  • 3) вариативность случайную, обусловленную всеми неучтенными обстоятельствами.

Ковариационный анализ (analysis of covariance) – тесно связанный с дисперсионным анализом статистический метод, в котором зависимая переменная статистически корректируется на основе связанной с ней дополнительной информации, с тем чтобы устранить вносимую извне изменчивость и таким образом повысить эффективность анализа.

Дискриминантный анализ (discriminant analysis) – метод для анализа данных маркетинговых исследований в том случае, когда зависимая переменная категориальная, а предикторы (независимые переменные) интервальные. Цель дискриминантного анализа – это различение (дискриминация) объектов наблюдения на классы по заранее определенным признакам.

Регрессионный анализ (regression analysis) – статистический метод исследования влияния одной или нескольких независимых переменных х 1, х 2, ..., x p на зависимую переменную у. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные – критериальными. Цели регрессионного анализа:

  • определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными);
  • предсказание значения зависимой переменной с помощью независимой (независимых);
  • определение вклада отдельных независимых переменных в вариацию зависимой.

Корреляционный анализ (correlation analysis) – статистический метод, выявляющий взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). Цель корреляционного анализа – обеспечить получение некоторой информации об одной переменной с помощью другой переменной.

Факторный анализ (factor analysis) – метод многомерной математической статистики, применяемый при исследовании статистически связанных признаков с целью выявления определенного числа скрытых от непосредственного наблюдения факторов. Цель факторного анализа – наблюдая большое число измеряемых переменных, выявить небольшое число латентных макропеременных-факторов, которые в основном определяют поведение измеряемых переменных.

Кластерный анализ (cluster analysis ) – многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Цель кластерного анализа – разбиение наблюдений, респондентов (строк матрицы данных) на относительно однородные кластеры, исходя из рассматриваемого набора переменных, таким образом, что в один кластер попадают схожие, близкие, а в разные – далекие друг от друга наблюдения.

Многомерное шкалирование (multidimensional scaling) метод анализа данных, позволяющий располагать точки, соответствующие изучаемым объектам (шкалируемые объекты), в некотором (как правило, евклидовом) многомерном "признаковом" пространстве, так, чтобы попарные расстояния между точками в этом пространстве как можно меньше отличались от эмпирически измеренных попарных мер "близости" этих изучаемых объектов. Каждой оси этого пространства соответствует шкала, например интервальная. Критерий отличия этих двух величин называется функцией стресса. Если элементы матрицы близостей получены по интервальным шкалам, метод многомерного шкалирования называется метрическим. Когда аналогичные шкалы являются порядковыми, метод многомерного шкалирования называется неметрическим. Цель многомерного шкалирования – поиск и интерпретация "латентных (т.е. непосредственно не наблюдаемых) переменных", дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков.

Выбор определенного метода анализа зависит, кроме характера и направлений связей с переменными и уровня шкалирования, от решаемой проблемы. В табл. 3.16 представлены рекомендации по выбору метода анализа для решения типичных задач маркетинга в компании.

Многомерный статистический анализ – это трудоемкий процесс, который фактически невозможно провести без статистических программных продуктов. Существует около тысячи распространяемых на мировом рынке пакетов, решающих в том или ином поле задачи статистического анализа данных. Большую часть статистических пакетов можно разбить на две группы – это статистические пакеты общего назначения (универсальные пакеты) и специализированные пакеты.

Типичная постановка вопроса

Корреляционный и регрессионный анализ

  • Как изменится объем продаж, если расходы на рекламу сократятся на 10%?
  • Какие характеристики товара интересны данной группе потребителей?
  • Какие характеристики товара можно объединить в один фактор?
  • Какова будет цепа на услугу в следующем году?

Дискриминационный анализ

  • Как разделить потребителей на группы внутри кластера?
  • Какие характеристики работников службы маркетинга наиболее существенны для их деления на преуспевающих и неудачников?
  • Можно ли определенного человека, учитывая его возраст, доход, образование, считать достаточно надежным для выдачи кредита?

Факторный анализ

  • Можно ли сократить множество характеристик, которые клиенты компании считают важным, до небольшого количества?
  • Как можно описать различные компании с точки зрения этих факторов?

Кластерный анализ

  • Можно ли клиентов разделить на группы по их потребностям?
  • Имеет ли компания различные типы клиентов?
  • Имеет ли газета различные типы читателей?
  • Как можно классифицировать клиентов по тому, какие виды вкладов их интересуют?

Многомерное шкалирование

  • Насколько продукт или компания соответствует "идеалу" клиента?
  • Какой имидж имеет компания?
  • Как изменилось отношение клиента к продукту" в течение ряда лет?

Универсальные пакеты – предлагают широкий диапазон статистических методов. В них отсутствует ориентация на конкретную предметную область. Они обладают дружественным интерфейсом. Из зарубежных универсатьных пакетов наиболее распространены В AS, SPSS, Systat, Minilab, Statgraphics, STATISTICA.

Специализированные пакеты – как правило, реализуют несколько статистических методов или методы, применяемые в конкретной предметной области. Чаще всего это системы, ориентированные на анализ временны́х рядов, корреляционно-регресионный, факторный или кластерный анализ. Применять такие пакеты целесообразно в тех случаях, когда требуется систематически решать задачи из этой области, для которой предназначен специализированный пакет, а возможностей пакетов общего назначения недостаточно. Из российских пакетов более известны STADIA, Олимп, Класс-Мастер, КВАЗАР, Статистик-Консультант; американские пакеты – ODA, WinSTAT, Static и т.д.

Стандартные статистические методы обработки данных включены в состав электронных таблиц, таких как Excel, Lotus 1-2-3, QuattroPro, и в математические пакеты общего назначения, например Mathcad.

Основы статистического анализа данных

статистика» биостатистикой» .

1. номинальную;
2. ординальную;
3. интервальную;

выборки

репрезентативной

выборочной рамки простой случайной выборкой интервальная выборка

стратифицированной выборки

кластерная и квотная выборки

нулевой гипотезы

альтернативной гипотезы мощности

доверительной вероятности».


Название: Основы статистического анализа данных
Детальное описание:

После завершения любого научного исследования, фундаментального или экспериментального, производится статистический анализ полученных данных. Чтобы статистический анализ был успешно проведен и позволил решить поставленные задачи, исследование должно быть грамотно спланировано. Следовательно, без понимания основ статистики невозможно планирование и обработка результатов научного эксперимента. Тем не менее, медицинское образование не дает не только знания статистики, но даже основ высшей математики. Поэтому очень часто можно столкнуться с мнением, что вопросами статобработки в биомедицинских исследованиях должен заниматься только специалист по статистике, а врачу-исследователю следует сосредоточиться на медицинских вопросах своей научной работы. Подобное разделение труда, подразумевающее помощь в анализе данных, вполне оправдано. Однако понимание принципов статистики необходимо хотя бы для того, чтобы избежать некорректной постановки задачи перед специалистом, общение с которым до начала исследования является в такой же степени важным, как и на этапе обработки данных.

Прежде чем говорить об основах статистического анализа, следует прояснить смысл термина «статистика» . Существует множество определений, но наиболее полным и лаконичным является, на наш взгляд, определение статистики как «науки о сборе, представлении и анализе данных». В свою очередь, использование статистики в приложении к живому миру называют «биометрией» или «биостатистикой» .

Следует заметить, что очень часто статистику сводят только к обработке экспериментальных данных, не обращая внимания на этап их получения. Однако статистические знания необходимы уже во время планирования эксперимента, чтобы полученные в ходе него показатели могли дать исследователю достоверную информацию. Поэтому, можно сказать, что статистический анализ результатов эксперимента начинается еще до начала исследования.

Уже на этапе разработки плана исследователь должен четко представлять себе, какого типа переменные будут в его работе. Все переменные можно разделить на два класса: качественные и количественные. То, какой диапазон может принимать переменная, зависит от шкалы измерений. Можно выделить четыре основных шкалы:

1. номинальную;
2. ординальную;
3. интервальную;
4. рациональную (шкалу отношений).

В номинальной шкале (шкале «названий») присутствуют лишь условные обозначения для описания некоторых классов объектов, например, «пол» или «профессия пациента». Номинальная шкала подразумевает, что переменная будет принимать значения, количественные взаимоотношения между которыми определить невозможно. Так, невозможно установить математические отношения между мужским и женским полом. Условные числовые обозначения (женщины - 0, мужчины - 1, либо наоборот) даются абсолютно произвольно и предназначены только для компьютерной обработки. Номинальная шкала является качественной в чистом виде, отдельные категории в этой шкале выражают частотами (количество или доля наблюдений, проценты).

Ординальная (порядковая) шкала предусматривает, что отдельные категории в ней могут выстраиваться по возрастанию или убыванию. В медицинской статистике классическим примером порядковой шкалы является градация степеней тяжести заболевания. В данном случае мы можем выстроить тяжесть по возрастанию, но все еще не имеем возможности задать количественные взаимоотношения, т. е. дистанция между значениями, измеренными в ординальной шкале, неизвестна или не имеет значения. Установить порядок следования значений переменной «степень тяжести» легко, но при этом невозможно определить, во сколько раз тяжелое состояние отличается от состояния средней тяжести.

Ординальная шкала относится к полуколичественным типам данных, и ее градации можно описывать как частотами (как в качественной шкале), так и мерами центральных значений, на чем мы остановимся ниже.

Интервальная и рациональная шкалы относятся к чисто количественным типам данных. В интервальной шкале мы уже можем определить, насколько одно значение переменной отличается от другого. Так, повышение температуры тела на 1 градус Цельсия всегда означает увеличение выделяемой теплоты на фиксированное количество единиц. Однако в интервальной шкале есть и положительные и отрицательные величины (нет абсолютного нуля). В связи с этим невозможно сказать, что 20 градусов Цельсия - это в два раза теплее, чем 10. Мы можем лишь констатировать, что 20 градусов настолько же теплее 10, как 30 - теплее 20.

Рациональная шкала (шкала отношений) имеет одну точку отсчета и только положительные значения. В медицине большинство рациональных шкал - это концентрации. Например, уровень глюкозы 10 ммоль/л - это в два раза большая концентрация по сравнению с 5 ммоль/л. Для температуры рациональной шкалой является шкала Кельвина, где есть абсолютный ноль (отсутствие тепла).

Следует добавить, что любая количественная переменная может быть непрерывной, как в случае измерения температуры тела (это непрерывная интервальная шкала), или же дискретной, если мы считаем количество клеток крови или потомство лабораторных животных (это дискретная рациональная шкала).

Указанные различия имеют решающее значение для выбора методов статистического анализа результатов эксперимента. Так, для номинальных данных применим критерий «хи-квадрат», а известный тест Стьюдента требует, чтобы переменная (интервальная либо рациональная) была непрерывной.

После того как будет решен вопрос о типе переменной, следует заняться формированием выборки . Выборка - это небольшая группа объектов определенного класса (в медицине - популяция). Для получения абсолютно точных данных нужно исследовать все объекты данного класса, однако, из практических (зачастую - финансовых) соображений изучают только часть популяции, которая и называется выборкой. В дальнейшем, статистический анализ позволяет исследователю распространить полученные закономерности на всю популяцию с определенной степенью точности. Фактически, вся биомедицинская статистика направлена на получение наиболее точных результатов из наименее возможного количества наблюдений, ведь при исследованиях на людях важен и этический момент. Мы не можем позволить себе подвергать риску большее количество пациентов, чем это необходимо.

Создание выборки регламентируется рядом обязательных требований, нарушение которых может привести к ошибочным выводам из результатов исследования. Во-первых, важен объем выборки. От объема выборки зависит точность оценки исследуемых параметров. Здесь следует обратить внимание на слово «точность». Чем больше размеры исследуемых групп, тем более точные (но не обязательно правильные) результаты получает ученый. Для того же, чтобы результаты выборочных исследований можно было переносить на всю популяцию в целом, выборка должна быть репрезентативной . Репрезентативность выборки предполагает, что в ней отражены все существенные свойства популяции. Другими словами, в исследуемых группах лица разного пола, возраста, профессий, социального статуса и пр. встречаются с той же частотой, что и во всей популяции.

Однако перед тем как начать выбор исследуемой группы, следует определиться с необходимостью изучения конкретной популяции. Примером популяции могут быть все пациенты с определенной нозологией или люди трудоспособного возраста и т. д. Так, результаты, полученные для популяции молодых людей призывного возраста, вряд ли удастся экстраполировать на женщин в постменопаузе. Набор характеристик, которые будет иметь изучаемая группа, определяет «обобщаемость» данных исследования.

Формировать выборки можно различными путями. Самый простой из них - выбор с помощью генератора случайных чисел необходимого количества объектов из популяции или выборочной рамки (sampling frame). Такой способ называется «простой случайной выборкой ». Если случайным образом выбрать начальную точку в выборочной рамке, а затем взять каждый второй, пятый или десятый объекты (в зависимости от того каких размеров группы требуются в исследовании), то получится интервальная выборка . Интервальная выборка не является случайной, так как никогда не исключается вероятность периодических повторений данных в рамках выборочной рамки.

Возможен вариант создания так называемой «стратифицированной выборки », которая предполагает, что популяция состоит из нескольких различных групп и эту структуру следует воспроизвести в экспериментальной группе. Например, если в популяции соотношение мужчин и женщин 30:70, тогда в стратифицированной выборке их соотношение должно быть таким же. При данном подходе критически важно не балансировать выборку избыточно, то есть избежать однородности ее характеристик, в противном случае исследователь может упустить шанс найти различия или связи в данных.

Кроме описанных способов формирования групп есть еще кластерная и квотная выборки . Первая используется в случае, когда получение полной информации о выборочной рамке затруднено из-за ее размеров. Тогда выборка формируется из нескольких групп, входящих в популяцию. Вторая - квотная - аналогична стратифицированной выборке, но здесь распределение объектов не соответствует таковому в популяции.

Возвращаясь к объему выборки, следует сказать, что он тесно связан с вероятностью статистических ошибок первого и второго рода. Статистические ошибки могут быть обусловлены тем, что в исследовании изучается не вся популяция, а ее часть. Ошибка первого рода - это ошибочное отклонение нулевой гипотезы . В свою очередь, нулевая гипотеза - это предположение о том, что все изучаемые группы взяты из одной генеральной совокупности, а значит, различия либо связи между ними случайны. Если провести аналогию с диагностическими тестами, то ошибка первого рода представляет собой ложноположительный результат.

Ошибка второго рода - это неверное отклонение альтернативной гипотезы , смысл которой заключается в том, что различия либо связи между группами обусловлены не случайным совпадением, а влиянием изучаемых факторов. И снова аналогия с диагностикой: ошибка второго рода - это ложноотрицательный результат. С этой ошибкой связано понятие мощности , которое говорит о том, насколько определенный статистический метод эффективен в данных условиях, о его чувствительности. Мощность вычисляется по формуле: 1-β, где β - это вероятность ошибки второго рода. Данный показатель зависит преимущественно от объема выборки. Чем больше размеры групп, тем меньше вероятность ошибки второго рода и выше мощность статистических критериев. Зависимость эта как минимум квадратичная, то есть уменьшение объема выборка в два раза приведет к падению мощности минимум в четыре раза. Минимально допустимой мощностью считают 80%, а максимально допустимый уровень ошибки первого рода принимают 5%. Однако всегда следует помнить, что эти границы заданы произвольно и могут изменяться в зависимости от характера и целей исследования. Как правило, научным сообществом признается произвольное изменение мощности, однако в подавляющем большинстве случаев уровень ошибки первого рода не может превышать 5%.

Все сказанное выше имеет непосредственное отношение к этапу планирования исследования. Тем не менее, многие исследователи ошибочно относятся к статистической обработке данных только как к неким манипуляциям, выполняемым после завершения основной части работы. Зачастую после окончания никак не спланированного эксперимента, появляется непреодолимое желание заказать анализ статистических данных на стороне. Но из «кучи мусора» даже специалисту по статистике будет очень сложно выудить ожидаемый исследователем результат. Поэтому при недостаточных знаниях биостатистики необходимо обращаться за помощью в статистическом анализе еще до начала эксперимента.

Обращаясь к самой процедуре анализа, следует указать на два основных типа статистических техник: описательные и доказательные (аналитические). Описательные техники включают в себя методы позволяющие представить данные в компактном и легком для восприятия виде. Сюда можно отнести таблицы, графики, частоты (абсолютные и относительные), меры центральной тенденции (средние, медиана, мода) и меры разброса данных (дисперсия, стандартное отклонение, межквартильный интервал и пр.). Другими словами, описательные методы дают характеристику изучаемым выборкам.

Наиболее популярный (хотя и зачастую ошибочный) способ описания имеющихся количественных данных заключается в определении следующих показателей:

  • количество наблюдений в выборке или ее объем;
  • средняя величина(среднее арифметическое);
  • стандартное отклонение- показатель того, насколько широко изменяются значения переменных.

Важно помнить, что среднее арифметическое и стандартное отклонение - это меры центральной тенденции и разброса в достаточно небольшом числе выборок. В таких выборках значения у большинства объектов с равной вероятностью отклонены от среднего, а их распределение образует симметричный «колокол» (гауссиану или кривую Гаусса-Лапласа). Такое распределение еще называют «нормальным», но в практике медицинского эксперимента оно встречается лишь в 30% случаев. Если же значения переменной распределены несимметрично относительно центра, то группы лучше описывать с помощью медианы и квантилей (процентилей, квартилей, децилей).

Завершив описание групп, необходимо ответить на вопрос об их взаимоотношениях и о возможности обобщить результаты исследования на всю популяцию. Для этого используются доказательные методы биостатистики. Именно о них в первую очередь вспоминают исследователи, когда идет речь о статистической обработке данных. Обычно этот этап работы называют «тестированием статистических гипотез».

Задачи тестирования гипотез можно разделить на две большие группы. Первая группа отвечает на вопрос, имеются ли различия между группами по уровню некоторого показателя, например, различия в уровне печеночных трансаминаз у пациентов с гепатитом и здоровых людей. Вторая группа позволяет доказать наличие связи между двумя или более показателями, например, функции печени и иммунной системы.

В практическом плане задачи из первой группы можно разделить на два подтипа:

  • сравнение показателя только в двух группах(здоровые и больные, мужчины и женщины);
  • сравнение трех и более групп(изучение разных доз препарата).

Необходимо учитывать, что статистические методы существенно отличаются для качественных и количественных данных.

В ситуации, когда изучаемая переменная - качественная и сравниваются только две группы, можно использовать критерий «хи-квадрат». Это достаточно мощный и широко известный критерий, однако, он оказывается недостаточно эффективным в случае, если количество наблюдений мало. Для решения данной проблемы существуют несколько методов, такие как поправка Йейтса на непрерывность и точный метод Фишера.

Если изучаемая переменная является количественной, то можно использовать один из двух видов статистических критериев. Критерии первого вида основаны на конкретном типе распределения генеральной совокупности и оперируют параметрами этой совокупности. Такие критерии называют «параметрическими», и они, как правило, базируются на предположении о нормальности распределения значений. Непараметрические критерии не базируются на предположении о типе распределения генеральной совокупности и не используют ее параметры. Иногда такие критерии называют «свободными от распределения» (distribution-free tests). В определенной степени это ошибочно, поскольку любой непараметрический критерий предусматривает, что распределения во всех сравниваемых группах будут одинаковыми, иначе могут быть получены ложноположительные результаты.

Существует два параметрических критерия применяемых к данным, извлеченным из нормально распределенной совокупности: t-тест Стьюдента для сравнения двух групп и F-тест Фишера, позволяющий проверить равенство дисперсий (он же - дисперсионный анализ). Непараметрических же критериев значительно больше. Разные критерии отличаются друг от друга по допущениям, на которых они основаны, по сложности вычислений, по статистической мощности и т. д. Однако наиболее приемлемыми в большинстве случаев считаются критерий Вилкоксона (для связанных групп) и критерий Манна-Уитни, также известный как критерий Вилкоксона для независимых выборок. Эти тесты удобны тем, что не требуют предположения о характере распределения данных. Но если окажется, что выборки взяты из нормально распределенной генеральной совокупности, то их статистическая мощность будет несущественно отличаться от таковой для теста Стьюдента.

Полное описание статистических методов можно найти в специальной литературе, однако, ключевым моментом является то, что каждый статистический тест требует набора правил (допущений) и условий для своего использования, и механический перебор нескольких методов для поиска «нужного» результата абсолютно неприемлем с научной точки зрения. В этом смысле статистические тесты близки к лекарственным препаратам - у каждого есть показания и противопоказания, побочные эффекты и вероятность неэффективности. И столь же опасным является бесконтрольное применение статистических тестов, ведь на них базируются гипотезы и выводы.

Для более полного понимания вопроса точности статистического анализа необходимо определить и разобрать понятие «доверительной вероятности». Доверительная вероятность - это величина, принятая в качестве границы между вероятными и маловероятными событиями. Традиционно, она обозначается буквой «p». Для многих исследователей единственной целью выполнения статистического анализа является расчет заветного значения p, которое словно проставляет запятые в известной фразе «казнить нельзя помиловать». Максимально допустимой доверительной вероятностью считается величина 0,05. Следует помнить, что доверительная вероятность - это не вероятность некоторого события, а вопрос доверия. Выставляя перед началом анализа доверительную вероятность, мы тем самым определяем степень доверия к результатам наших исследований. А, как известно, чрезмерная доверчивость и излишняя подозрительность одинаково негативно сказываются на результатах любой работы.

Уровень доверительной вероятности показывает, какую максимальную вероятность возникновения ошибки первого рода исследователь считает допустимой. Уменьшение уровня доверительной вероятности, иначе говоря, ужесточение условий тестирования гипотез, увеличивает вероятность ошибок второго рода. Следовательно, выбор уровня доверительной вероятности должен осуществляться с учетом возможного ущерба от возникновения ошибок первого и второго рода. Например, принятые в биомедицинской статистике жесткие рамки, определяющие долю ложноположительных результатов не более 5% - это суровая необходимость, ведь на основании результатов медицинских исследований внедряется либо отклоняется новое лечение, а это вопрос жизни многих тысяч людей.

Необходимо иметь в виду, что сама по себе величина p малоинформативна для врача, поскольку говорит только о вероятности ошибочного отклонения нулевой гипотезы. Этот показатель ничего не говорит, например, о размере терапевтического эффекта при применении изучаемого препарата в генеральной совокупности. Поэтому есть мнение, что вместо уровня доверительной вероятности лучше было бы оценивать результаты исследования по величине доверительного интервала. Доверительный интервал - это диапазон значений, в котором с определенной вероятностью заключено истинное популяционное значение (для среднего, медианы или частоты). На практике удобнее иметь оба эти значения, что позволяет с большей уверенностью судить о применимости полученных результатов к популяции в целом.

В заключение следует сказать несколько слов об инструментах, которыми пользуется специалист по статистике, либо исследователь, самостоятельно проводящий анализ данных. Давно ушли в прошлое ручные вычисления. Существующие на сегодняшний день статистические компьютерные программы позволяют проводить статистический анализ, не имея серьезной математической подготовки. Такие мощные системы как SPSS, SAS, R и др. дают возможность исследователю использовать сложные и мощные статистические методы. Однако далеко не всегда это является благом. Не зная о степени применимости используемых статистических тестов к конкретным данным эксперимента, исследователь может провести расчеты и даже получить некоторые числа на выходе, но результат будет весьма сомнительным. Поэтому, обязательным условием для проведения статистической обработки результатов эксперимента должно быть хорошее знание математических основ статистики.


Статистические ме́тоды - методы анализа статистических данных. Выделяют методы прикладной статистики, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью. Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Дисперсионный анализ. Дисперсионный анализ (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик). В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).


Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии, друг с другом посредством F-критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.

Дисперсионный анализ используют , если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).

Примеры задач. В задачах, которые решаются дисперсионным анализом, присутствует отклик числовой природы, на который воздействует несколько переменных, имеющих номинальную природу. Например, несколько видов рационов откорма скота или два способа их содержания и т.п.

Пример 1 : В течение недели в трех разных местах работало несколько аптечных киосков. В дальнейшем мы можем оставить только один. Необходимо определить, существует ли статистически значимое отличие между объемами реализации препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным объемом реализации. Если же разница объема реализации окажется статистически незначимой, то основанием для выбора киоска должны быть другие показатели.

Пример 2 : Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных.

Пример 3 : Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина - влияют на количество продаж, однако их взаимодействие значимым не является.

Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов. Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.

Пример 5 : Модель иерархического (гнездового) плана со смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.

Пример 6 : Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.

Ковариационный анализ. Ковариационный анализ - совокупность методов математической статистики, относящихся к анализу моделей зависимости среднего значения некоторой случайной величины одновременно от набора (основных) качественных факторов и (сопутствующих) количественных факторов . Факторы F задают сочетания условий, при которых были получены наблюдения X,Y, и описываются с помощью ндикаторных переменных, причем среди сопутствующих и индикаторных переменных могут быть как случайные, так и неслучайные (контролируемые в эксперименте).

Если случайная величина Y является вектором, то говорят о многомерном ковариационном анализе.

Ковариационный анализ часто применяют перед дисперсионным анализом, чтобы проверить гомогенность (однородность, представительность) выборки наблюдений X,Y по всем сопутствующим факторам.