Основные статистические характеристики ИСД. Основные статистические характеристики экспериментальных данных Основные статистические характеристики

ЛЕКЦИЯ 2

Базовые понятия математической статистики. Выборочный метод. Числовые характеристики статистических рядов Точечные статистические оценки и требования к ним. Метод доверительных интервалов. Проверка статистических гипотез.

Глава 3.
БАЗОВЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Выборочный метод

В этой главе приводится краткий обзор основных понятий и результатов математической статистики, которые используются в курсе эконометрики.

Одной из центральных задач математической статистики является выявление закономерностей в статистических данных, на базе которых можно строить соответствующие модели и принимать обдуманные решения. Первая задача математической статистики заключается в разработке методов сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных опытов. Вторая задача математической статистики заключается в разработке методов обработки и анализа статистических данных в зависимости от целей исследования. Элементами такого анализа, в частности, являются: оценка параметров известной функции распределения, проверка статистических гипотез о виде распределения и т.д.

Между математической статистикой и теорией вероятностей имеется тесная взаимосвязь. Теория вероятностей широко применяется при статистическом изучении массовых явлений, которые могут и не относится к категории случайных. Это осуществляется через теорию выборочного метода. Здесь вероятностных закономерностям подчиняются не сами изучаемые явления, а методы их исследования. Кроме того, теория вероятностей играет важную роль при статистическом исследовании вероятностных явлений. В этих случаях сами изучаемые явления подчиняются вполне определенным вероятностным закономерностям.

Основной задачей математической статистики является разработка методов получения научно обоснованных выводов о массовых явлениях и процессах из данных наблюдений или экспериментов. Например, нужно провести контроль качества изготовленной партии деталей или исследовать качество технологического процесса. Можно, конечно, провести сплошное обследование, т.е. обследовать каждую деталь партии. Однако если деталей слишком много, то провести сплошное обследование физически невозможно, а если обследование объекта связано с его уничтожением или требует больших затрат, то проводить сплошное обследование не имеет смысла. Поэтому приходится из всей совокупности объектов для обследования отбирать только часть, т.е. проводить выборочное обследование. Таким образом, на практике часто приходится давать оценку параметров большой совокупности по небольшому числу выбранных случайным образом элементов.



Вся подлежащая изучению совокупность объектов называется генеральной совокупностью . Та часть объектов, которая была отобрана из генеральной совокупности, называется выборочной совокупностью или более кратко – выборкой . Договоримся, обозначать объем выборки буквой n , а объем генеральной совокупности буквой N .

Выборка, в общем случае, образуется для оценки каких-либо характеристик генеральной совокупности. Однако не всякая выборка может давать реальное представление о генеральной совокупности. Например, детали, как правило изготовляются рабочими разной квалификации. Если на контроль попадут только детали, изготовленные рабочими более низкой квалификации, то представление о качестве всей продукции будет «заниженным», если только детали, изготовленные рабочими более высокой квалификации, то это представление будет завышенным.

Для того чтобы по данным выборки можно было уверенно судить об интересующем нас признаке генеральной совокупности необходимо, чтобы объекты выборки правильно ее представляли. Другими словами, выборка должна правильно представлять пропорции генеральной совокупности . Это требование коротко формулируют так: выборка должна быть репрезентативной (или представительной ) .

Репрезентативность выборки обеспечивается случайностью отбора . При случайном отборе все объекты генеральной совокупности имеют одинаковую возможность попасть в выборку . В этом случае, в силу закона больших чисел , можно утверждать, что выборка будет репрезентативной. Например, о качестве зерна судят по небольшой ее пробе. Хотя число наудачу отобранных зерен мало по сравнению со всей массой зерна, но само по себе оно достаточно велико. Следовательно, характеристики выборочной совокупности будут по вероятности мало чем отличаться от характеристик генеральной совокупности.

Различают повторные и бесповторные выборки . В первом случае отобранный объект перед отбором следующего возвращается в генеральную совокупность. Во втором – отобранный в выборку объект не возвращается в генеральную совокупность. Если объем выборки значительно меньше объема генеральной совокупности, то обе выборки будут практически эквивалентны.

Во многих случаях для анализа тех или иных экономических процессов важен порядок получения статистических данных. Но при рассмотрении так называемых пространственных данных порядок их получения не играет существенной роли. Кроме того, результаты выборочных значений x 1 , x 2 , …, x n количественного признака X генеральной совокупности, записанные в порядке их регистрации, обычно труднообозримы и неудобны для дальнейшего анализа. Задачей описания статистических данных является получение такого их представления, которое позволит наглядно выявить вероятностные характеристики. Для этого применяются различные формы упорядочения и группировки данных.

Статистический материал, получающийся в результате наблюдений (измерений) можно записать в виде таблицы, состоящей из двух строк. В первой строке отмечается номер измерения, во втором – полученной значение. Такая таблица называется простым статистическим рядом :

i n
x 1 x 2 x i x n

Однако при большом числе измерений статистический ряд трудно анализировать. Поэтому результаты наблюдений необходимо каким-либо образом упорядочить . Для этого наблюдаемые значения располагают в порядке их возрастания:

где . Такой статистический ряд называется ранжированным .

Поскольку некоторые значения статистического ряда могут иметь одинаковые значения, то их можно объединить. Тогда каждому значению x i будет поставлено в соответствие число n i , равное частоте появлений данного значения:

x 1 x 2 x k
n 1 n 2 n k

Такой ряд называется сгруппированным .

Ранжированный и сгруппированный ряд называется вариационным . Наблюдаемые значения x i называются вариантами , а число всех наблюдений варианты n i частотой . Число всех наблюдений n называется объемом вариационного ряда. Отношение частоты n i к объему ряда n называется относительной частотой :

Кроме дискретных вариационных рядов, применяются и интервальные вариационные ряды. Для построения такого ряда необходимо определить величину интервалов и в соответствии сними группировать результаты наблюдений:

[x 1 , x 2 ] (x 2 , x 3 ] (x 3 , x 4 ] (x k-1 , x k ]
n 1 n 2 n 3 n k

Интервальный вариационный ряд строят обычно в тех случаях, когда число наблюдавшихся вариантов очень велико. Обычно такая ситуация возникает при наблюдении за непрерывной величиной (например, измерение какой-либо физической величины). Между интервальными и дискретными вариационными рядами существует определенная взаимосвязь: любой дискретный ряд можно записать в виде интервального и наоборот.

Для графического описания дискретного вариационного ряда использую полигон . Для построения полигона в прямоугольной системе координат наносят точки с координатами (x i ,n i ) или (x i ,w i ). Затем эти точки соединяют отрезками. Полученная ломаная линия называется полигоном (см., например, рис. 3.1а).

Для графического описания интервального вариационного ряда используют гистограмму . Для ее построения по оси абсцисс откладывают отрезки, изображающие интервалы варьирования, и на этих отрезках, как на основании, строят прямоугольники с высотами, равными частотам или относительным частотам соответствующего интервала. В результате получается фигура, состоящая из прямоугольников, которая и называется гистограммой (см., например, рис. 3.1б).

а б
Рис. 3.1

Числовые характеристики статистического ряда

Построение вариационного ряда – лишь первый шаг к осмыслению ряда наблюдений. Этого недостаточно для полного исследования распределения изучаемого явления. Наиболее удобным и полным методом является аналитической способ исследования ряда, состоящий в вычислении числовых характеристик. Числовые характеристики, применяемые для исследования вариационных рядов, аналогичны тем, которые применяются в теории вероятностей.

Наиболее естественной характеристикой вариационного ряда является понятие средней величины . В статистике используют несколько видов средних величин: среднее арифметическое, среднее геометрическое, среднее гармоническое и др. Наиболее распространенным является понятие средней арифметической величины :

Если по данным наблюдений построен вариационный ряд, то используется понятие средней взвешенной арифметической величины :

. (3.3)

Средняя арифметическая величина обладает теми же самыми свойствами, что и математическое ожидание.

В качестве меры рассеяния значений наблюдаемой величины вокруг своего среднего значения принимают величину

, (3.4)

которая, как и в теории вероятностей, называется дисперсией . Величина

называется средним квадратичным отклонением (или стандартным отклонением ). Статистическая дисперсия обладает теми же самыми свойствами, что и вероятностная дисперсия, и для ее вычисления можно использовать альтернативную формулу

. (3.6)

Пример 3.1. По территориям региона приводятся данные за 199X г. (таб. 3.1).

Таблица 3.1

Найти среднее арифметическое и стандартное отклонение. Постройте гистограмму частот.

Решение. Для расчета средней арифметической и дисперсии строим расчетную таблицу (табл. 3.4):

Таблица 3.4

x i n i n i x i n i x i 2
Сумма

Здесь вместо x i взяты середины соответствующих интервалов. По данным таблицы находим:

, ,

Построим гистограмму частот по исходным данным (рис. 3.3). â

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения (средние характе­ристики, или центральная тенденция выборки ); характеристики рассеяния (ва­риации, или колеблемости ) и характеристики формы распределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение ), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости ) относятся: размах вариации , дисперсия , среднее квадратическое (стандартное ) отклонение , ошибка средней арифметической (ошибка средней ), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

Характеристики положения

Среднее арифметическое значение – одна из основных характеристик вы­борки.

Она, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных.

Точность вычисления по необработанным данным выше, но процесс вычисления оказывается трудоёмким при большом объёме выборки.

Для несгруппированных данных среднее арифметическое определяется по формуле:

где n - объем выборки, х 1 , х 2 , ... х n - результаты измерений.

Для сгруппированных данных:

где n - объем выборки, k – число интервалов группировки, n i – частоты интервалов, x i – срединные значения интервалов.

Мода

Определение 1. Мода - наиболее часто встречающаяся величина в данных вы­борки. Обозначается Мо и определяетсяпо формуле:

где - нижняя граница модального интервала, - ширина интервала группи­ровки, - частота модального интервала, - частота интервала, предшествую­щего модальному, - частота интервала, последующего за модаль­ным.

Определение 2. Модой Мо дискретной случайной величины называется наиболее вероятное её значение.

Геометрически моду можно интерпретировать как абсциссу точки максимума кривой распределения. Бывают двухмодальные и многомодальные распределения. Встречаются распределения, которые имеют минимум, но не имеют максимума. Такие распределения называются антимодальными .

Определение. Модальным интервалом называется интервал группировки с наибольшей частотой.

Медиана

Определение . Медиана - результат измерения, который находится в сере­дине ранжированного ряда, иначе говоря, медианой называется значение признака Х , когда одна половина значений экспериментальных данных меньше её, а вторая половина – больше, обозначается Ме .

Когда объем выборки n - четное число, т. е. результатов измерений четное количество, то для определения медианы рассчитывается среднее значение двух показателей выборки, находящихся в середине ранжированного ряда.

Для данных, сгруппированных в интервалы, медиану определяют по фор­муле:

,

где - нижняя граница медианного интервала; ширина интервала группи­ровки, 0,5n – половина объёма выборки, - частота медианного интервала, - накопленная частота интервала, предшествующего медианному.

Определение. Медианным интервалом называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n/ 2) или накопленная частость окажется больше 0,5.

Численные значения среднего, моды и медианы отличаются, когда имеет место несимметричная форма эмпирического распределения.

Характеристики рассеяния результатов измерений

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

s 2 = , (1)

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

Основные статистические характеристики делят на две основные группы: меры центральной тенденции и характеристики вариации.

Центральную тенденцию выборки позволяют оценить такие статистические характеристики, как среднее арифметическое значение, мода, медиана.

Наиболее просто получаемой мерой центральной тенденции является мода. Мода (Мо) – это такое значение в множестве наблюдений, которое встречается наиболее часто. В совокупности значений (2, 6, 6, 8, 7, 33, 9, 9, 9, 10) модой является 9, потому что оно встречается чаще любого другого значения. В случае, когда все значения в группе встречаются одинаково часто, считают, что эта группа не имеет моды.

Когда два соседних значения в ранжированном ряду имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений.

Если два несмежных значения в группе имеют равные частоты, и они больше частот любого значения, то существуют две моды (например, в совокупности значений 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются 11 и 14); в таком случае группа измерений или оценок является бимодальной .

Наибольшей модой в группе называется единственное значение, которое удовлетворяет определению моды. Однако во всей группе может быть несколько меньших мод. Эти меньшие моды представляют собой локальные вершины распределения частот.

Медиана(Me) – середина ранжированного ряда результатов измерений. Если данные содержат четное число различных значений, то медиана есть точка, лежащая посередине между двумя центральными значениями, когда они упорядочены.

Среднее арифметическое значение для неупорядоченного ряда измерений вычисляют по формуле:

,

где
. Например, для данных 4,1; 4,4; 4,5; 4,7; 4,8 вычислим :

.

Каждая из выше вычисленных мер центра является наиболее пригодной для использования в определенных условиях.

Мода вычисляется наиболее просто – ее можно определить на глаз. Более того, для очень больших групп данных это достаточно стабильная мера центра распределения.

Медиана занимает промежуточное положение между модой и средним с точки зрения ее вычисления. Эта мера получается особенно легко в случае ранжированных данных.

Среднее множество данных предполагает в основном арифметические операции.

На величину среднего влияют значения всех результатов. Медиана и мода не требуют для определения всех значений. Посмотрим, что произойдет со средним, медианой и модой, когда удвоится максимальное значение в следующем множестве:



Множество 1: 1, 3, 3, 5, 6, 7, 8 33/7 5 3

Множество 2: 1, 3, 3, 5, 6, 7, 16 41/7 5 3

На величину среднего особенно влияют результаты, которые называют “выбросами”, т.е. данные, находящиеся далеко от центра группы оценок.

Вычисление моды, медианы или среднего – чисто техническая процедура. Однако выбор из этих трех мер и их интерпретация зачастую требуют определенного размышления. В процессе выбора следует установить следующее:

– в малых группах мода может быть совершенно нестабильной. Например, мода группы: 1, 1, 1, 3, 5, 7, 7, 8 равна 1; но если одна из единиц превратится в нуль, а другая – в два, то мода будет равна 7;

– на медиану не влияют величины “больших” и “малых” значений. Например, в группе из 50 значений медиана не изменится, если наибольшее значение утроится;

– на величину среднего влияет каждое значение. Если одно какое-нибудь значение меняется на c единиц, изменится в том же направлении на c/n единиц;

– некоторые множества данных не имеют центральной тенденции, что часто вводит в заблуждение при вычислении только одной меры центральной тенденции. Особенно это справедливо для групп, имеющих более чем одну моду;

– когда считают, что группа данных является выборкой из большой симметричной группы, среднее выборки, вероятно, ближе к центру большой группы, чем медиана и мода.

Все средние характеристики дают общую характеристику ряда результатов измерений. На практике нас часто интересует, как сильно каждый результат отклоняется от среднего значения. Однако легко можно представить, что две группы результатов измерений имеют одинаковые средние, но различные значения измерений. Например, для ряда 3, 6, 3 – среднее значение = 4; для ряда 5, 2, 5 – также среднее значение = 4, несмотря на существенное различие этих рядов.

Поэтому средние характеристики всегда необходимо дополнять показателями вариации, или колеблемости.



К характеристикам вариации , или колеблемости , результатов измерений относят размах варьирования, дисперсию, среднее квадратическое отклонение, коэффициент вариации, стандартную ошибку средней арифметической.

Самой простой характеристикой вариации является размах варьирования . Его определяют как разность между наибольшим и наименьшим результатами измерений. Однако он улавливает только крайние отклонения, но не отражает отклонений всех результатов.

Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. Например, для ряда 3, 6, 3 значения будут следующими: 3 – 4 = – 1; 6 – 4 = 2; 3 – 4 = – 1. Сумма этих отклонений (– 1) + 2 + (– 1) всегда равна 0. Чтобы избежать этого, значения каждого отклонения возводят в квадрат: (– 1) 2 + 2 2 + (– 1) 2 = 6.

Значение делает отклонения от средней более явственными: малые отклонения становятся еще меньше (0,5 2 =0,25), а большие – еще больше (5 2 = 25). Получившуюся сумму называют суммой квадратов отклонений . Разделив эту сумму на число измерений, получают средний квадрат отклонений, или дисперсию . Она обозначается s 2 и вычисляется по формуле:

.

Если число измерений не более 30, т.е. n ≤ 30, используется формула:

.

Величина n – 1 = k называется числом степеней свободы , под которым подразумевается число свободно варьирующих членов совокупности. Установлено, что при вычислении показателей вариации один член эмпирической совокупности всегда не имеет степени свободы.

Эти формулы применяются, когда результаты представлены неупорядоченной (обычной) выборкой.

Из характеристик колеблемости наиболее часто используется среднее квадратическое отклонение , которое определяется как положительное значение корня квадратного из значения дисперсии, т.е.:

.

Среднее квадратическое отклонение или стандартное отклонение характеризует степень отклонения результатов от среднего значения в абсолютных единицах и имеет те же единицы измерения, что и результаты измерения.

Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна.

Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле:

.

В спортивной практике колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой
(0 – 10 %), средней (11 – 20 %) и большой (V > 20 %).

Коэффициент вариации имеет большое значение в статистической обработке результатов измерений, т. к., будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результатов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.

Лабораторная работа №9

Статистический анализ данных

Цель работы: научиться обрабатывать статистические данные в электронных таблицах с помощью встроенных функций; изучить возможности Пакета анализа в MS Excel 2010 и его некоторые инструменты: Генерация случайных чисел, Гистограмма, Описательная статистика.

Теоретическая часть

Очень часто для обработки данных, полученных в результате обследования большого числа объектов или явлений (статистических данных ), используются методы математической статистики.

Современная математическая статистика подразделяется на две обширные области: описательную и аналитическую статистику . Описательная статистика охватывает методы описания статистических данных, представления их в форме таблиц, распределений и пр.

Аналитическая статистика называется также теорией статистических выводов. Ее предметом является обработка данных, полученных в ходе эксперимента, и формулировка выводов, имеющих прикладное значение для самых различных областей человеческой деятельности

Полученный в результате обследования набор чисел называетсястатистической совокупностью.

Выборочной совокупностью (или выборкой ) называется совокупность случайно отобранных объектов. Генеральной совокупностью называется совокупность объектов, из которой производится выборка. Объемом совокупности (генеральной или выборочной) называется число объектов этой совокупности.

Для статистической обработки результаты исследования объектов представляют в виде чисел x 1 , x 2 , …, x k . Если значение x 1 наблюдалось n 1 раз, значение x 2 наблюдалось n 2 раз, и т.д., то наблюдаемые значения x i называются вариантами , а числа их повторений n i называются частотами . Процедура подсчета частот называется группировкой данных.

Объем выборки n равен сумме всех частот n i :

Относительной частотой значения x i называется отношение частоты этого значения n i к объему выборки n :

Статистическим распределением частот (или просто распределением частот ) называется перечень вариант и соответствующих им частот, записанных в виде таблицы:



Распределением относительных частот называется перечень вариант и соответствующих им относительных частот.


Основные статистические характеристики.

Современные электронные таблицы имеют огромный набор средств для анализа статистических данных. Наиболее часто используемые статистические функции встраиваются в основное ядро программы, то есть эти функции доступны с момента запуска программы. Другие более специализированные функции входят в дополнительные подпрограммы. В частности, в Excel, такая подпрограмма называется Пакетом анализа. Команды и функции пакета анализа называют Инструментами анализа. Мы ограничимся изучением нескольких основных встроенных статистических функций и наиболее полезных инструментов анализа из пакета анализа в электронной таблице Excel.

Среднее значение.

Функция СРЗНАЧ вычисляет выборочное (или генеральное) среднее, то есть среднее арифметическое значение признака выборочной (или генеральной) совокупности. Аргументом функции СРЗНАЧ является набор чисел, как правило, задаваемый в виде интервала ячеек, например, =СРЗНАЧ (А3:А201).