Дисперсией случайной величины называется математическое ожидание квадрата отклонения случайной величины от ее математического ожидания
Пример. Пусть случайные величины и имеют следующее законы распределения
-0,1 | 0,1 | 0,4 | -10 | 0,5 | ||||
0,3 | 0,15 | 0,3 | 0,25 | 0,4 | 0,2 | 0,4 |
Найти математические ожидания и дисперсии этих случайных величин.
Решение. Воспользовавшись формулой для вычисления математических ожиданий, находим
С помощью формулы (2) вычислим дисперсии заданных случайных величин
.
Из полученных результатов делаем вывод: математические ожидания случайных величин и одинаковы, однако дисперсии различны. Дисперсия случайной величины мала и мы видим, что ее значение сконцентрированы около ее математического ожидания . Напротив, значения случайной величины значительно рассеяны относительно
, а поэтому дисперсия имеет большое значение. ●
- Свойства дисперсии
- Свойство 1. Дисперсия постоянной величины равна нулю
.
- Свойство 2. Постоянный множитель можно выносить за знак дисперсии, возводя его в квадрат
Свойство 3. Дисперсия суммы двух независимых случайных величин равна сумме их дисперсий
Свойство 4. Дисперсия случайной величины равна математическому ожиданию
квадрата этой величины минус квадрат ее математического ожидания
Не нашли то, что искали? Воспользуйтесь поиском:
Источник: https://studopedia.ru/19_91624_dispersiya-ee-svoystva.html
Дисперсия, виды и свойства дисперсии
- Дисперсия в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:
- 1. Простая дисперсия (для несгруппированных данных) вычисляется по формуле:
2. Взвешенная дисперсия (для вариационного ряда):
где n — частота (повторяемость фактора Х)
Пример нахождения дисперсии
На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение
Пример 1. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию
Построим интервальную группировку. Определим размах интервала по формуле:
где X max– максимальное значение группировочного признака;
X min–минимальное значение группировочного признака;
- n – количество интервалов:
Принимаем n=5. Шаг равен: h = (192 — 159)/ 5 = 6,6
- Составим интервальную группировку
Для дальнейших расчетов построим вспомогательную таблицу:
X’i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)
- Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:
Определим дисперсию по формуле:
- Пример 2. Определение групповой, средней из групповой, межгрупповой и общей дисперсии
- Пример 3. Нахождение дисперсии и коэффициента вариации в группировочной таблице
- Пример 4. Нахождение дисперсии в дискретном ряду
- Формулу дисперсии можно преобразовать так:
Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.
Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии, вычисленной по способу моментов, по следующей формуле менее трудоемок:
- где i — величина интервала;
А — условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;
m1 — квадрат момента первого порядка; - m2 — момент второго порядка
- Дисперсия альтернативного признака (если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:
Подставляя в данную формулу дисперсии q =1- р, получаем:
Виды дисперсии
Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.
Внутригрупповая дисперсия характеризует случайную вариацию, т.е.
часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки.
Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.
Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:
где хi — групповая средняя;
ni — число единиц в группе.
Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).
Средняя из внутри групповых дисперсий отражает случайную вариацию, т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:
Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:
Правило сложения дисперсии в статистике
Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповых дисперсий:
Смысл этого правила заключается в том, что общая дисперсия, которая возникает под влиянием всех факторов, равняется сумме дисперсий, которые возникают под влиянием всех прочих факторов, и дисперсии, возникающей за счет фактора группировки.
Пользуясь формулой сложения дисперсий, можно определить по двум известным дисперсиям третью неизвестную, а также судить о силе влияния группировочного признака.
Свойства дисперсии
1. Если все значения признака уменьшить (увеличить) на одну и ту же постоянную величину, то дисперсия от этого не изменится.
2. Если все значения признака уменьшить (увеличить) в одно и то же число раз n, то дисперсия соответственно уменьшится (увеличить) в n^2 раз.
Источник: Балинова B.C. Статистика в вопросах и ответах: Учеб. пособие. — М.: ТК. Велби, Изд-во Проспект, 2004. — 344 с.
Источник: http://univer-nn.ru/statistika/dispersiya/
Дисперсия — свойства, виды и формулы
В различных научных дисциплинах словосочетание «дисперсия это» характеризует мало схожие понятия. С латыни «dispersio» переводится как «рассеяние».
В физике, например, означает связь фазовой скорости волны с частотой. В химии описывает несмешиваемые субстанции. В биологии – многообразие признаков популяции.
В данной статье речь пойдет о математической трактовке. Рассматривается как одно из свойств случайных величин.
Что такое дисперсия в статистике
Статистика, в частности, оперирует рядами данных, характеризующих какой-либо признак, явление. Интересует их изменение.
Вариация представляет собой отличие величин одинакового показателя у разных предметов. Ее изучение позволит понять причины отклонений от нормы, анализировать их и в какой-то мере прогнозировать. Также станет возможным выявить факторы, влияющие на значения, отсеяв случайные.
Характеристики равномерного распределения представлены на картинке:
При значительном объеме статистики, средняя величина очевидно близка к нормальной. Об этом говорят и законы распределения. Отклонения от нее будут являться объективной характеристикой.
Только вот отрицательные значения этих разбросов будут сбивать с толку при расчетах, погашая положительные. А оставлять лишь модули – для математика не корректно. Напрашивается возвести в четную степень, а именно – во вторую.
Решение оказалось не только удобным. Оно открыло бо́льшие возможности в изучении отклонений. А важны именно они, поскольку сама по себе средняя мало что дает.
В качестве одного из важных показателей вариации, вводится понятие «дисперсия» – усредненный квадрат отклонений численных значений каких-либо событий от средней величины.
Кратко записывается D[X] в русскоязычных источниках и Var[X] (от «variance») в английских. В статистических выкладках используется σ2.
Никакого наглядного смысла величина не несет. Другое дело, среднее квадратическое отклонение – корень квадратный из дисперсии.
Виды дисперсии дискретной случайной величины
Для анализа данных цифр в таком виде недостаточно. Гораздо больше можно выжать из последовательности, если разбить ее на группы по определенному признаку.
Общая дисперсия
Как можно заметить, вычисленная по приведенному выше определению величина характеризует отклонения в целом. Без учета определяющих вариацию факторов. Вернее, с учетом всех, включая совершенно случайные. Поэтому и называется «общей» и рассчитывается по формулам, указанным ниже.
Простая дисперсия, без разделения на группы:
- Или в несколько преобразованном виде:
- Взвешенная дисперсия, для вариационного ряда:
- где xi – значение из ряда;
- fi – частота, количество повторений;
- k – групп;
- n – число вариантов.
- Черта сверху указывает на среднюю величину.
Межгрупповая дисперсия
Характеризует систематическое отклонение, возникающее из-за фактора, по которому производилось выделение признаков в группы. Поэтому также называется «факторной».
Как найти данную дисперсию? По формуле:
- где k – количество групп;
- nj – элементов в группе с индексом j.
Внутригрупповая дисперсия
Возникает по хаотичной причине, не связанной с причиной сделанной выборки. Неучтенный фактор. Еще обозначается как «остаточная».
Например, рассматривается количество выпущенных деталей за месяц каждым фрезеровщиком цеха.
В качестве критерия отбора в группу выбираем возраст оборудования. Он-то и не будет влиять на производительность внутри подборки: там станки у всех практически одинаковые.
- Если вычислить среднюю величину от всех групповых,
то получим характеристику случайного разброса. Иными словами, составляющую вариации, зависящую от чего угодно, кроме фактора отбора.
Взаимосвязь
В соответствии с правилом сложения, общая D[X] включает средние выражения остаточной и факторной. И это логично, поскольку учитывает и случайное изменение в группе, и систематическое в факторной.
Свойства дисперсии
Опишем основные:
-
Если последовательность состоит из одинаковых чисел, то D[X] будет нулевой.
-
Уменьшение всех значений на постоянную величину на дисперсию не влияет. Иначе говоря, рассчитать σ2 можно по отклонениям от фиксированного числа.
-
Уменьшение всех цифр в k раз приведет к падению D[X] в k2 раз. Можно, например, иметь в виду значения в метрах, а результат вычислить в футах. Достаточно учесть один раз то, на что следует умножить.
-
Средний квадрат отклонений от постоянной величины X отличается в большую сторону от того же с использованием среднего значения. Разница составит (Xcр – X)2.
Показатели вариаций
Кроме размаха (разницы максимального и минимального значений), среднего линейного и дисперсии, изменения описываются коэффициентом вариации:
Оценить масштаб разброса проще по относительной величине. Тем более, что измеряются в одних единицах.
Пример расчета дисперсии
Компания объявила конкурсный отбор для приема сотрудников. В качестве критерия принят стаж работы по специальности. Приведем исходные данные и расчеты.
- Усредненный стаж:
- Дисперсия:
- По альтернативной формуле:
- Среднеквадратическое:
- Коэффициент вариации:
Заключение
Статистика оперирует значительными объемами данных. Вариация, как одно из основных понятий – не исключение. И дисперсия в качестве основной характеристики.
Для упрощения расчетов существует масса онлайн калькуляторов. Имеется упомянутый инструмент в MS Excel.
Источник: https://nauka.club/matematika/algebra/dispersiya.html
Дисперсия и ее оценка
Определение 1
Дисперсия – норма, отражающая, с точки зрения теории, ожидаемое отклонение случайной величины от ее математического ожидания.
В математической статистике она определяется в качестве центрального момента второго порядка. Приведем формулу дисперсии:
где М(х) – математическое ожидание, а D(х) – дисперсия.
На основе данной формулы можно вывести другую, которая дает оценку дисперсии:
где S2— оценка дисперсии, Xi— наблюдаемые значения, n – объем собранных эмпирических значений, X-— оценка математического ожидания.
В первой формуле оценка математического ожидания не смещена, но во второй формуле дисперсия является выборочной. Т.е. эта оценка дает характеристику величине дисперсии данной выборки, не для популяции данных. Обычно для эксперимента необходимо оценить популяционный характер математического ожидания и дисперсию.
Так как вторая формула предполагает сравнение эмпирических знаний не с истинной величиной, а с оценочной, то происходит смещение оценки дисперсии. Способами дифференциального исчисления определено: ожидаемая величина оценки дисперсии по второй формуле описывает соотношение:
Данная формула отражает выборочную дисперсию. Из нее следует, что при наличии 10 выборочных значений случайной величины идет занижение значения. Получается 9/10 дисперсий анализируемой величины для генеральной совокупности.
Если увеличить объем в десять раз, то уменьшиться величина смещения до одной сотой, и при этому полученный результат будет отличаться от ожидаемого значения.
При помощи третьей формулы можно рассчитать несмещенную оценку дисперсии:
Данная формула называется популяционной дисперсией, или дисперсией генеральной совокупности. Эту формулу используют для расчета генеральной совокупности, третью – для определения вариантов внутри выборки и выход за пределы имеющихся значений, который не предполагается теорией.
Характеристика оценивания стандартного отклонения
Иногда для оценивания важна не сама дисперсия, а оценка стандартного отклонения. Эти две величины связаны однозначным соотношением.
Оценивание стандартного отклонения также применяется для выборки и генеральной совокупности, как и дисперсия. Оценка данной величины является предпочтительной, так как она удобна для восприятия из-за своей размерности.
Помимо этого, эту величину используют для вычисления стандартной ошибки. Формула выглядит следующим образом:
где SE – стандартная ошибка.
Данная статистика необходима для интервальной оценки исследуемой случайной величины.
Характеристика оценки полумежквартильного интервала
Это еще один способ оценивания вариантов в распределении случайной величины. Ее обозначают Q. Она используется в качестве альтернативы стандартного отклонения, несмотря на то, что они связаны соотношением Q = 0,67σ.
Определение 2
Квартиль – это вариант названия квантиля распределения.
При соответствии медианы с половиной распределения, то квартиль равен четверти. Т.е. первая четверть – это первый квартиль, половина – второй квартиль, три четвертых – третий, общая сумма величины – четвертый квартиль. Формула межквартильного интервала выглядит следующим образом:
Данную оценку используют, например, в сенсорной психофизике при оценивании порога способом констант.
Характеристика ковариации
Иногда необходимо оценить не одну дисперсию, а две (х,у). Такая статистика называется ковариацией. Ее формула выглядит следующим образом:
Она определяет степень связи между двумя переменами. Отличительная особенность ковариации – это ее выражение и в положительных и в отрицательных числах.
Так как ковариация зависит от размерности, то оценить степень между переменными невозможно. Поэтому в качестве меры двух переменных используют термин «корреляция».
Ее величина может быть определена за счет деления ковариации на произведение стандартных отклонений двух случайных величин, между которыми вычисляют ковариацию.
Если вы заметили ошибку в тексте, пожалуйста, выделите её и нажмите Ctrl+Enter
Источник: https://Zaochnik.com/spravochnik/psihologija/matematicheskie-metody-v-psihologii/dispersija-i-ee-otsenka/
Свойства дисперсии случайной величины
Дисперсией (рассеянием) дискретной случайной величиныD(X) называют математическое ожидание квадрата отклонения случайной величины от ее математического ожидания
1 свойство. Дисперсия постоянной величины C равна нулю; D(C) = 0.
Доказательство. По определению дисперсии, D(C) = M{[C – M(C)]2}.
- Из первого свойства математического ожидания D(C) = M[(C – C)2] = M(0) = 0.
- 2 свойство. Постоянный множитель можно выносить за знак дисперсии, возводя его в квадрат:
- D(CX) = C2 D(X)
- Доказательство. По определению дисперсии, D(CX) = M{[CX – M(CX)]2}
- Из второго свойства математического ожидания D(CX)=M{[CX – CM(X)]2}= C2M{[X – M(X)]2}=C2D(X)
- 3 свойство. Дисперсия суммы двух независимых случайных величин равна сумме дисперсий этих величин:
- D[X + Y ] = D[X] + D[Y ].
- Доказательство. По формуле для вычисления дисперсии имеем
- D(X + Y) = M[(X + Y )2] − [M(X + Y)]2
- Раскрыв скобки и пользуясь свойствами математического ожидания суммы нескольких величин и произведения двух независимых случайных величин, получим
- D(X + Y) = M[X2+ 2XY + Y2] − [M(X) + M(Y )]2 = M(X2) + 2M(X)M(Y) + M(Y2) − M2(X) − 2M(X)M(Y) − M2(Y) = {M(X2) − [M(X)]2}+{M(Y2) − [M(Y)]2} = D(X) + D(Y). Итак, D(X + Y) = D(X) + D(Y)
- 4 свойство. Дисперсия разности двух независимых случайных величин равна сумме их дисперсий:
- D(X − Y) = D(X) + D(Y)
Доказательство. В силу третьего свойства D(X − Y) = D(X) + D(–Y). По второму свойству
D(X − Y) = D(X) + (–1)2 D(Y) или D(X − Y) = D(X) + D(Y)
Числовые характеристики систем случайных величин. Коэффициент корреляции, свойства коэффициента корреляции.
Корреляционный момент.Характеристикой зависимости между случайными величинами и служит математическое ожидание произведения отклонений и от их центров распределений (так иногда называют математическое ожидание случайной величины), которое называется корреляционным моментом или ковариацией:
Для вычисления корреляционного момента дискретных величин используют формулу:
а для непрерывных величин – формулу:
Коэффициентом корреляции rxy случайных величин X и Y называют отношение корреляционного момента к произведению среднеквадратичных отклонений величин: — коэффициент корреляции;
Свойства коэффициента корреляции:
1. Если Х и У независимые случайные величины, то r =0;
2. -1≤ r ≤1 .При этом, если |r| =1, то между Х и У функциональная, а именно линейная зависимость;
3. r характеризует относительную величину отклонения М(ХУ) от М(Х)М(У), и т.к. отклонение имеет место только для зависимых величин, то rхарактеризует тесноту зависимости.
Линейная функция регрессии.
Рассмотрим двумерную случайную величину (X, Y), где X и У — зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:
- Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид
где mx=M(X), my=M(Y), σx=√D(X), σy=√D(Y), r=µxy/(σxσy)—коэффициент корреляции величин X и Y.
- Коэффициент β=rσy/σx называют коэффициентом регрессии Y на X, а прямую
- называют прямой среднеквадратической регрессии Y на X.
- Неравенство Маркова.
- Формулировка неравенства Маркова
Если среди значений случайной величины Х нет отрицательных, то вероятность того, что она примет какое-нибудь значение, превосходящее положительное число А, не больше дроби , т.е.
,
а вероятность того, что она примет какое-нибудь значение, не превосходящее положительного числа А, не меньше , т.е.
- .
- Неравенство Чебышева.
- Неравенство Чебышева. Вероятность того, что отклонение случайной величины X от ее математического ожидания по абсолютной величине меньше положительного числа ε, не меньше, чем 1 −D[X]ε2
- P(|X – M(X)| < ε) ≥ 1 –D(X)ε2
- Доказательство. Так как события, состоящие в осуществлении неравенств
P(|X−M(X)| < ε) и P(|X – M(X)| ≥ε) противоположны, то сумма их вероятностей равна единице, т. е.
- P(|X – M(X)| < ε) + P(|X – M(X)| ≥ ε) = 1.
- Отсюда интересующая нас вероятность
- P(|X – M(X)| < ε) = 1 − P(|X – M(X)| > ε).
- Таким образом, задача сводится к вычислению вероятности P(|X –M(X)| ≥ ε).
- Напишем выражение для дисперсии случайной величины X
D(X) = [x1 – M(x)]2p1 + [x2 – M(x)]2p2 + . . . + [xn – M(x)]2pn
Все слагаемые этой суммы неотрицательны. Отбросим те слагаемые, у которых |xi – M(X)| < ε (для оставшихся слагаемых |xj – M(X)| ≥ ε), вследствие чего сумма может только уменьшиться. Условимся считать для определенности, что отброшено k первых слагаемых (не нарушая общности, можно считать, что в таблице распределения возможные значения занумерованы именно в таком порядке). Таким образом,
D(X) ≥ [xk+1 – M(x)]2pk+1 + [xk+2 – M(x)]2pk+2 + . . . + [xn – M(x)]2pn
Обе части неравенства |xj –M(X)| ≥ ε (j = k+1, k+2, . . ., n) положительны, поэтому, возведя их в квадрат, получим равносильное неравенство |xj – M(X)|2 ≥ε2.Заменяя в оставшейся сумме каждый из множителей
|xj – M(X)|2числом ε2(при этом неравенство может лишь усилиться), получим
D(X) ≥ ε2(pk+1 + pk+2 + . . . + pn)
По теореме сложения, сумма вероятностей pk+1+pk+2+. . .+pn есть вероятность того, что X примет одно, безразлично какое, из значений xk+1 +xk+2 +. . .+xn, а при любом из них отклонение удовлетворяет неравенству |xj – M(X)| ≥ ε. Отсюда следует, что сумма pk+1 + pk+2 + . . . + pn выражает вероятность
- P(|X – M(X)| ≥ ε).
- Это позволяет переписать неравенство для D(X) так
- D(X) ≥ ε2P(|X – M(X)| ≥ ε)
- или
- P(|X – M(X)|≥ ε) ≤D(X)/ε2
- Окончательно получим
- P(|X – M(X)| < ε) ≥D(X)/ε2
- Теорема Чебышева.
- Теорема Чебышева. Если — попарно независимые случайные величины, причем дисперсии их равномерно ограничены (не превышают постоянного числа С), то, как бы мало ни было положительное число ε, вероятность неравенства
- будет как угодно близка к единице, если число случайных величин достаточно велико.
- Другими словами, в условиях теоремы
- Доказательство. Введем в рассмотрение новую случайную величину — среднее арифметическое случайных величин
- Найдем математическое ожидание Х. Пользуясь свойствами математического ожидания (постоянный множитель можно вынести за знак математического ожидания, математическое ожидание суммы равно сумме математических ожиданий слагаемых), получим
(1) |
- Применяя к величине Х неравенство Чебышева, имеем
- или, учитывая соотношение (1)
- Пользуясь свойствами дисперсии (постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат; дисперсия суммы независимых случайных величин равна сумме дисперсий слагаемых), получим
По условию дисперсии всех случайных величин ограничены постоянным числом С, т.е. имеют место неравенства:
- поэтому
- Итак,
(2) |
- Подставляя правую часть (2) в неравенство (1) (отчего последнее может быть лишь усилено), имеем
- Отсюда, переходя к пределу при n→∞, получим
- Наконец, учитывая, что вероятность не может превышать единицу, окончательно можем написать
- Теорема доказана.
- Теорема Бернулли.
Теорема Бернулли. Если в каждом из n независимых испытаний вероятность p появления события A постоянна, то как угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности p по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико.
Другими словами, если ε — сколь угодно малое положительное число, то при соблюдении условий теоремы имеет место равенство
Доказательство. Обозначим через X1 дискретную случайную величину — число появлений события в первом испытании, через X2 — во втором, …, Xn — в n-м испытании. Ясно, что каждая из величин может принять лишь два значения: 1 (событие A наступило) с вероятностью p и 0 (событие не появилось) с вероятностью .
Можно ли применить к рассматриваемым величинам теорему Чебышева? Можно, если случайные величины попарно независимы и дисперсии их ограничены.
Оба условия выполняются Действительно, попарная независимость величин следует из того, что испытания независимы.
Дисперсия любой величины равна произведению ; так как , то произведение не превышает 1/4и, следовательно, дисперсии всех величин ограничены, например, числом .
Применяя теорему Чебышева (частный случай) к рассматриваемым величинам, имеем
Приняв во внимание, что математическое ожидание a каждой из величин (т.е. математическое ожидание числа появлений события в одном испытании) равно вероятности p наступления события, получим
- Остается показать, что дробь
- равна относительной частоте появлений события A в испытаниях. Действительно, каждая из величин при появлении события в соответствующем испытании принимает значение, равное единице; следовательно, сумма равна числу появлений события в испытаниях, а значит,
- Учитывая это равенство, окончательно получим
Источник: https://infopedia.su/1x7d0.html
Дисперсия и стандартное отклонение в EXCEL
Вычислим в MS EXCEL дисперсию и стандартное отклонение выборки. Также вычислим дисперсию случайной величины, если известно ее распределение.
Сначала рассмотрим дисперсию , затем стандартное отклонение .
Дисперсия выборки
- Дисперсия выборки ( выборочная дисперсия, sample variance ) характеризует разброс значений в массиве относительно среднего .
- Все 3 формулы математически эквивалентны.
- Из первой формулы видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего , деленная на размер выборки минус 1.
В MS EXCEL 2007 и более ранних версиях для вычисления дисперсии выборки используется функция ДИСП() , англ. название VAR, т.е. VARiance. С версии MS EXCEL 2010 рекомендуется использовать ее аналог ДИСП.В() , англ. название VARS, т.е. Sample VARiance. Кроме того, начиная с версии MS EXCEL 2010 присутствует функция ДИСП.Г(), англ. название VARP, т.е. Population VARiance, которая вычисляет дисперсию для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у ДИСП.В() , у ДИСП.Г() в знаменателе просто n. До MS EXCEL 2010 для вычисления дисперсии генеральной совокупности использовалась функция ДИСПР() .
Дисперсию выборки можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ) =КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1) =(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула =СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1 ) – формула массива
Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению . Обычно, чем больше величина дисперсии , тем больше разброс значений в массиве.
Дисперсия выборки является точечной оценкой дисперсии распределения случайной величины, из которой была сделана выборка . О построении доверительных интервалов при оценке дисперсии можно прочитать в статье Доверительный интервал для оценки дисперсии в MS EXCEL .
Дисперсия случайной величины
- Чтобы вычислить дисперсию случайной величины, необходимо знать ее функцию распределения .
- Для дисперсии случайной величины Х часто используют обозначение Var(Х).
Дисперсия равна математическому ожиданию квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]
- Если случайная величина имеет дискретное распределение , то дисперсия вычисляется по формуле:
где x i – значение, которое может принимать случайная величина, а μ – среднее значение ( математическое ожидание случайной величины ), р(x) – вероятность, что случайная величина примет значение х.
Если случайная величина имеет непрерывное распределение , то дисперсия вычисляется по формуле:
где р(x) – плотность вероятности .
Для распределений, представленных в MS EXCEL , дисперсию можно вычислить аналитически, как функцию от параметров распределения. Например, для Биномиального распределения дисперсия равна произведению его параметров: n*p*q.
Примечание : Дисперсия, является вторым центральным моментом , обозначается D[X], VAR(х), V(x). Второй центральный момент — числовая характеристика распределения случайной величины, которая является мерой разброса случайной величины относительно математического ожидания .
Примечание : О распределениях в MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .
Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии – стандартное отклонение .
- Некоторые свойства дисперсии :
- Var(Х+a)=Var(Х), где Х — случайная величина, а — константа.
- Var(aХ)=a 2 Var(X)
- Var(Х)=E[(X-E(X)) 2 ]=E[X 2 -2*X*E(X)+(E(X)) 2 ]=E(X 2 )-E(2*X*E(X))+(E(X)) 2 =E(X 2 )-2*E(X)*E(X)+(E(X)) 2 =E(X 2 )-(E(X)) 2
- Это свойство дисперсии используется в статье про линейную регрессию .
- Var(Х+Y)=Var(Х) + Var(Y) + 2*Cov(Х;Y), где Х и Y — случайные величины, Cov(Х;Y) — ковариация этих случайных величин.
Если случайные величины независимы (independent), то их ковариация равна 0, и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это свойство дисперсии используется при выводе стандартной ошибки среднего .
Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения доверительного интервала для разницы 2х средних .
Стандартное отклонение выборки
Стандартное отклонение выборки — это мера того, насколько широко разбросаны значения в выборке относительно их среднего .
По определению, стандартное отклонение равно квадратному корню из дисперсии :
Стандартное отклонение не учитывает величину значений в выборке , а только степень рассеивания значений вокруг их среднего . Чтобы проиллюстрировать это приведем пример.
Вычислим стандартное отклонение для 2-х выборок: (1; 5; 9) и (1001; 1005; 1009). В обоих случаях, s=4. Очевидно, что отношение величины стандартного отклонения к значениям массива у выборок существенно отличается. Для таких случаев используется Коэффициент вариации (Coefficient of Variation, CV) — отношение Стандартного отклонения к среднему арифметическому , выраженного в процентах.
В MS EXCEL 2007 и более ранних версиях для вычисления Стандартного отклонения выборки используется функция =СТАНДОТКЛОН() , англ. название STDEV, т.е. STandard DEViation. С версии MS EXCEL 2010 рекомендуется использовать ее аналог =СТАНДОТКЛОН.В() , англ. название STDEV.S, т.е. Sample STandard DEViation.
Кроме того, начиная с версии MS EXCEL 2010 присутствует функция СТАНДОТКЛОН.Г() , англ. название STDEV.P, т.е. Population STandard DEViation, которая вычисляет стандартное отклонение для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у СТАНДОТКЛОН.В() , у СТАНДОТКЛОН.Г() в знаменателе просто n.
Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ) =КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)) =КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))
Другие меры разброса
Функция КВАДРОТКЛ() вычисляет с умму квадратов отклонений значений от их среднего . Эта функция вернет тот же результат, что и формула =ДИСП.Г( Выборка )*СЧЁТ( Выборка ) , где Выборка — ссылка на диапазон, содержащий массив значений выборки ( именованный диапазон ). Вычисления в функции КВАДРОТКЛ() производятся по формуле:
Функция СРОТКЛ() является также мерой разброса множества данных. Функция СРОТКЛ() вычисляет среднее абсолютных значений отклонений значений от среднего . Эта функция вернет тот же результат, что и формула =СУММПРОИЗВ(ABS(Выборка-СРЗНАЧ(Выборка)))/СЧЁТ(Выборка) , где Выборка — ссылка на диапазон, содержащий массив значений выборки.
Вычисления в функции СРОТКЛ () производятся по формуле:
Источник: https://excel2.ru/articles/dispersiya-i-standartnoe-otklonenie-v-ms-excel
Дисперсия и ее свойства
Дисперсия определяется по формулам
Она обладает рядом свойств:
- 1. Дисперсия постоянной величины равна нулю.
- 2. Если уменьшить или увеличить все значения признака на постоянное число А, то дисперсия не изменится, т.е.
3. Если уменьшить или увеличить все значения признака в постоянное число С, то дисперсия уменьшится или увеличится в квадрат этого числа раз, т.е.
Среднее квадратическое отклонение — это корень квадратный из дисперсии:
- В условиях нормального распределения существует зависимость между величиной среднего квадратического отклонения и числом наблюдений:
- ® в пределах х ± а находится 68,3 % количества наблюдений;
- ® в пределах х ± 2а находится 95,4 % количества наблюдений;
- ® в пределах х ± За находится 99,7 % количества наблюдений.
На практике обычно отклонения нс превышают За. Это положение называют правилом трех сигм.
Пример 1.20
Определить дисперсию, используя ее свойства.
Выпуск продукции, млн руб. | Число предприятий / | х, | х' | x'f | {x'f fi |
1-3 | 3 | 2 | -2 | -6 | 12 |
3-5 | 8 | 4 | -1 | -8 | 8 |
5-7 | 12 | 6 | 0 | 0 | 0 |
7-9 | 7 | 8 | +1 | +7 | 7 |
I | 30 | — | — | -7 | 27 |
Решение
Определяем условное значение дисперсии:
• • • • •
Если необходимо определить дисперсию для нескольких рядов, то можно воспользоваться формулой сложения дисперсий:
где ст^, г — межгрупповая дисперсия, определяемая по формуле
где х{ — средняя арифметическая в каждой i-й группе; щ —количество признаков в группе; лг0 — общая средняя, определяемая по формуле
ст в.г — средняя из внутригрупповых дисперсий, определяемая по формуле
где — внутригрупповая дисперсия, определяемая по формуле
Пример 1.2 1
Определить внутригрупповую, межгрупповую и общую дисперсии.
Группа | Разряд рабочих в бригадах | X | |||||
Х | 2 | 5 | 6 | 3 | 2 | 3 | 21 |
(*i-*)2 | 2,25 | 2,25 | 6,25 | 0,25 | 2,25 | 0,25 | 13,5 |
*2 | 3 | 4 | 4 | 5 | 3 | 4 | 23 |
(х2 — х)2 | 0,64 | 0,04 | 0,04 | 1,44 | 0,64 | 0,04 | 2,84 |
Решение
Группа | Разряд рабочих в бригадах | Е | |||||
*3 | 5 | 6 | 6 | 2 | 2 | 3 | 24 |
(*з — *)2 | 1 | 4 | 4 | 4 | 4 | 1 | 18 |
Определяем средние арифметические величины для каждой группы:
Средняя из внутригрупповых дисперсий Межгрупповая дисперсия Общая дисперсия
• • • • #
Источник: https://studref.com/382349/statistika/dispersiya_svoystva