Дисперсия альтернативного признака вычисляется как. Показатели вариации. Среднее значение альтернативного признака

Среди множества варьирующих признаков существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными. Например, ученая степень у преподавателя вуза. Вариация альтернативного признака качественно проявляется в значении нуля у единиц, которые этим признаком не обладают или в значении единицы у тех, которые данный признак имеют.
Пусть n – число единиц совокупности; m – число единиц совокупности, обладающих данным признаком; p – доля единиц, обладающих данным признаком (p=m/n); q - доля единиц, не обладающих данным признаком, причем p+q =1.
Альтернативный признак принимает всего два значения – 0 и 1 с весами соответственно q и p. Вычислим среднее значение альтернативного признака по формуле средней арифметической:
.
Дисперсия альтернативного признака определяется по формуле:
,
где R – среднеквадратическое отклонение альтернативного признака.
Вычислим дисперсию альтернативного признака по следующим данным: налоговой инспекций одного из районов города проверено 86 коммерческих киосков и в 37 обнаружены финансовые нарушения. Тогда
Следовательно, дисперсия и среднее квадратическое отклонение доли коммерческих киосков, имеющих финансовые нарушения, во всей совокупности обследованных киосков равны:

Обобщенной характеристикой различий внутри ряда может служить энтропия распределения. Применительно к статистике энтропия – это мера неопределенности данных наблюдения, которая может иметь различные результаты.

Показатель энтропии (Hx):
,
где p i – вероятность события x i .

Расчет энтропии распределения можно показать на примере выпуска продукции различных сортов на одном из предприятий точного машиностроения (табл. 5.4).
Таблица 5.4 - Вероятности различных сортов продукции

Среди множества варьирующих признаков, изучаемых статистикой, существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными . Примером таких признаков являются наличие бракованной продукции, ученая степень преподавателя вуза, учеба по определенной специальности и т. д.

Предположим, что вся статистическая совокупность имеет n единиц. Из нихm единиц обладают выделенным признаком, тогда оставшиесяn m единиц не обладают этим признаком.

Долю единиц, обладающих признаком, обозначим: , тогда пусть
доля единиц, не обладающих данным признаком.

р + q = 1

Единицам х, обладающим данным признаком, присвоим значениех = 1, а не обладающим –х = 0.

Среднее значение альтернативного признака :

=р.

То есть среднее значение альтернативного признака равно доле единиц, обладающих данным признаком.

Дисперсия альтернативного признака :

То есть дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком.

Пример: 5% изготовленных изделий – брак, тогда 95% изделий годных. Дисперсия доли брака равна: σ 2 = 0,050,95 = 0,0475, а среднее квадратическое отклонение доли брака составляет σ =
или 22%.

Предельное значение дисперсии альтернативного признака равно 0,25; оно получается при р =q = 0,5.

3. Дисперсионный анализ

Вариация признака обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий:общей , межгрупповой и внутригрупповой .

Общая дисперсия σ 2 общ измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х от общей по совокупности средней и может быть вычислена по формуле простой или взвешен ной дисперсии.

Межгрупповая дисперсия σ 2 межгр характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней:

σ 2 межгр =
,

где f - численность единиц в группе.

Внутригрупповая (частная) дисперсия σ 2 i отражает случайную вариацию, т. е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы (групповой средней) и может быть исчислена по формуле простой или взвешенной дисперсии :

σ 2 i =
(простая формула);

σ 2 i =
(взвешенная).

На основании внутригрупповой дисперсии по каждой группе (σ 2 i ) можно определить общую средн юю из внутригрупповых дисперсий :

=
.

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:

σ 2 общ = σ 2 межгр + .

Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью - неизвестную, а также судить о силе влияния группировочного признака.

Чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.

В статистическом анализе широко используется эмпирический коэффициент детерминации (η 2) - показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:

η 2 =
.

Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обусловливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации η 2 равен нулю, а при функциональной связи - единице. Если, например η 2 = 0,666, это значит, что на 66,6% вариация исследуемого показателя обусловлена различиями в значениях признака-фактора, положенного в основание группировки, и на 33,4% - влиянием прочих факторов.

Эмпирическое корреляционное отношение - это корень квадратный из эмпирического коэффициента детерминации:

η =
.

Оно показывает тесноту связи между группировочным и результативным признаками.

Эмпирическое корреляционное отношение η, как и η 2 , может принимать значения от 0 до 1.

Если связь отсутствует, то корреляционное отношение η = 0, т. е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации.

Если связь функциональная, то корреляционное отношение η = 1. В этом случае межгрупповая дисперсия равна общей дисперсии (σ 2 межгр = σ 2), т. е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака.

Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.

Альтернативный признак – это признак, которым обладает часть единиц и не обладает другая часть единиц совокупности.

Дисперсия равна произведению доли (р ) на дополняющее эту долю до единицы число (q ):

где p – доля единиц, обладающих признаком;

q – доля единиц, не обладающих признаком.

Предельное значение дисперсии альтернативного признака равно 0,25 при р = 0,5.

Пример 6.1 . Из 200 студентов факультета - 60 чел. – неуспевающие.

Доля неуспевающих студентов равна p = 60 / 200 = 0,3

Доля успевающих студентов равна q = 1 – 0,3 = 0,7

Дисперсия доли равна = 0,3 · 0,7 = 0,21

Пример 6.2 . Расчет по несгруппированным данным. Имеются данные о стаже 10 работников - 1, 2, 3, 3, 4, 4, 5, 7, 9, 12. Рассчитать показатели вариации.

Составим рабочую таблицу для расчёта.

Номер работник Стаж, лет (х i ) x 2
-4
-3
-2
-2
-1
-1
Итого

Средний стаж равен лет.

Размах вариации R =12–1= 11 лет.

Далее рассчитываем отклонения от средней , и

Среднее линейное отклонение лет.

Дисперсия

Средняя из квадратов

Второй способ расчёта дисперсии = 35,4 – 5 2 = 10,4

года

Коэффициент вариации V = 3,22 / 5 = 0,645 или 64,5%

V d = 2,6 / 5 = 0,520 или 52,0%.

Пример 6.3 . Расчёт по интервальному вариационному ряду.

Имеются данные о распределении рабочих по зарплате

Решение: Составим рабочую таблицу для расчёта.

Зарплата f Середина интервала (х ) x i ·f i
до 10 -21
10–20 -11
20–30 -1
30–40
40 и более
Итого

Средняя зарплата тыс.руб.

Среднее линейное отклонение тыс.руб.

Дисперсия

Среднее квадратическое отклонение тыс.руб.

Коэффициент вариации V = 12,45 / 26 = 0,479 или 47,9%

Линейный коэффициент вариации: V d = 10,36 / 26 = 0,398 или 39,8%.

Виды дисперсий

Общая дисперсия s 2 измеряет вариацию результативного признака (y ) во всей совокупности под влиянием всех факторов (x 1 , x 2 , x 3 …) обусловивших эту вариацию.

Межгрупповая дисперсия характеризует систематическую вариацию, т.е. различия в величине изучаемого признака, возникающие под влиянием признака-фактора (x ), положенного в основание группировки. Она рассчитывается по формуле

,

где `y i и n i - соответственно групповые средние и численности по отдельным группам.

Внутригрупповая дисперсия () отражает случайную вариацию, т. е. часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она исчисляется следующим образом:

Средняя из внутригрупповых дисперсий ():

Существует закон, связывающий три вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсией:

В статистическом анализе широко используется показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии. Он носит название эмпирического коэффициента детерминации ():

.

Этот коэффициент показывает долю (удельный вес) общей вариации изучаемого признака обусловленную вариацией группировочного признака.

Корень квадратный из эмпирического коэффициента детерминации носит название эмпирического корреляционного отношения (h ):

.

Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1. Если h = 0, то группировочный признак не оказывает влияние на результативный. Если h = 1, то результативный признак изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих факторных признаков равно нулю. Промежуточные значения оцениваются в зависимости от их близости к предельным значениям.

Пример 6.4 . Имеются данные о группе рабочих.

Оценить силу связи между признаками.

Решение: Даны групповые средние и внутригрупповые дисперсии.

Определим среднюю общую используя групповые средние

Средняя из внутригрупповых дисперсий

Межгрупповая дисперсия

Общая дисперсия s 2 =6,955 + 34,65 = 41,605

Эмпирический коэффициент детерминации

34,65 / 41,605 = 0,833

Эмпирическое корреляционное отношение

Такое значение (близко к 1) характеризует очень сильную связь между числом обслуживаемых станков и средней зарплатой.

Среди множества варьирующих признаков, изучаемых статистикой, существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными . Примером таких признаков являются наличие бракованной продукции, ученая степень преподавателя вуза, учеба по определенной специальности и т. д.

Предположим, что вся статистическая совокупность имеет n единиц. Из нихm единиц обладают выделенным признаком, тогда оставшиесяn m единиц не обладают этим признаком.

Долю единиц, обладающих признаком, обозначим: , тогда пусть
доля единиц, не обладающих данным признаком.

р + q = 1

Единицам х, обладающим данным признаком, присвоим значениех = 1, а не обладающим –х = 0.

Среднее значение альтернативного признака :

=р.

То есть среднее значение альтернативного признака равно доле единиц, обладающих данным признаком.

Дисперсия альтернативного признака :

То есть дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком.

Пример: 5% изготовленных изделий – брак, тогда 95% изделий годных. Дисперсия доли брака равна: σ 2 = 0,050,95 = 0,0475, а среднее квадратическое отклонение доли брака составляет σ =
или 22%.

Предельное значение дисперсии альтернативного признака равно 0,25; оно получается при р =q = 0,5.

3. Дисперсионный анализ

Вариация признака обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий:общей , межгрупповой и внутригрупповой .

Общая дисперсия σ 2 общ измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х от общей по совокупности средней и может быть вычислена по формуле простой или взвешен ной дисперсии.

Межгрупповая дисперсия σ 2 межгр характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней:

σ 2 межгр =
,

где f - численность единиц в группе.

Внутригрупповая (частная) дисперсия σ 2 i отражает случайную вариацию, т. е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы (групповой средней) и может быть исчислена по формуле простой или взвешенной дисперсии :

σ 2 i =
(простая формула);

σ 2 i =
(взвешенная).

На основании внутригрупповой дисперсии по каждой группе (σ 2 i ) можно определить общую средн юю из внутригрупповых дисперсий :

=
.

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:

σ 2 общ = σ 2 межгр + .

Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью - неизвестную, а также судить о силе влияния группировочного признака.

Чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.

В статистическом анализе широко используется эмпирический коэффициент детерминации (η 2) - показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:

η 2 =
.

Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обусловливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации η 2 равен нулю, а при функциональной связи - единице. Если, например η 2 = 0,666, это значит, что на 66,6% вариация исследуемого показателя обусловлена различиями в значениях признака-фактора, положенного в основание группировки, и на 33,4% - влиянием прочих факторов.

Эмпирическое корреляционное отношение - это корень квадратный из эмпирического коэффициента детерминации:

η =
.

Оно показывает тесноту связи между группировочным и результативным признаками.

Эмпирическое корреляционное отношение η, как и η 2 , может принимать значения от 0 до 1.

Если связь отсутствует, то корреляционное отношение η = 0, т. е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации.

Если связь функциональная, то корреляционное отношение η = 1. В этом случае межгрупповая дисперсия равна общей дисперсии (σ 2 межгр = σ 2), т. е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака.

Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.

Если данные представлены в виде аналитической группировки, то можно вычислить дисперсию общую, межгрупповую и внутригрупповую (табл. 11).

Таблица 11

Виды дисперсий и правило сложения дисперсий

Наименование дисперсии

Формула расчета

простая (незвешенная)

взвешенная

Общая дисперсия измеряет вариацию признака во всей совокупности под влиянием всех факторов

Межгрупповая дисперсия измеряет систематическую вариацию, возникшую под влиянием группировочного признака

Средняя по -той группе; - средняя по всей совокупности; - число единиц совокупности- число единиц в -той группе

Внутригрупповая (частная) дисперсия, рассчитывается отдельно для каждой группы

Индивидуальные значения признака в -той группе; - средняя -той группы; - число единиц в совокупности; - число единиц в -той группе

Средняя внутригрупповая дисперсия измеряет случайную вариацию, возникающую под влиянием всех факторов, кроме группировочного признака

Правило сложения дисперсий

На основании правила сложения дисперсий рассчитывают:

1) эмпирический коэффициент детерминации показывает долю вариации результативного признака, обусловленную вариацией группировочного признака:

2) эмпирическое корреляционное отношение показывает тесноту связи между группировочным и результативным признаками:

Эмпирическое корреляционное отношение варьирует от 0 до 1. При связи нет, при - связь полная.

Промежуточные значения оцениваются по шкале Чэддока:

Дисперсия альтернативного признака

Альтернативный признак - качественный признак, который может принимать только одно значение из двух. Например, пол - мужской или женский; семейное положение - состоит в браке или нет; продукция - годная или бракованная. Одна часть совокупности обладает альтернативным признаком, другая нет. Доля единиц обладающих альтернативным (изучаемым) признаком обозначается - р, необладающих - q. Наличие альтернативного признака у единиц совокупности обозначается 1, отсутствие - 0.

Понравилась статья? Поделитесь ей
Наверх