Дисперсия альтернативного признака вычисляется как. Показатели вариации. Среднее значение альтернативного признака
Среди множества варьирующих признаков существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными. Например, ученая степень у преподавателя вуза. Вариация альтернативного признака качественно проявляется в значении нуля у единиц, которые этим признаком не обладают или в значении единицы у тех, которые данный признак имеют.
Пусть n – число единиц совокупности; m – число единиц совокупности, обладающих данным признаком; p – доля единиц, обладающих данным признаком (p=m/n); q - доля единиц, не обладающих данным признаком, причем p+q =1.
Альтернативный признак принимает всего два значения – 0 и 1 с весами соответственно q и p. Вычислим среднее значение альтернативного признака по формуле средней арифметической:
.
Дисперсия альтернативного признака определяется по формуле:
,
где R – среднеквадратическое отклонение альтернативного признака.
Вычислим дисперсию альтернативного признака по следующим данным: налоговой инспекций одного из районов города проверено 86 коммерческих киосков и в 37 обнаружены финансовые нарушения. Тогда
Следовательно, дисперсия и среднее квадратическое отклонение доли коммерческих киосков, имеющих финансовые нарушения, во всей совокупности обследованных киосков равны:
Обобщенной характеристикой различий внутри ряда может служить энтропия распределения. Применительно к статистике энтропия – это мера неопределенности данных наблюдения, которая может иметь различные результаты.
Показатель энтропии (Hx):
,
где p i
– вероятность события x i .
Расчет энтропии распределения можно показать на примере выпуска продукции различных сортов на одном из предприятий точного машиностроения (табл. 5.4).
Таблица 5.4 - Вероятности различных сортов продукции
Среди множества варьирующих признаков, изучаемых статистикой, существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными . Примером таких признаков являются наличие бракованной продукции, ученая степень преподавателя вуза, учеба по определенной специальности и т. д.
Предположим, что вся статистическая совокупность имеет n единиц. Из нихm единиц обладают выделенным признаком, тогда оставшиесяn –m единиц не обладают этим признаком.
Долю единиц, обладающих признаком,
обозначим:
,
тогда пусть
–
доля единиц, не обладающих данным
признаком.
р + q = 1
Единицам х, обладающим данным признаком, присвоим значениех = 1, а не обладающим –х = 0.
Среднее значение альтернативного признака :
=р.
То есть среднее значение альтернативного признака равно доле единиц, обладающих данным признаком.
Дисперсия альтернативного признака :
То есть дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком.
Пример:
5% изготовленных изделий
– брак, тогда 95% изделий годных. Дисперсия
доли брака равна: σ 2 = 0,050,95
= 0,0475, а среднее квадратическое отклонение
доли брака составляет σ =
или 22%.
Предельное значение дисперсии альтернативного признака равно 0,25; оно получается при р =q = 0,5.
3. Дисперсионный анализ
Вариация признака обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий:общей , межгрупповой и внутригрупповой .
Общая дисперсия σ 2 общ измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х от общей по совокупности средней и может быть вычислена по формуле простой или взвешен ной дисперсии.
Межгрупповая дисперсия σ 2 межгр характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней:
σ 2 межгр =
,
где f - численность единиц в группе.
Внутригрупповая (частная) дисперсия σ 2 i отражает случайную вариацию, т. е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы (групповой средней) и может быть исчислена по формуле простой или взвешенной дисперсии :
σ 2 i
=
(простая формула);
σ 2 i
=
(взвешенная).
На основании внутригрупповой дисперсии по каждой группе (σ 2 i ) можно определить общую средн юю из внутригрупповых дисперсий :
=
.
Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:
σ 2 общ = σ 2 межгр + .
Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью - неизвестную, а также судить о силе влияния группировочного признака.
Чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.
В статистическом анализе широко используется эмпирический коэффициент детерминации (η 2) - показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:
η 2
=
.
Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обусловливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации η 2 равен нулю, а при функциональной связи - единице. Если, например η 2 = 0,666, это значит, что на 66,6% вариация исследуемого показателя обусловлена различиями в значениях признака-фактора, положенного в основание группировки, и на 33,4% - влиянием прочих факторов.
Эмпирическое корреляционное отношение - это корень квадратный из эмпирического коэффициента детерминации:
η =
.
Оно показывает тесноту связи между группировочным и результативным признаками.
Эмпирическое корреляционное отношение η, как и η 2 , может принимать значения от 0 до 1.
Если связь отсутствует, то корреляционное отношение η = 0, т. е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации.
Если связь функциональная, то корреляционное отношение η = 1. В этом случае межгрупповая дисперсия равна общей дисперсии (σ 2 межгр = σ 2), т. е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака.
Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.
Альтернативный признак – это признак, которым обладает часть единиц и не обладает другая часть единиц совокупности.
Дисперсия равна произведению доли (р ) на дополняющее эту долю до единицы число (q ):
где p – доля единиц, обладающих признаком;
q – доля единиц, не обладающих признаком.
Предельное значение дисперсии альтернативного признака равно 0,25 при р = 0,5.
Пример 6.1 . Из 200 студентов факультета - 60 чел. – неуспевающие.
Доля неуспевающих студентов равна p = 60 / 200 = 0,3
Доля успевающих студентов равна q = 1 – 0,3 = 0,7
Дисперсия доли равна = 0,3 · 0,7 = 0,21
Пример 6.2 . Расчет по несгруппированным данным. Имеются данные о стаже 10 работников - 1, 2, 3, 3, 4, 4, 5, 7, 9, 12. Рассчитать показатели вариации.
Составим рабочую таблицу для расчёта.
Номер работник | Стаж, лет (х i ) | x 2 | |||
-4 | |||||
-3 | |||||
-2 | |||||
-2 | |||||
-1 | |||||
-1 | |||||
Итого |
Средний стаж равен лет.
Размах вариации R =12–1= 11 лет.
Далее рассчитываем отклонения от средней , и
Среднее линейное отклонение лет.
Дисперсия
Средняя из квадратов
Второй способ расчёта дисперсии = 35,4 – 5 2 = 10,4
года
Коэффициент вариации V = 3,22 / 5 = 0,645 или 64,5%
V d = 2,6 / 5 = 0,520 или 52,0%.
Пример 6.3 . Расчёт по интервальному вариационному ряду.
Имеются данные о распределении рабочих по зарплате
Решение: Составим рабочую таблицу для расчёта.
Зарплата | f | Середина интервала (х ) | x i ·f i | ||||
до 10 | -21 | ||||||
10–20 | -11 | ||||||
20–30 | -1 | ||||||
30–40 | |||||||
40 и более | |||||||
Итого |
Средняя зарплата тыс.руб.
Среднее линейное отклонение тыс.руб.
Дисперсия
Среднее квадратическое отклонение тыс.руб.
Коэффициент вариации V = 12,45 / 26 = 0,479 или 47,9%
Линейный коэффициент вариации: V d = 10,36 / 26 = 0,398 или 39,8%.
Виды дисперсий
Общая дисперсия s 2 измеряет вариацию результативного признака (y ) во всей совокупности под влиянием всех факторов (x 1 , x 2 , x 3 …) обусловивших эту вариацию.
Межгрупповая дисперсия характеризует систематическую вариацию, т.е. различия в величине изучаемого признака, возникающие под влиянием признака-фактора (x ), положенного в основание группировки. Она рассчитывается по формуле
,
где `y i и n i - соответственно групповые средние и численности по отдельным группам.
Внутригрупповая дисперсия () отражает случайную вариацию, т. е. часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она исчисляется следующим образом:
Средняя из внутригрупповых дисперсий ():
Существует закон, связывающий три вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсией:
В статистическом анализе широко используется показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии. Он носит название эмпирического коэффициента детерминации ():
.
Этот коэффициент показывает долю (удельный вес) общей вариации изучаемого признака обусловленную вариацией группировочного признака.
Корень квадратный из эмпирического коэффициента детерминации носит название эмпирического корреляционного отношения (h ):
.
Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1. Если h = 0, то группировочный признак не оказывает влияние на результативный. Если h = 1, то результативный признак изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих факторных признаков равно нулю. Промежуточные значения оцениваются в зависимости от их близости к предельным значениям.
Пример 6.4 . Имеются данные о группе рабочих.
Оценить силу связи между признаками.
Решение: Даны групповые средние и внутригрупповые дисперсии.
Определим среднюю общую используя групповые средние
Средняя из внутригрупповых дисперсий
Межгрупповая дисперсия
Общая дисперсия s 2 =6,955 + 34,65 = 41,605
Эмпирический коэффициент детерминации
34,65 / 41,605 = 0,833
Эмпирическое корреляционное отношение
Такое значение (близко к 1) характеризует очень сильную связь между числом обслуживаемых станков и средней зарплатой.
Среди множества варьирующих признаков, изучаемых статистикой, существуют признаки, которыми обладают одни единицы совокупности и не обладают другие. Эти признаки называются альтернативными . Примером таких признаков являются наличие бракованной продукции, ученая степень преподавателя вуза, учеба по определенной специальности и т. д.
Предположим, что вся статистическая совокупность имеет n единиц. Из нихm единиц обладают выделенным признаком, тогда оставшиесяn –m единиц не обладают этим признаком.
Долю единиц, обладающих признаком,
обозначим:
,
тогда пусть
–
доля единиц, не обладающих данным
признаком.
р + q = 1
Единицам х, обладающим данным признаком, присвоим значениех = 1, а не обладающим –х = 0.
Среднее значение альтернативного признака :
=р.
То есть среднее значение альтернативного признака равно доле единиц, обладающих данным признаком.
Дисперсия альтернативного признака :
То есть дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком.
Пример:
5% изготовленных изделий
– брак, тогда 95% изделий годных. Дисперсия
доли брака равна: σ 2 = 0,050,95
= 0,0475, а среднее квадратическое отклонение
доли брака составляет σ =
или 22%.
Предельное значение дисперсии альтернативного признака равно 0,25; оно получается при р =q = 0,5.
3. Дисперсионный анализ
Вариация признака обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий:общей , межгрупповой и внутригрупповой .
Общая дисперсия σ 2 общ измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х от общей по совокупности средней и может быть вычислена по формуле простой или взвешен ной дисперсии.
Межгрупповая дисперсия σ 2 межгр характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней:
σ 2 межгр =
,
где f - численность единиц в группе.
Внутригрупповая (частная) дисперсия σ 2 i отражает случайную вариацию, т. е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы (групповой средней) и может быть исчислена по формуле простой или взвешенной дисперсии :
σ 2 i
=
(простая формула);
σ 2 i
=
(взвешенная).
На основании внутригрупповой дисперсии по каждой группе (σ 2 i ) можно определить общую средн юю из внутригрупповых дисперсий :
=
.
Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:
σ 2 общ = σ 2 межгр + .
Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью - неизвестную, а также судить о силе влияния группировочного признака.
Чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.
В статистическом анализе широко используется эмпирический коэффициент детерминации (η 2) - показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:
η 2
=
.
Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обусловливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации η 2 равен нулю, а при функциональной связи - единице. Если, например η 2 = 0,666, это значит, что на 66,6% вариация исследуемого показателя обусловлена различиями в значениях признака-фактора, положенного в основание группировки, и на 33,4% - влиянием прочих факторов.
Эмпирическое корреляционное отношение - это корень квадратный из эмпирического коэффициента детерминации:
η =
.
Оно показывает тесноту связи между группировочным и результативным признаками.
Эмпирическое корреляционное отношение η, как и η 2 , может принимать значения от 0 до 1.
Если связь отсутствует, то корреляционное отношение η = 0, т. е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации.
Если связь функциональная, то корреляционное отношение η = 1. В этом случае межгрупповая дисперсия равна общей дисперсии (σ 2 межгр = σ 2), т. е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака.
Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.
Если данные представлены в виде аналитической группировки, то можно вычислить дисперсию общую, межгрупповую и внутригрупповую (табл. 11).
Таблица 11
Виды дисперсий и правило сложения дисперсий
Наименование дисперсии |
Формула расчета |
|
простая (незвешенная) |
взвешенная |
|
Общая дисперсия измеряет вариацию признака во всей совокупности под влиянием всех факторов |
||
Межгрупповая дисперсия измеряет систематическую вариацию, возникшую под влиянием группировочного признака |
||
Средняя по -той группе; - средняя по всей совокупности; - число единиц совокупности- число единиц в -той группе |
||
Внутригрупповая (частная) дисперсия, рассчитывается отдельно для каждой группы |
||
Индивидуальные значения признака в -той группе; - средняя -той группы; - число единиц в совокупности; - число единиц в -той группе |
||
Средняя внутригрупповая дисперсия измеряет случайную вариацию, возникающую под влиянием всех факторов, кроме группировочного признака |
||
Правило сложения дисперсий |
На основании правила сложения дисперсий рассчитывают:
1) эмпирический коэффициент детерминации показывает долю вариации результативного признака, обусловленную вариацией группировочного признака:
2) эмпирическое корреляционное отношение показывает тесноту связи между группировочным и результативным признаками:
Эмпирическое корреляционное отношение варьирует от 0 до 1. При связи нет, при - связь полная.
Промежуточные значения оцениваются по шкале Чэддока:
Дисперсия альтернативного признака
Альтернативный признак - качественный признак, который может принимать только одно значение из двух. Например, пол - мужской или женский; семейное положение - состоит в браке или нет; продукция - годная или бракованная. Одна часть совокупности обладает альтернативным признаком, другая нет. Доля единиц обладающих альтернативным (изучаемым) признаком обозначается - р, необладающих - q. Наличие альтернативного признака у единиц совокупности обозначается 1, отсутствие - 0.