Подключите!
Программатик с кэшбеком — соберите аудиторию размером с космос
Реклама ООО «Колтач Солюшнс»
ИНН 7703388936
erid: 2Vtzqwp9tt5
Нет времени читать?
Отправить статью на почту

Критерий хи-квадрат Пирсона: что это такое и как рассчитать

4 июня 2024
15 мин на чтение
831
Критерий хи-квадрат Пирсона: что это такое и как рассчитать
author__photo

До 1900 года принцип нормального распределения (или закон Гаусса) считался единственно верным законом вариации данных. Но К. Пирсон обнаружил, что эмпирические частоты отличаются от закона распределения Гаусса, и решил это доказать. Математик вывел формулу и таблицу распределения величин. Так появился критерий хи-квадрат Пирсона. В статье расскажем, что это такое и как метод применяется в статистике.

Что такое критерий хи-квадрат

Критерий хи-квадрат ― это непараметрический метод в математике. С его помощью вычисляют отличия предполагаемых результатов теоретика от фактических. Критерий используют, когда хотят узнать, соответствует ли выборка закону Гаусса (закону нормального распределения).

Прежде чем приступать к вычислению, аналитик выдвигает гипотезу, что параметры распределены равномерно. Это принимают за нулевую гипотезу. Расчеты показывают, насколько сильно истинные результаты далеки от теоретических. То есть так проверяется нулевая гипотеза.

Понятие «хи-квадрат» общее, но чаще всего используют именно критерий согласия Пирсона. Поэтому эти названия привыкли считать синонимами. 

Чтобы вычислить критерий, Пирс придумал таблицу сопряженности. Ее используют при проверке простых гипотез. 

Общая формула хи-квадрат Пирсона выглядит так: 

Сферы применения критерия Пирсона

Критерий хи-квадрат применяют специалисты во всех областях, где нужно посчитать наличие или отсутствие корреляции между категориальными аргументами:

  • Ученые. Параметр нужен им для проведения экспериментов. Они вычисляют, насколько вероятно, что любая корреляция между переменными возникла случайно. 
  • Аналитики. Они прогнозируют поведение рынка и покупателей. К примеру, владелец торгового центра хочет знать, правда ли, что каждый день в течение недели приходит равное количество посетителей. Или продавец хочет узнать, правда ли, что в его магазине 40% женщин покупают 37 размер обуви, 10% ― 38 размер, 20% ― 39 размер и 30% ― 40 размер. 
  • Врачи. С помощью критерия они могут проверить гипотезу о том, что дети болеют чаще взрослых.
  • Маркетологи. Они просчитывают стратегию развития товара. К примеру, подтверждают или опровергают предположение, что товары из Китая интереснее покупателям из городов с населением до 1 млн человек. 

Заменить критерий Пирсона в маркетинге поможет сквозная аналитика. Вы узнаете, какой канал продвижения наиболее популярен и сэкономите деньги на рекламе, оптимизировав бюджет.

Сквозная аналитика
Оценивайте эффективность всех рекламных кампаний в одном окне от клика до ROI
Вкладывайте в ту рекламу, которая приводит клиентов
Подробнее

Когда применяют критерий 

Критерий хи-квадрат используют, если нужно понять, подходит ли какая-то категориальная переменная под гипотетическое распределение. Вернемся к примеру с посетителями ТЦ. Возьмем случайную неделю и запишем количество всех посетителей по дням. Критерий хи-квадрат покажет, насколько факт далек от гипотезы.

А вот еще один вариант использования параметра. Например, вы решили узнать, верно ли предположение, что в пачке Skittles 20% зеленых конфет, 30% красных и 50% — желтых. Для этого также нужно открыть случайную пачку сладостей и посчитать цвета конфет в процентах. Так критерий хи-квадрат соответствия покажет, верное ли распределение цветов, опираясь на ваше предположение. 

Также параметр используют для определения связи между двумя категориальными параметрами. К примеру, с такими:

  • любимый фильм: «Гарри Поттер», «Властелин колец», «Хроники Нарнии»;
  • вид домашнего питомца: собака, кот, попугай;
  • марка авто: BMW, Mercedes, Renault.

Хи-квадрат помогает узнать, влияет ли пол на выбор марки машины и зависят ли от цвета глаз предпочтения в стиле одежды.

Условия и ограничения критерия хи-квадрат Пирсона

Что еще важно знать перед вычислением:

  • Группы для сравнения не могут зависеть друг от друга и быть примерно одинакового размера. К примеру, вычислить реакцию клиента на товар до ребрендинга и после нельзя. 
  • Для точности результата в массиве данных должно быть по меньшей мере 50 переменных.
  • Ожидаемая частота (показатель, который мы ожидаем получить в эксперименте) должна находиться в диапазоне от 5 до 10 единиц. Если параметр меньше 5, то подойдет критерий Фишера.

Для правильного распределения хи-квадрата важно, чтобы переменные были наглядными. То есть такими, для которых можно выдвинуть допущение и проверить его. Параметры должны быть:

  • бинарными: операционная система: iOS/Android, наличие авто: да/нет;
  • измеримыми в номинальной шкале: семейное положение, профессия;
  • порядковыми: образование (высшее, среднее, начальное).

Нельзя использовать распределение хи-квадрат для значений, которые могут меняться в пределах одного интервала, а также процентов и долей. Невозможно вычислить долю голубоглазых посетителей среди всех гостей торгового центра. Потому что этот показатель постоянно меняется, а вместе с тем меняется и доля.

Распределение хи-квадрат

Распределение хи-квадрат показывает, как расположены параметры выборки на графике. Если величины видно в рамках хи-квадрата, то они независимы. 

Рисунок 1

 

Рисунок 2

На первом рисунке показана плотность распределения значений. Это шанс увидеть каждый из параметров на оси Х. k ― число степеней свободы. 

На втором рисунке изображена вероятность получения значения меньше, чем на оси X. 

Нормальная величина — та, которая удовлетворяет закон распределения Гаусса. Эта кривая похожая на колокол с пиком посередине и плавно стекающими симметричными сторонами. 

Нормальная кривая распределения Гаусса

Такое распределение означает, что на фактор влияет много случайных параметров. На графике усредненная величина находится в центре, а стандартные отклонения — равномерно по бокам.

Как будет выглядеть график хи-квадрат, зависит от количества степеней свободы (df). Это комбинация координат, которая будет показывать положение системы (графика). Это количество величин, которые ученые хотят измерить. Число степеней свободы ищем по формуле: df = S − 1 − r, где:

  • S ― количество групп выборки;
  • r ― количество переменных распределения.

Бросая игральный кубик, мы знаем, что результат может быть один из шести вариантов. То есть степеней свободы всего 6. Но зачем мы при расчете вычитаем 1? Потому что если мы подбросили кость 1000 раз и знаем, сколько раз выпала каждая из пяти граней, то методом вычисления понимаем, сколько раз выпала и шестая грань. 

Таблица распределения хи-квадрата

Таблица хи-квадрат показывает значения Х^2 при различных уровнях значимости и степенях свободы. Чтобы с ней работать, нужно знать:

  1. Степень свободы.
  2. Альфа-уровень для критерия. Это значение, которое относится к вероятности получения ответа. Оно находится между 0 (нулевая гипотеза) и 1 (противоположный ответ). Его мы выбираем самостоятельно.

Таблицу можно применять для тестирования:

  • Независимости показателей. Например, такой вопрос: существует ли связь между цветом глаз и полом. Сделаем выборку из 1000 человек. Уровень значимости по таблице возьмем 0,05 — это самый распространенный показатель. Степень свободы находим по формуле: (2 − 1) * (3 − 1) = 2. Смотрим в таблицу и видим: уровень значимости и степень свободы пересекаются в точке 5,99. Критическое значение больше нашего результата, значит, опровергнуть предположение мы не можем, и корреляцию между показателями доказать нельзя. Если бы выборка была больше, то результат был бы ближе к истине. 

  • Качества подгонки. Суть вычисления такая же. Вернемся к примеру с размером обуви. Нам нужно узнать, действительно ли 40% покупательниц берут 37 размер, 10% ― 38 размер, 20% ― 39, а 30% ― 40 размер. Степень свободы будет 4 − 1 = 3. Выбираем уровень значимости, к примеру 0,1, и ищем критическое значение по таблице.
  • Однородности показателей. Таблицу используют, чтобы посмотреть, увеличатся ли, например, продажи после проведения двух разных курсов для менеджеров. А еще — повысятся ли знания у учеников, если они будут ходить на дополнительные занятия к разным преподавателям.

Интерпретация критерия хи-квадрат Пирсона

После расчетов вы получили результат в виде числа. Если число статистики меньше критического значения, то гипотезу опровергнуть нельзя, если больше, то можно подтвердить связь между критериями. Но как определить, какое значение достаточно большое?

В таблице критерия хи-квадрат указаны граничные значения для разных исходов. Вы сами определяете альфа-уровень для критерия и высчитываете степень свободы. На стыке этих показателей в таблице есть число. Если оно выше уровня значимости, то предположение опровергается, а если ниже, то подтвердить его невозможно.

Как начать применять критерий хи-квадрат

На практике никто не считает критерий хи-квадрат вручную. Формула нужна для того, чтобы исследователь понял, как в реальности взаимосвязаны переменные. Обычно для критерия согласия используют специальные программы или Excel.

В Excel есть несколько формул, но чаще всего используют ХИ2.ТЕСТ. 

В качестве аргументов функции выделяем массив с гипотезой и наблюдением: фактический интервал;ожидаемый интервал. Прежде чем переходить к электронным расчетам, потренируйтесь «на бумаге», чтобы понимать, как выбирать параметры и что влияет на исход события.

Пошаговый гайд, как применить критерий Пирсона:

  1. Сформулируйте гипотезу. 0 ― вы считаете, что связи между данными нет, 1 ― что есть.
  2. Соберите статистику и составьте таблицу, где будут варианты комбинаций. К примеру: влияние пола на предпочтение в марки машин: да/нет.
  3. Вычислите критерий хи-квадрат по формуле:
  4. Рассчитайте степень свободы (сколько может быть интерпретаций).
  5. Определите уровень значимости.
  6. Сравните результат с показателями в таблице.
  7. Подведите итог: коррелируются параметры или нет.

Заключение

Коротко о главном:

  • Критерий хи-квадрат применяют аналитики, статистики, маркетологи и ученые, чтобы доказать или опровергнуть допущение. Формула основана на законе нормального распределения Гаусса.
  • В качестве параметров выбирают категориальную группу.
  • Чтобы результат был полезным, нужно выбрать как минимум 50 переменных. 
  • Для ручного расчета исследователи используют таблицу параметров хи-квадрат, в которой указаны степени свободы и пограничные статистические значения.
Редактор блога Calltouch
Нет времени читать?
Оцените
Поделитесь с друзьями
Лучшие маркетинговые практики — каждый месяц в дайджесте Calltouch
Подписывайтесь сейчас и получите 13 чек-листов маркетолога
У вас интересный материал?
Опубликуйте статью в нашем блоге
Опубликовать статью
Хотите получить актуальную подборку кейсов?
Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900р.
[contact-form-7 404 "Not Found"]
У нас тут cookies…
На сайте используются файлы cookies. Продолжая использование сайта, вы соглашаетесь с этим. Подробности об обработке ваших данных — в политике использования файлов cookie.
Вставить формулу как
Блок
Строка
Дополнительные настройки
Цвет формулы
Цвет текста
#333333
Используйте LaTeX для набора формулы
Предпросмотр
\({}\)
Формула не набрана
Вставить