Главная | Блог | Темы | Бизнес | Что такое дисперсия в статистике и формула ее расчетаЧто такое дисперсия в статистике и формула ее расчета 19 августа 2024 14 мин на чтение 6 942 Нина ОпалькоРедактор блога Calltouch Содержание Нет времени читать? Дисперсия ― один из главных показателей в аналитике. Она показывает статистику того, насколько данные отклоняются от среднего значения. Если результаты близки к середине, то дисперсия низкая, а если отдалены ― высокая. Чем выше дисперсия, тем больше непредсказуемости и рисков для бизнеса. Рассмотрим пример. Возьмем две группы студентов. После экзамена по статистике студенты первой группы получили или 4, или 5 баллов. А студенты второй группы подготовились хуже, поэтому у них больший разбег: от 3 до 5. Хотя средний балл может быть одинаковым, во второй группе дисперсия выше, потому что разброс между низшим и высшим показателями больше.Точки, вокруг которых считают разбег ― это среднее из общего массива показателей. А массив — это все, что нас окружает: ответы на тест, суммы продаж, стоимость инвестиций. Чтобы не анализировать интернет-магазин от руки на бумаге или в Excel, крупный и малый бизнес следит за статистикой в одном окне с помощью сквозной аналитики. Она покажет путь взаимодействия с клиентом и поможет понять, какие у компании слабые места. Сквозная аналитикаОценивайте эффективность всех рекламных кампаний в одном окне от клика до ROIВкладывайте в ту рекламу, которая приводит клиентов ПодробнееКогда нужно применять дисперсиюС дисперсией работают:ученые (химики, физики, биологи); статистики и аналитики;инвесторы и трейдеры;инженеры. Еще показатель применяют в бизнесе. Дисперсия поможет:понять, насколько предсказуемо себя ведет ряд данных;оценить финансовые риски;спрогнозировать риски рекламной кампании;увидеть риски инвестиций, их прибыльность или убыточность;понять разброс выручки среди конкурентов и сравнить компанию с ними.Дисперсия очень похожа на стандартное отклонение. Но его формула проще, поэтому возникает вопрос, нужна ли дисперсия. В этом случае один показатель можно вычислить, исходя из второго. Дисперсия удобнее для статистики и при работе с регрессией. Плюс дисперсии в том, что она учитывает любые колебания: как в плюс, так и в минус. Квадраты отклонений — это мы разберем в формуле ниже — не могут равняться 0, поэтому создается видимость стабильности.Но есть и минусы: если результаты далеки от среднего значения, возведение в квадрат сильно исказит данные. Если у пользователя нет опыта работы с дисперсией, он может неверно интерпретировать признак. Формула дисперсииОсновная формула дисперсии выглядит так:На первый взгляд это кажется сложным. На практике, чтобы вычислить дисперсию, хватит и школьных знаний. Рассмотрим еще один пример.Допустим, мы хотим проанализировать семь точек с кофе. У нас есть такие данные:Цена на кофеКоличество проданных единиц15015170201803014025160401501027518Для расчета дисперсии понадобится:Найти среднюю цену. То есть среднее значение (X̄). Для этого сложим цены и поделим на общее число данных (количество строк в таблице):(150 + 170 + 180 + 140 + 160 + 150 + 275) / 7 = 175Узнать разницу между каждым значением и средним показателем (X̄). На отрицательные значения не обращаем внимания.Цена на кофеРазница Х – X̄150-25170-51805140-35160-15150-25275100Возвести каждую величину в квадрат. Это уберет минусы и усилит отклонения.Разница Х – X̄Показатель в квадрате ((X – X̄)²)-25625-525525-351225-15225-2562510010 000Вычислить сумму показателей в квадрате:625 + 25 + 25 + 1225 + 225 + 625 + 10 000 = 12 750Найти дисперсию. Для этого разделим сумму показателей в квадрате на общее количество данных:12 750 / 7 = 1821,4Дисперсия продаж кофейных точек — 1821,4 (в квадратных рублях).Еще дисперсию рассчитывают для выборки. Разброс будет выше, и это логично, ведь мы не можем проанализировать данные всех кофеен в городе. Для расчета по случайной выборке выполняют те же действия, кроме последнего. Но делитель будет не 7, а 6. То есть во внимание принимают только шесть показателей. Общая формула выглядит так:Рассчитаем:12 750 / 6 = 2 125 (квадратных рубля).Вот еще один пример работы с дисперсией в сфере финансов. Исходные данные такие:Доходность акций компании «Глобус» — 12% в первый год, 25% во второй и -7% в третий.Разница между каждым доходом и средним показателем составит: 10% (12 + 25 – 7) / 3.Разница между каждой доходностью и средним показателем: 2%, 15%, -17% соответственно.При возведении данных в квадрат получаем: 0,4%, 2,25%, 2,89%.При сложении квадратов дисперсии получаем: 5,54%.Так как это не все данные, а только выборка, мы будем делить квадрат дисперсии на сумму показателей минус один. То есть мы получим 2,77% или 0,0277 (2,77% / 100%). Когда мы извлечем квадратный корень из дисперсии, то получим 0,166. То есть отклонение доходности — 16,6%.Вручную посчитать большие массивы данных невозможно. Для этого отлично подойдет Excel. Расчет дисперсии в ExcelВ Excel для расчета дисперсии используют две формулы: ДИСП.Г ― по общей или генеральной совокупности данных (программа охватывает весь массив данных для исследования);ДИСП.В ― по выборке (берет выборочную совокупность чисел, которая характеризует разброс данных). Начнем с формулы ДИСП.Г. Можно отобрать ячейки от 1 до 255. Чтобы вычислить показатель для диапазона данных, следуйте инструкции:Определите диапазон данных и ячейку, где будет рассчитана дисперсия. Введите в ячейку формулу: «=ДИСП.Г», дальше — выберите диапазон для расчета и нажмите Enter.Формулу также рассчитывают через вставку функции. Это удобно, если нужно выделить несколько диапазонов сразу. Генеральная дисперсия показывает, как далеко показатели выборки разбросаны вокруг среднего значения. Если дисперсия равна нулю, то все данные одинаковые. Это можно проверить так:Когда к информации сложно получить доступ или невозможно проанализировать массив данных из-за его объема, выбирают расчет дисперсии по выборке. Чтобы скорректировать погрешности, в знаменателе ориентируются не на количество наблюдений «N», а на 1 меньше. То есть «N-1». Для расчета показателя в Excel подойдет формула «ДИСП.В». Параметр несмещенной выборочной дисперсии действительно получился выше, чем в генеральной. Но если мы увеличим выборку, к примеру, до 100 или до 200, то разница между ними будет несущественна.Взаимосвязь дисперсии с другими статистическими показателямиСаму по себе дисперсию не используют — это вспомогательный показатель. Его рассчитывают, чтобы узнать коэффициент корреляции или для проверки гипотез. Разберем подробнее каждый из параметров, с которым ее используют:Стандартное отклонение. Если возвести его в квадрат, получится дисперсия. Иногда показатель отклонения полезнее и понятнее, чем дисперсия. Почему? Мы удаляем корень вместе с единицами измерения, и таким образом сравниваем разные показатели. Например, если изменения в Х на 2 единицы влекут за собой изменения в Y на 4 единицы, то можно установить взаимосвязь между ними. Это актуально, даже если X измеряется в рублях, а Y — в килограммах. В Excel среднее квадратичное отклонение рассчитывают по формуле «СТАНДОТКЛОН.Г».Коэффициент вариации или относительное стандартное отклонение (СТАНДОТКЛОН.В). Как правило, его используют в процентном выражении. Так сравнивают однородность данных. Его часто используют в химии для точности анализа. В статистике принято считать, что результат меньше 10% — это низкий разброс показателей. От 10 до 20% ― среднее рассеивание, а от 20% до 33% ― значительное. Но это не значит, что если число выше 33%, то нужно паниковать. Границы выставлены для общего сравнения. Коэффициент осцилляции. Его рассчитывают как отношение разбега вариации к среднему числу. Размах вариации ― разница между наивысшим и наинизшим показателями. Единой формулы в Excel нет, поэтому используют комбинацию нескольких формул: =МАКС()-МИН()/СРЗНАЧ(). Коэффициент параметра показывает разбег вариации относительно среднего значения. Другими словами, если условная средняя ― 50, то осцилляция покажет, насколько далеки от этого числа остальные показатели. Если использовать все эти функции в совокупности, то понять и разброс, и однородность данных проще. ЗаключениеДисперсия показывает разброс между числами в диапазоне данных. Чем меньше показатель, тем выше определенность. Инвесторы и финансисты используют дисперсию, чтобы оценить риски и прибыльность компании.Дисперсию по генеральной совокупности рассчитывают из всего диапазона чисел. Если нет возможности изучить все элементы, то разброс точнее покажет дисперсия по выборке. Он окажется выше, но показатель будет ближе к истине. Чем больше диапазон данных, тем менее значительным становится разрыв между генеральной и выборочной параметрами.Дисперсия никогда не применяют как самостоятельный параметр. Ее используют вместе со среднеквадратичным отклонением, коэффициентом вариации и осцилляции. Нина ОпалькоРедактор блога Calltouch