Как находится медиана. Медиана. Подробная теория с примерами. Структурные средние величины

Кроме степенных средних в статистике для относительной характеристики величины варьирующего признака и внутреннего строения рядов распределения пользуются структурными средними, которые представлены,в основном, модой и медианой .

Мода — это наиболее часто встречающийся вариант ряда. Мода применяется, например, при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте), а затем — значение модальной величины признака по формуле:

Медиана - это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:

М е = (n (число признаков в совокупности) + 1)/2,

в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда).

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:

Пример . Найти моду и медиану.

Решение :
В данном примере модальный интервал находится в пределах возрастной группы 25-30 лет, так как на этот интервал приходится наибольшая частота (1054).

Рассчитаем величину моды:

Это значит что модальный возраст студентов равен 27 годам.

Вычислим медиану. Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта, которая делит совокупность на две равные части (Σf i /2 = 3462/2 = 1731). Далее подставляем в формулу необходимые числовые данные и получаем значение медианы:

Это значит что одна половина студентов имеет возраст до 27,4 года, а другая свыше 27,4 года.

Кроме моды и медианы могут быть использованы такие показатели, как квартили, делящие ранжированный ряд на 4 равные части, децили -10 частей и перцентили — на 100 частей.

Квантили - величины, разделяющие совокупность на определенной количество равных по численности элементов частей. Наиболее известные - медиана, квартили, децили, перцентили.

1) Самый известный квантиль - медиана , делящая совокупность на две равные части. Кроме медианы часто используются квартили, делящие ранжированный ряд на 4 равные части, децили -10 частей и перцентили — на 100 частей.

Медиана для дискретного ряда.

Для определения медианы в дискретном ряду сначала порядковый номер медианы по формуле: , а затем о пределяют, какое значение признака обладает накопленной частотой, равной номеру медианы.

Если ряд содержит четное число элементов, то номер медианы будет нецелым числом и медиана будет равна средней из двух значений признака, находящихся в середине. Номер первого из этих признаков - целая часть номера медианы, для второго - номер медианы, округленный до целого числа.

Медиана для интервального ряда

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана.

Для этого:

1) определяется номер медианы по формуле: ,

2) затем по накопленной частоте определяется интервал, в который входит элемент с таким номером,

3) затем — значение медианы по формуле:

- — искомая медиана

- — нижняя граница интервала, который содержит медиану

- i — ширина интервала (верхняя граница интервала - нижняя граница)

- — сумма частот или число элементов в группе

Накопленная частота интервала, предшествующего медианному

- — частота медианного интервала

Пример . Найти моду и медиану для интервального ряда.

Решение :

1) Определим моду

В данном примере модальный интервал находится в пределах возрастной группы 25-30 лет, так как на этот интервал приходится наибольшая частота (1054).

Рассчитаем величину моды:

Это значит, что модальный возраст студентов равен 27 годам.

2) Определим медиану.

Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта, которая делит совокупность на две равные части (Σf i /2 = 3462/2 = 1731). Далее подставляем в формулу необходимые числовые данные и получаем значение медианы:

Это значит, что одна половина студентов имеет возраст до 27,4 года, а другая свыше 27,4 года.


2) Квартили

Квартили представляют собой значение признака, делящее ранжированную совокупность на четыре равные по количеству элементов части.

Различают квартиль первого порядка (нижний квартиль) , квартиль третьего порядка (верхний квартиль) . Первый (нижний) квартиль отсекает от совокупности ¼ часть единиц с минимальными значениями, а третий (верхний) отсекает ¼ часть единиц с максимальными значениями, второй квартиль является медианой. Второй квартиль делит совокупность на две равные части и является медианой.

Для расчёта квартилей можно поделить вариационный ряд медианой на две равные части, а затем в каждой из них найти медиану.

К примеру, если выборка состоит из 6 элементов, тогда за начальную квартиль выборки принимается второй элемент, а за нижнюю квартиль пятый элемент.

медиана

В случае, если вариационный ряд состоит к примеру, из 9 элементов, тогда за верхнюю квартиль принимают арифм. среднее 2-го и 3-го элеметов, а за нижнюю арифм. среднее 7-го и 8-го элементов.

медиана

1 квартиль 3 квартиль

Расчет квартилей для дискретного ряда :

Расчет квартилей для дискретного ряда:

1. В дискретном ряду сначала определяют номера (позиции) квартилей :

позиция 1-го квартиля

позиция 3-го квартиля

2. Если номер квартиля - целое число, то значение квартиля будет равно величине элемента ряда, которое обладает накопленной частотой равной номеру квартиля. Например, номер квартиля равен 20, его значение будет равно значению признака с S =20 (накопленной частотой равной 20).

Если номер квартиля - нецелое число, то квартилем будет условное число между двумя наблюдениями. Значением квартиля будет сумма, состоящая из значения элемента, для которого накопленная частота равна целому значению номера квартиля, и указанной части (нецелая часть номера квартиля) разности между значением этого элемента и значением следующего элемента.

Например, если номер квартиля равна 20,25, квартиль попадает между 20-м и 21-м наблюдениями, и его значение будет равно значению 20-го наблюдения плюс 1/4 (0,25) разности между значением 20-го и 21-го наблюдений.

Расчет квартилей для интервального ряда:

Для расчета квартилей для интервального ряда:

1) Определяем номер квартиля,

2) Определяем квартильный интервал,

3) Рассчитываем квартиль по формуле:

Нижняя граница интервала, содержащего первый квартиль. Интервал определяется по накопленной частоте интервалов
- нижняя граница интервала, содержащего третий квартиль. Интервал определяется по накопленной частоте интервалов
- ширина интервала
- накопленная частота интервала, предшествующего интервалу, содержащему первый квартиль
- накопленная частота интервала, предшествующего интервалу, содержащему третий квартиль
- частота интервала, содержащего первый квартиль
- частота интервала, содержащего третий квартиль

Медиана (статистика) , в математической статистике - число, характеризующее выборку (например, набор чисел). Если все элементы выборки различны, то медиана - это такое число выборки, что ровно половина из элементов выборки больше него, а другая половина меньше него. В более общем случае медиану можно найти, упорядочив элементы выборки по возрастанию или убыванию и взяв средний элемент. Например, выборка {11, 9, 3, 5, 5} после упорядочивания превращается в {3, 5, 5, 9, 11} и её медианой является число 5. Если в выборке чётное число элементов, медиана может быть не определена однозначно: для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4).

Другими словами, медианой в статистике называется значение, которое делит ряд пополам таким образом, что по обе стороны от нее (вниз или вверх) расположено одинаковое число единиц данной совокупности. Из-за этого свойства данный показатель имеет еще несколько названий: 50-й перцентиль или квантиль 0,5.

Медиану используют вместо средней арифметической, когда крайние варианты ранжированного ряда (наименьшая и наибольшая) по сравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.

Функция МЕДИАНА измеряет центральную тенденцию, которая является центром множества чисел в статистическом распределении. Существует три наиболее распространенных способа определения центральной тенденции:

  • Среднее значение - среднее арифметическое, которое вычисляется сложением множества чисел с последующим делением полученной суммы на их количество.
    Например , средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5, которое является результатом деления их суммы, равной 30, на их количество, равное 6.
  • Медиана - число, которое является серединой множества чисел: половина чисел имеют значения большие, чем медиана, а половина чисел - меньшие.
    Например , медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.
  • Мода - число, наиболее часто встречающееся в данном множестве чисел.
    Например , модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

называется вариант, расположенный в центре ранжированного ряда.

Медиана делит ряд на две равные части таким образом, что по обе стороны от нее находится одинаковое количество единиц совокупности. При этом у одной половины единиц совокупности значение варьирующего признака не больше медианы, у другой - не меньше. .

Для дискретного ряда,

медиану находим по следующему алгоритму:

Ранжируем ряд,

Если выборка содержит нечетное количество элементов, медиана равна (n+1)/2 -му элементу,

Если выборка содержит четное количество элементов, медиана лежит между двумя средними элементами выборки и равна среднему арифметическому, вычисленному по этим двум элементам.

Пример 1 . Найти медиану дискретного ряда

16,13,15,10,19,22,25,12,18,14,19,14,16,10.

Решение. Ранжируем ряд: 10,10,12,13,14,14,15,16,16,18,19,19,22,25, выборка содержит четное число элементов n=14, следовательно медиана лежит между двумя средними элементами выборки - между 7-элементом и 8-элементом:

10,10,12,13,14,14,15,16, 16,18,19,19,22,25

и равна среднему арифметическому этих элементов:

Me=(15+16)/2=15,5

Найти медиану дискретного ряда, можно онлайн, с помощью данного калькулятора. Калькулятор автоматически ранжирует ряд и вычисляет медиану.

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:

Пример 2. Найти медиану интервального ряда:


Решение :

Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта, которая делит совокупность на две равные части

(Σf i /2 = 3462/2 = 1731).


Это значит что одна половина студентов имеет возраст до 27,4 года, а другая свыше 27,4 года.

ОСОБЕННОСТИ

  • Медиана обладает высокой робастностью , то есть нечувствительностью к неоднородностям и ошибкам выборки.
  • Сумма разностей между членами ряда выборки и медианой меньше, чем сумма этих разностей с любой другой величиной. В том числе с арифметическим средним.

Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (среднее арифметическое) или максимальную частоту (мода), но и как некоторую отметку (значение в совокупности), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Половина исходных данных меньше этой отметки, а половина – больше. Это и есть медиана .

Итак, медиана в статистике – это уровень показателя, который делит набор данных на две равные половины. Значения в одной половине меньше, а в другой больше медианы. В качестве примера обратимся к набору случайных чисел.

Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение.

Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше. Но если в процессе присутствует важный и неконтролируемый фактор, то могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану.

Медиана выборки – это альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам).

Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объектов около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.).

Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

№ Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана обозначается, как

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.

Для начала (после ранжирования данных) находят медианный интервал . Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Обратимся к наглядной схеме.

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

где x Me - нижняя граница медианного интервала;

i Me - ширина медианного интервала;

∑f/2 - количество всех значений, деленное на 2 (два);

S (Me-1) - суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

f Me - число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.

Для примера рассчитаем медиану по следующим данным.

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Расчет медианы в Excel

Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА . Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.

Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:

Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.