Найти коэффициент корреляции случайных величин. Корреляционный момент и коэффициент корреляции

Для описания системы двух случайных величин, кроме математических ожиданий и дисперсий составляющих пользуются и другими характеристиками, к числу которых относятся корреляционный момент икоэффициент корреляции (кратко было упомянуто в конце Т.8.п.8.6).

Корреляционным моментом (иликовариацией, или моментом связи ) двух случайных величинX иY называется м. о. произведения отклонений этих величин (см. равенство (5) п. 8.6):

Следствие 1. Длякорреляционного момента с.в. X иY также справедливы равенства:

,

где соответствующие централизованные с.в.X иY (см. п.8.6.).

При этом: если
- двумерная д.с.в., то ковариация вычисляется по формуле

(8)
;

если
- двумерная н.с.в., то ковариация вычисляется по формуле

(9)

Формулы (8) и (9) получены на основании формул (6) п.12.1. Имеет место вычислительная формула

(10)

которая выводится из определения (9) и на основании свойств м.о., действительно,

Следовательно, формул (36) и (37) можно переписать в виде

(11)
;

Корреляционный момент служит для характеристики связи между величинами X иY .

Как будет показано ниже, корреляционный момент равен нулю, если X иY являются независимыми;

Следовательно, если корреляционный момент не равен нулю, то X и Y – зависимые случайные величины.

Теорема12.1. Корреляционный момент двух независимых случайных величин X и Y равен нулю, т.е. для независимых с.в. X и Y ,

Доказательство. Так какX иY независимые случайные величины, то их отклонения

и

т акже независимы. Пользуясь свойствами математического ожидания (математическое ожидание произведения независимых с. в. равно произведению математических ожиданий сомножителей
,
, поэтому

Замечание. Из этой теоремы следует, что если
то с.в. X иY зависимы и в таких случаях с.в. X иY называюткоррелированными . Однако из того, что
не следует независимость с.в.X иY .

В этом случае (
с.в.X иY называютнекоррелированными, тем самым из

независимости вытекает некоррелированность ; обратное утверждение, вообще говоря, неверно (см. далее пример 2.)

Рассмотрим основные свойства корреляционного момента.

C войства ковариации:

1. Ковариация симметрична, т.е.
.

Непосредственно следует из формулы (38).

2. Имеют место равенства:т.е. дисперсия с.в. является ковариацией её с самой собой.

Эти равенства прямо следуют из определения дисперсии и равенство (38) соотвеиственно при

3. Справедливы равенства:

Эти равенства выводятся из определения дисперсии, ковариации с.в.
и, свойств 2.

По определению дисперсии (с учётом централизованности с.в.
) мы имеем

теперь, на основании (33) и свойств 2 и 3, получим первое (со знаком плюс) свойство 3.

Аналогично, вторая часть свойства3, выводится из равенство

4. Пусть
постоянные числа,
тогда справедливы равенства:

Обычно эти свойства называются свойствами однородностью первого порядка и периодичностью по аргументам.

Докажем первое равенство, при этом будем использовать свойства м.о.
.

Теорема 12.2. Абсолютное значение корреляционного момента двух произвольных случайных величин X и Y не превышает среднего геометрического их дисперсий: т.е.

Доказательство. Заметим, чтодля независимых с.в. неравенство выполняется (с.м. теорему 12.1.). Итак, пусть с.в.X и Y зависимые. Рассмотрим стандартные с.в.
и
и вычислим дисперсию с.в.
с учётом свойства 3, имеем: с одной стороны
С другой стороны

Следовательно, с учётом того, что
и- нормированные (стандартизированные) с.в., то для них м.о. равна нулю, а дисперсия равна 1, поэтому, пользуясь свойством м.о.
получим

а следовательно, на основании того, что
получим

Отсюда следует, что т.е.

=

Утверждение доказано.

Из определения и свойства ковариации следует, что она характеризует и степень зависимости с.в., и их рассеяния вокруг точки
Размерность ковариации равна произведению размерностей случайных величинX иY . Другими словами, величина корреляционного момента зависит от единиц измерения случайных величин. По этой причине для одних и тех же двух величинX иY , величина корреляционного момента будет иметь различные значения в зависимости от того, в каких единицах были измерены величины.

Пусть, например, X и Y были измерены в сантиметрах и
; если измерить X иY в миллиметрах, то
Эта особенность корреляционного момента и есть недостатком этой числовой характеристики, так как сравнение корреляционных моментов различных систем случайных величин становится затруднительным.

Для того чтобы устранить этот недостаток, вводят новую числовую характеристику- - «коэффициент корреляции ».

Коэффициентом корреляции
случайных величин
иназывают отношение корреляционного момента к произведению средних квадратических отклонений этих величин:

(13)
.

Так как размерность
равна произведению размерностей величин
и,
имеет размерность величины
σ y имеет размерность величины, то
есть просто число (т.е. «безразмерная величина» ). Таким образом, величина коэффициента корреляции не зависит от выбора единиц измерения с.в., в этом состоитпреимущество коэффициента корреляции перед корреляционным моментом.

В Т.8. п.8.3 нами было введено понятие нормированной с.в.
, формула (18), и доказана теорема о том, что
и
(см. там же теорема 8.2.). Здесь докажем следующее утверждение.

Теорема 12.3. Длялюбых двух случайных величин
и справедливо равенство
.Другими словами, коэффициент корреляции
любых двух с
.в .X и Y равно корреляционному моменту их соответствующих нормированных с.в.
и .

Доказательство. По определениюнормированных случайных величин
и

и
.

Учитывая свойство математического ожидания: и равенство (40) получим

Утверждение доказано.

Рассмотрим некоторые часто встречающие свойства коэффициента корреляции.

Свойства коэффициента корреляции:

1. Коэффициент корреляции по абсолютной величине непревосходит 1, т.е.

Это свойство прямо следует из формулы (41) - определения коффициента корреляции и теоремы 13.5. (см. равенство (40)).

2. Если случайные величины
инезависимы, токоэффициент корреляции равен нулю, т.е.
.

Это свойство является прямым следствием равенства (40) и теоремы 13.4.

Следующее свойство сформулируем в виде отдельной теоремы.

Теорема 12.4.

Если с.в.
имежду собой связаны линейной функциональной зависимостью, т.е.
то

при этом

и наоборот, если
,
то с.в.
и между собой связаны линейной функциональной зависимостью, т.е. существуют постоянные
и
такие, что имеет место равенство

Доказательство. Пусть
тогда на основании свойства 4 ковариации, имеем

и поскольку, , поэтому

Следовательно,
. Равенство в одну сторону получено. Пусть далее,
, тогда

следует рассматривать два случая:1)
и 2)
Итак, рассмотрим первый случай. Тогда по определению
и следовательно из равенства
, где
. В нашем случае
, поэтому из равенства (см. доказательство теоремы 13.5.)

=
,

получаем, что
, значит
постоянна. Так как
и поскольку, то
действительно,

.

Следовательно,


.

Аналогично, показывается, что для
имеет место (проверьте самостоятельно!)

,
.

Некоторые выводы:

1. Если
инезависимыес.в., то

2. Если с.в.
имежду собой связаны линейно, то
.

3. В остальных случаях
:

В этом случае говорят, что с.в.
исвязаны между собойположительной корреляцией, если
в случаях же
отрицательной корреляцией . Чем ближе
к единице, тем больше оснований считать, чтос.в.
исвязаны линейной зависимостью.

Отметим, что корреляционные моменты и дисперсии системы с.в. обычно задаются корреляционной матрицей :

.

Очевидно, что определитель корреляционной матрицы удовлетворяет:

Как уже было отмечено, если две случайные величины зависимы, то они могут быть как коррелированными , так инекоррелированными. Другими словами, корреляционный момент двух зависимых величин может бытьне равен нулю , но может иравняться нулю.

Пример 1. Закон распределения дискретной с.в.задан таблицей


Найти коэффициент корреляции

Решение. Находим законы распределения составляющих
и:


Теперь вычислим м.о. составляющих:

Этих величин можно было находить на основании таблицы распределения с.в.

Аналогично,
находите самостоятельно.

Вычислим дисперсии составляющих при это будем пользоваться вычислительной формулой:

Составим закон распределения
, а затем найдём
:

При составлении таблицы закона распределения следует выполнять действия:

1) оставить лишь различные значения всевозможных произведений
.

2) для определения вероятности данного значения
, нужно

складывать все соответствующие вероятности, находящиеся на пересечении основной таблицы, благоприятствующие наступлению данного значения.

В нашем примере с.в.принимает всего три различных значения
. Здесь первое значение (
) соответствует произведению
из второй строки и
из первого столбца, поэтому на их пересечении находится вероятностное число
аналогично

которое получено из суммы вероятностей, находящихся на пересечениях соответственно первой строки и первого столбца (0,15 ; 0,40; 0,05) и одно значение
, которое находится на пересечении второй строки и второго столбца, и наконец,
, которое находится на пересечении второй строки и третьего столбца.

Из нашей таблицы находим:

Находим корреляционный момент, используя формулу (38):

Находим коэффициент корреляции по формуле (41)

Таким образом, отрицательная корреляция.

Упражнение. Закон распределения дискретной с.в. задан таблицей


Найти коэффициент корреляции

Рассмотрим пример, где окажется две зависимые случайные величины могут бытьнекоррелированными.

Пример 2. Двумерная случайная величина
)
задана функцией плотностью

Докажем, что
и зависимые , нонекоррелированные случайные величины.

Решение. Воспользуемся ранее вычисленными плотностями распределения составляющих
и :

Так как ,то
изависимые величины. Для того, чтобы доказать некоррелированность
и, достаточно убедиться в том, что

Найдем корреляционный момент по формуле:

Поскольку дифференциальная функция
симметрична относительно оси OY , то
аналогично
, в силу симметрии
относительно оси OX . Поэтому,

вынося постоянный множитель

Внутренний интеграл равен нулю (подынтегральная функция нечетна, пределы интегрирования симметричны относительно начала координат), следовательно,
, т.е. зависимые случайные величины
и между собой некоррелируют.

Итак, из коррелированности двух случайных величин следует их зависимость, но из некоррелированности ещё нельзя заключить о независимости этих величин.

Однако, для нормально распределённых с.в. такой вывод является исключением, т.е. из некоррелированности нормально распределенных с.в. вытекает их независимость .

Этому вопросу посвящается следующий пункт.

Для описания системы двух случайных величин, кроме математических ожиданий и дисперсий составляющих пользуются и другими характеристиками, к числу которых относятся корреляционный момент икоэффициент корреляции (кратко было упомянуто в конце Т.8.п.8.6).

Корреляционным моментом (иликовариацией, или моментом связи ) двух случайных величинX иY называется м. о. произведения отклонений этих величин (см. равенство (5) п. 8.6):

Следствие 1. Длякорреляционного момента с.в. X иY также справедливы равенства:

,

где соответствующие централизованные с.в.X иY (см. п.8.6.).

При этом: если
- двумерная д.с.в., то ковариация вычисляется по формуле

(8)
;

если
- двумерная н.с.в., то ковариация вычисляется по формуле

(9)

Формулы (8) и (9) получены на основании формул (6) п.12.1. Имеет место вычислительная формула

(10)

которая выводится из определения (9) и на основании свойств м.о., действительно,

Следовательно, формул (36) и (37) можно переписать в виде

(11)
;

Корреляционный момент служит для характеристики связи между величинами X иY .

Как будет показано ниже, корреляционный момент равен нулю, если X иY являются независимыми;

Следовательно, если корреляционный момент не равен нулю, то X и Y – зависимые случайные величины.

Теорема12.1. Корреляционный момент двух независимых случайных величин X и Y равен нулю, т.е. для независимых с.в. X и Y ,

Доказательство. Так какX иY независимые случайные величины, то их отклонения

и

т акже независимы. Пользуясь свойствами математического ожидания (математическое ожидание произведения независимых с. в. равно произведению математических ожиданий сомножителей
,
, поэтому

Замечание. Из этой теоремы следует, что если
то с.в. X иY зависимы и в таких случаях с.в. X иY называюткоррелированными . Однако из того, что
не следует независимость с.в.X иY .

В этом случае (
с.в.X иY называютнекоррелированными, тем самым из независимости вытекаетнекоррелированность ; обратное утверждение, вообще говоря, неверно (см. далее пример 2.)

Рассмотрим основные свойства корреляционного момента.

C войства ковариации:

1. Ковариация симметрична, т.е.
.

Непосредственно следует из формулы (38).

2. Имеют место равенства:т.е. дисперсия с.в. является ковариацией её с самой собой.

Эти равенства прямо следуют из определения дисперсии и равенство (38) соответственно при

3. Справедливы равенства:

Эти равенства выводятся из определения дисперсии, ковариации с.в.
и, свойств 2.

По определению дисперсии (с учётом централизованности с.в.
) мы имеем

теперь, на основании (33) и свойств 2 и 3, получим первое (со знаком плюс) свойство 3.

Аналогично, вторая часть свойства3, выводится из равенство

4. Пусть
постоянные числа,
тогда справедливы равенства:

Обычно эти свойства называются свойствами однородностью первого порядка и периодичностью по аргументам.

Докажем первое равенство, при этом будем использовать свойства м.о.
.

Теорема 12.2. Абсолютное значение корреляционного момента двух произвольных случайных величин X и Y не превышает среднего геометрического их дисперсий: т.е.

Доказательство. Заметим, чтодля независимых с.в. неравенство выполняется (с.м. теорему 12.1.). Итак, пусть с.в.X и Y зависимые. Рассмотрим стандартные с.в.
и
и вычислим дисперсию с.в.
с учётом свойства 3, имеем: с одной стороны
С другой стороны

Следовательно, с учётом того, что
и- нормированные (стандартизированные) с.в., то для них м.о. равна нулю, а дисперсия равна 1, поэтому, пользуясь свойством м.о.
получим

а следовательно, на основании того, что
получим

Отсюда следует, что т.е.

=

Утверждение доказано.

Из определения и свойства ковариации следует, что она характеризует и степень зависимости с.в., и их рассеяния вокруг точки
Размерность ковариации равна произведению размерностей случайных величинX иY . Другими словами, величина корреляционного момента зависит от единиц измерения случайных величин. По этой причине для одних и тех же двух величинX иY , величина корреляционного момента будет иметь различные значения в зависимости от того, в каких единицах были измерены величины.

Пусть, например, X и Y были измерены в сантиметрах и
; если измерить X иY в миллиметрах, то
Эта особенность корреляционного момента и есть недостатком этой числовой характеристики, так как сравнение корреляционных моментов различных систем случайных величин становится затруднительным.

Для того чтобы устранить этот недостаток, вводят новую числовую характеристику- - «коэффициент корреляции ».

Коэффициентом корреляции
случайных величин
иназывают отношение корреляционного момента к произведению средних квадратических отклонений этих величин:

(13)
.

Так как размерность
равна произведению размерностей величин
и,
имеет размерность величины
σ y имеет размерность величины, то
есть просто число (т.е. «безразмерная величина» ). Таким образом, величина коэффициента корреляции не зависит от выбора единиц измерения с.в., в этом состоитпреимущество коэффициента корреляции перед корреляционным моментом.

В Т.8. п.8.3 нами было введено понятие нормированной с.в.
, формула (18), и доказана теорема о том, что
и
(см. там же теорема 8.2.). Здесь докажем следующее утверждение.

Теорема 12.3. Длялюбых двух случайных величин
и справедливо равенство
.Другими словами, коэффициент корреляции
любых двух с
.в .X и Y равно корреляционному моменту их соответствующих нормированных с.в.
и .

Доказательство. По определениюнормированных случайных величин
и

и
.

Учитывая свойство математического ожидания: и равенство (40) получим

Утверждение доказано.

Рассмотрим некоторые часто встречающие свойства коэффициента корреляции.

Свойства коэффициента корреляции:

1. Коэффициент корреляции по абсолютной величине непревосходит 1, т.е.

Это свойство прямо следует из формулы (41) - определения коффициента корреляции и теоремы 13.5. (см. равенство (40)).

2. Если случайные величины
инезависимы, токоэффициент корреляции равен нулю, т.е.
.

Это свойство является прямым следствием равенства (40) и теоремы 13.4.

Следующее свойство сформулируем в виде отдельной теоремы.

Теорема 12.4.

Если с.в.
имежду собой связаны линейной функциональной зависимостью, т.е.
то

при этом

и наоборот, если
,
то с.в.
и между собой связаны линейной функциональной зависимостью, т.е. существуют постоянные
и
такие, что имеет место равенство

Доказательство. Пусть
тогда на основании свойства 4 ковариации, имеем

и поскольку, , поэтому

Следовательно,
. Равенство в одну сторону получено. Пусть далее,
, тогда

следует рассматривать два случая:1)
и 2)
Итак, рассмотрим первый случай. Тогда по определению
и следовательно из равенства
, где
. В нашем случае
, поэтому из равенства (см. доказательство теоремы 13.5.)

=
,

получаем, что
, значит
постоянна. Так как
и поскольку, то
действительно,

.

Следовательно,


.

Аналогично, показывается, что для
имеет место (проверьте самостоятельно!)

,
.

Некоторые выводы:

1. Если
инезависимыес.в., то

2. Если с.в.
имежду собой связаны линейно, то
.

3. В остальных случаях
:

В этом случае говорят, что с.в.
исвязаны между собойположительной корреляцией, если
в случаях же
отрицательной корреляцией . Чем ближе
к единице, тем больше оснований считать, чтос.в.
исвязаны линейной зависимостью.

Отметим, что корреляционные моменты и дисперсии системы с.в. обычно задаются корреляционной матрицей :

.

Очевидно, что определитель корреляционной матрицы удовлетворяет:

Как уже было отмечено, если две случайные величины зависимы, то они могут быть как коррелированными , так инекоррелированными. Другими словами, корреляционный момент двух зависимых величин может бытьне равен нулю , но может иравняться нулю.

Пример 1. Закон распределения дискретной с.в.задан таблицей


Найти коэффициент корреляции

Решение. Находим законы распределения составляющих
и:


Теперь вычислим м.о. составляющих:

Этих величин можно было находить на основании таблицы распределения с.в.

Аналогично,
находите самостоятельно.

Вычислим дисперсии составляющих при это будем пользоваться вычислительной формулой:

Составим закон распределения
, а затем найдём
:

При составлении таблицы закона распределения следует выполнять действия:

1) оставить лишь различные значения всевозможных произведений
.

2) для определения вероятности данного значения
, нужно

складывать все соответствующие вероятности, находящиеся на пересечении основной таблицы, благоприятствующие наступлению данного значения.

В нашем примере с.в.принимает всего три различных значения
. Здесь первое значение (
) соответствует произведению
из второй строки и
из первого столбца, поэтому на их пересечении находится вероятностное число
аналогично

которое получено из суммы вероятностей, находящихся на пересечениях соответственно первой строки и первого столбца (0,15 ; 0,40; 0,05) и одно значение
, которое находится на пересечении второй строки и второго столбца, и наконец,
, которое находится на пересечении второй строки и третьего столбца.

Из нашей таблицы находим:

Находим корреляционный момент, используя формулу (38):

Находим коэффициент корреляции по формуле (41)

Таким образом, отрицательная корреляция.

Упражнение. Закон распределения дискретной с.в. задан таблицей


Найти коэффициент корреляции

Рассмотрим пример, где окажется две зависимые случайные величины могут бытьнекоррелированными.

Пример 2. Двумерная случайная величина
)
задана функцией плотностью

Докажем, что
и зависимые , нонекоррелированные случайные величины.

Решение. Воспользуемся ранее вычисленными плотностями распределения составляющих
и :

Так как ,то
изависимые величины. Для того, чтобы доказать некоррелированность
и, достаточно убедиться в том, что

Найдем корреляционный момент по формуле:

Поскольку дифференциальная функция
симметрична относительно оси OY , то
аналогично
, в силу симметрии
относительно оси OX . Поэтому, вынося постоянный множитель

Внутренний интеграл равен нулю (подынтегральная функция нечетна, пределы интегрирования симметричны относительно начала координат), следовательно,
, т.е. зависимые случайные величины
и между собой некоррелируют.

Итак, из коррелированности двух случайных величин следует их зависимость, но из некоррелированности ещё нельзя заключить о независимости этих величин.

Однако, для нормально распределённых с.в. такой вывод является исключением, т.е. из некоррелированности нормально распределенных с.в. вытекает их независимость .

Этому вопросу посвящается следующий пункт.

Ковариация и коэффициент корреляции.

Между случайными величинами может существовать функциональная или стохастическая (вероятностная) зависимость. Стохастическая зависимость проявляется в том, что условный закон распределения одной случайной величины изменяется в зависимости от значений, принимаемых другой случайной величиной. Одной из характеристик стохастической зависимости двух случайных величин является ковариация случайных величин.

Ковариацией случайных величин (X ,Y ) называется число равное математическому ожиданию произведения отклонений случайных величин X и Y от своих математических ожиданий:

Иногда ковариацию называют корреляционным моментом или вторым смешанным центральным моментом случайных величин (X ,Y ).

Используя определение математического ожидания, получим:

для дискретного распределения

для непрерывного распределения

При Y = X ковариация совпадает с дисперсией Х .

Величина корреляционного момента зависит от единиц измерения случайных величин. Это затрудняет сравнение корреляционных моментов различных систем случайных величин. Для устранения этого недостатка вводится новая числовая характеристика – коэффициент корреляции , который является

безразмерной величиной.

Для его вычисления заменим отклонения случайных величин от математических ожиданий их нормированными отклонениями, т.е.

Свойства коэффициента корреляции :

Пусть t – переменная величина в смысле математического анализа. Рассмотрим дисперсию случайной величины D (Y – tX ) как функцию переменной t .

По свойству дисперсии . Дискриминант в этом случае должен быть меньше либо равен нулю, т.е.

Откуда получим

2. Модуль коэффициента корреляции не меняется при линейных преобразованиях случайных переменных: , где , , – произвольные числа.

3. , тогда и только тогда, когда случайные величины X и Y связаны линейно, т.е. существуют такие числа a, b, что .

Если , то рассматриваемый в п.1 дискриминант равен нулю, а поэтому при некотором значение . Следовательно, величина и для некоторого С справедливо равенство , что требовалось доказать.

4. Если X и Y статистически независимы, то .

Свойства 2,4 проверяются непосредственно.

4.5.2. Коррелированность и зависимость системы случайных величин .

Необходимым условием независимости случайных величин X и Y является равенство нулю их корреляционного момента (или коэффициента корреляции). Однако равенство (или ) есть только необходимое, но недостаточное условие независимости.

Пример 1.

На рисунке изображены точки, лежащие на параболе , а .

В связи с этим вводится более узкое понятие некоррелированности (если ) или коррелированности (если ) случайных величин. Поэтому независимость случайных величин означает и некоррелированность () и, наоборот, коррелированность () – зависимость .

В общем случае, когда , точки (X,Y) будут разбросаны вокруг прямой тем более тесно, чем больше величина . Таким образом, коэффициент корреляции характеризует не любую зависимость между X и Y , а степень тесноты линейной зависимости между ними.

Так, в частности, даже при , т.е. при полном отсутствии линейной зависимости, между X и Y может существовать сколь угодно сильная статистическая и даже нелинейная функциональная зависимость (см. пример1).

При значениях говорят о положительной корреляции между X и Y , означающей, что обе переменные имеют одинаковую тенденцию к возрастанию или убыванию. При говорят об отрицательной корреляции, означающей противоположную тенденцию в изменении случайных величин X и Y , т.е. одна возрастает, а другая убывает или наоборот.

Если случайные величины X и Y распределены нормально, то из их некоррелированности следует и их независимость, так как

Если , то .

Для вычисления коэффициента корреляции продолжим пример 2 из §4.1. Воспользуемся формулой

.

M (X ×Y )=(-200)×(-100)×0,2 + (-200)×0×0,1 + (-200)×(100)×0,05 + 0×(-100)×0,05 + 0×0×0,25 + 0×100×0,02 + 200×(-100)×0,01 + 200×0×0,02 + 200×100×0,3 = 8800$;

; ;

.

Пример 2. Закон распределения системы двух случайных величин задан таблицей распределения

X Y
-1 0,01 0,06 0,05 0,04
0,04 0,24 0,15 0,07
0,05 0,01 0,01 0,09

Найти одномерные (маргинальные) законы распределения X и Y , их математические ожидания, дисперсии и коэффициент корреляции между X и Y .

Решение. Вероятности возможных значений дискретной случайной величины Х , входящей в систему, определяются формулой

, к =1, 2, 3, 4.

Поэтому одномерное распределение величины Х имеет следующий вид

Математические ожидания случайных величин X и Y :

M (X )=1,6; M (Y )=0,18.

Дисперсии случайных величин X и Y :

D (X )=0,84; D (Y )=0,47.

Коэффициент корреляции между X и Y вычисляется по формуле

; ;

; ;

Вопросы для самопроверки.

1. Дайте определение многомерной случайной величины и функции распределения вероятностей.

2. Что называется совместным распределением двумерной дискретной случайной величины (X ,Y )? Как оно записывается?

3. Как по известному совместному распределению двумерной случайной величины (X ,Y ) найти маргинальные распределения составляющих X и Y ?

4. Что называется условным распределением составляющей X двумерной дискретной величины (X ,Y )?

5. Что называется ковариацией?

6. Что называется коэффициентом корреляции?

7. Укажите свойства коэффициента корреляции.

8. Чему равен коэффициент корреляции случайных величин X и Y = 1 – 2X ?

9. В какую величину превращается ковариация двух случайных величин X и Y , если X = Y ?

10. Равносильны ли понятия независимости и некоррелированности?

Задачи

4.1. На двух различных рынках города продаются три типа автомобилей (А,В,С). Ниже приведены данные о числе проданных автомобилей за год:



Найти следующие вероятности: Р (а, А ), P (a, B ), P (a, C ), P (b, A ), P (b, B ), P (b,С ), P (A ), P (a/A ), P (A/a ). Составить таблицу совместных вероятностей.

4.2. Отдыхающие на некотором курорте являются, как правило, бизнесменами (B )или людьми свободных профессий (P )(адвокатами, художниками, врачами и т.д.). Владелец курорта хочет установить, не выгоднее ли ему будет выпускать рекламу двух видов, а не одного. Для этого он поручил своему рекламному отделу подготовить рекламу двух типов – одну для бизнесменов (тип I), другую – для людей свободных профессий (тип II). Реклама была подготовлена, материалы разосланы возможным клиентам, и было получено 800 заявок. Они распределились следующим образом.

а). Найдите вероятности P (B,I ); P (B,II ); P (I/B ).

Корреляционные моменты, коэффициент корреляции - это числовые характеристики, тесно связанные во введенным выше понятием случайной величины, а точнее с системой случайных величин. Поэтому для введения и определения их значения и роли необходимо пояснить понятие системы случайных величин и некоторые свойства присущие им.

Два или более случайные величины, описывающих некоторое явление называю

т системой или комплексом случайных величин.

Первые начальные моменты представляют собой математические ожидания величин Х и Y, входящих в систему

σ1,0=mx σ0,1=my.

Совокупность математических ожиданий mx , my представляет собой характеристику положения системы. Геометрически это координаты средней точки на плоскости, вокруг которой происходит рассеивание точки (Х, Y).

Важную роль на практике играют также вторые центральные моменты систем. Два из них представляют собой дисперсии величин Х и Y

характеризующие рассеивание случайной точки в направлении осей Ox и Oy.

Особую роль играет второй смещенный центральный момент:

называемый корреляционным моментом (иначе - "моментом связи")случайных величин Х и Y.

Корреляционный момент есть характеристика системы случайных величин, описывающая, помимо рассеивания величин Х и Y, еще и связь между ними. Для того, чтобы убедиться в этом отметим, что корреляционный момент независимых случайных величин равен нулю.

Заметим, что корреляционный момент характеризует не только зависимость величин, но и их рассеивание. Поэтому для характеристики связи между величинами (Х;Y) в чистом виде переходят от момента Kxy к характеристике

где σx, σy - средние квадратичные отклонения величин Х и Y. Эта характеристика называется коэффициентом корреляции величин Х и Y.

Согласно определениям момента корреляции и коэффициента корреляции

. (6.37)

Пусть имеется выборка . Выборочным коэффициентом корреляции называется оценка истинного коэффициента, полученная по формуле

. (6.38)

Здесь , , - выборочные средние значения и дисперсии. Выборочный коэффициент корреляции является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученной оценки. Проверяется гипотеза о равенстве нулю генерального коэффициента корреляции против альтернативы о неравенстве нулю коэффициента корреляции. Для проверки гипотезы против альтернативы используют статистику

Известно , что эта статистика имеет распределение Стьюдента с (n-2) степенями свободы. Введем уровень значимости для решения и тогда решающее правило принимает вид

. (6.40)

Здесь - квантиль распределения Стьюдента уровня (1-) с степенями свободы.

Для графической оценки корреляционной связи двух случайных переменных строят так называемые диаграммы рассеяния

Коэффициент корреляции определяет тесноту линейной корреляционной связи между двумя случайными переменными x и y. Однако корреляционная связь между переменными не обязательно является линейной. Поставим задачу описания корреляционной связи в самом общем виде. Выясним меняется ли одна случайная величина (y) при изменении другой случайной величины (x). Рассмотрим плоскость (xy), на которой заданы эти величины. На оси x укажем k точек в интересующем нас диапазоне значений и для каждой j-й точки этого диапазона измерим q раз значение переменной y. В результате получаем k диапазонов (групп) для величины y, в каждом из которых имеется q отсчетов. Значения y внутри отдельной группы будем рассматривать как самостоятельную совокупность и для нее найдем внутригрупповую среднюю и внутригрупповую дисперсию соответственно:

. (6.41)

(Отметим, что в пределах данного пункта используется формула для вычисления смещенной оценки дисперсии.)

Найдем среднюю арифметическую внутригрупповых дисперсий

, (6.42)

а также среднее значение по всей совокупности точек

. (6.43)

Запишем выражение для расчета межгрупповой дисперсии, описывающей рассеяние групповых средних относительно средней по всей совокупности точек

, (6.44)

и выражение для расчета общей дисперсии, описывающей рассеяние отдельных точек относительно среднего по всей совокупности

(6.45)

Если переменная y связана с x функциональной зависимостью, то определенному значению x соответствует определенное значение y и в каждой группе содержатся q одинаковых чисел. Это означает, что внутригрупповая дисперсия равна нулю и на основание (6.51)

Если же переменные x и y связаны корреляционной зависимостью, то

На основание данного важного свойства соотношения межгрупповой и общей дисперсий вводится мера оценки тесноты корреляционной связи

Для характеристики корреляционной зависимости между вели­чинами используются коррекляционный момент и коэффициент корреляции.

О п р е д е л е н и е 2. Корреляционным моментом µ xy случайных ве­личин X и Y называют математическое ожидание произведения отклонений этих величин

Для вычисления корреляционного момента дискретных величин используется выражение

(3.12)

а для непрерывных – выражение

(3.13)

З а м е ч а н и е. Корреляционный момент µ xy может быть пере­писан в виде

(3.14)

Действительно, используя свойства математического ожидания (см. §§ 2.2; 2.6), имеем

Т е о р е м а. Корреляционный момент двух независимых случайных величин X и Y равен нулю.

Д о к а з а т е л ь с т в о. Согласно замечанию

а так как Х и Y независимые случайные величины, то (см. §§ 2.2; 2.6)

и, значит, µ xy =0.

Из определения корреляционного момента следует, что он имеет размерность, равную произведению размерностей величин X и Y,т.е. его величина зависит от единиц измерения случайных величин. Поэтому для одних и тех же двух величин величина корреляцион­ного момента может иметь различные значения в зависимости от того, в каких единицах были измерены величины. Для устранения этого недостатка условились за меру связи (зависимости) двух слу­чайных величин X и Yпринять безразмерную величину

где σ х =σ(Х), σ y =σ(Y), называемую коэффициентом корреляции.

П р и м е р 1. Пусть двумерная дискретная случайная величи­на (X,Y)задана законом распределения:

и, значит,

Сложив же вероятности по столбцам, найдем вероятности воз­можных значений Y:

Отсюда закон распределения Y:

Y
p 1\3 1\2 1\6

и, значит,

Следовательно,

Таким образом, коэффициент корреляции

Т е о р е м а. Абсолютная величина корреляционного момента двух случайных величин не превосходит произведения их средних квадратических отклонений:

Д о к а з а т е л ь с т в о. Введя в рассмотрение случайную величи­ну где найдем ее дисперсию. Имеем

(любая дисперсия неотрицательна). Отсюда

Введя случайную величину , аналогично найдем

В результате имеем

О п р е д е л е н и е 2. Случайные величины X и Y называются некоррелированными, если = 0, и коррелированными, если

П р и м е р 1. Независимые случайные величины Х и Y являются некоррелированными, так как в силу соотношения (3.12) = 0.

П р и м е р 2. Пусть случайные величины Х и Y связаны линей­ной зависимостью Найдем коэффициент корреля­ции. Имеем:

Таким образом, коэффициент корреляции случайных величин, свя­занных линейной зависимостью, равен ±1 (точнее, =1, если А>0 и =-1, если А<0).

Отметим некоторые свойства коэффициента корреляции.

Из примера 1 следует:

1) Если X и Y - независимые случайные величины, то коэффи­циент корреляции равен нулю.

Заметим, что обратное утверждение, вообще говоря, неверно. (Доказательство см. в работе .)

2)Абсолютная величина коэффициента корреляции не превосхо­дит единицы:

Действительно, разделив обе части неравенства (3.16) на произ­ведение , приходим к искомому неравенству.

3) Как видно из формулы (3.15) с учетом формулы (3.14), ко­эффициент корреляции характеризует относительную величину отклонения математического ожидания произведения от про­изведения математических ожиданий М(Х) М(Y) величин X и Y. Так как это отклонение имеет место только для зависимых вели­чин, то можно сказать, чтокоэффициент корреляции характеризует тесноту зависимости между X и Y.

3. Линейная корреляция. Этот вид корреляционной зависимости встречается довольно часто.

О п р е д е л е н и е. Корреляционная зависимость между случай­ными величинами Х и Y называется линейной корреляцией, если обе функции регрессии и являются линейными. В этом случае обе линии регрессии являются прямыми; их называют прямыми регрессии.

Выведем уравнения прямой регрессии Y на X, т.е. найдем коэф­фициент линейной функции

Обозначим М(Х) = а, М(Y) = b, М[(Х - а) 2 ] = , М[(Y –b 2)] = . С использованием свойств МО (§§ 2.2; 2.6) находим:

М(Y) = М = М(АХ + В)= АМ(Х) + В,

т.е. b = Аа + В, откуда В=b-Аа.

М(ХY) = М[Хg(Х)\ = М(АХ 2 + ВХ) = АМ(Х 2) + ВМ(Х) = АМ(Х 2) + (b- Аа)а,

или, согласно свойству 1 дисперсии (§§ 2.3; 2.6),

Полученный коэффициент называется коэффициентом регрессии Y на X и обозначается через :

Таким образом, уравнение прямой регрессии Y на X имеет вид

Аналогично можно получить уравнение прямой регрессии X на Y