24. Коэффициент ранговой корреляции Спирмена
На предыдущих уроках мы познакомились с линейным коэффициентом корреляции Пирсона, линейной регрессией, а также потренировались в построении нелинейных моделей. Но эти методы далеко не всегда подходят для описания зависимости признака-результата
от признака-фактора
. Не всегда понятна форма зависимости (Линейная? Гиперболическая? Экспоненциальная? Какая-то другая?). Эта форма бывает сложной, а то и вовсе не определИма (в принципе). И вообще, мы можем исследовать не количественный, а некоторый качественный признак.
Представьте, что в вазе лежит яблоко, киви, банан, апельсин и мандарин. Как можно проранжировать это множество? Напрашивается пронумеровать фрукты по возрастанию (либо убыванию) их массы. На первом месте самый лёгкий, на втором подобрее, на третьем – ещё добрее, … и на последнем – самый добрый:

Таким образом, каждому фрукту присвоен свой ранг (порядковый номер) по количественному критерию – массе, а именно, по возрастанию массы.
Но есть более вкусный качественный критерий. Сейчас я расположу эти фрукты в порядке моего ЛИЧНОГО вкусового предпочтения: что бы я съел в первую, вторую, третью, четвёртую и, наконец, последнюю очередь:

Таким образом, каждому фрукту тоже присвоен свой ранг.
И здесь любопытно сравнить качественный признак с количественным – выяснить, насколько я склонен считать лёгкие фрукты более вкусными. Для этого нужно сопоставить соответствующие ранги по фруктам и оценить степень их близости:

Иными словами, нужно определить, насколько теснА корреляционная зависимость моего вкуса от массы фрукта? Или она близка к нулю?
Но это, конечно, не самое интересное. Теперь ВЫ расположите те же фрукты в порядке СВОИХ вкусовых предпочтений. …Есть? Вероятнее всего, вы предпочли употребить фрукты в другой последовательности и проранжировали их иначе, например, так:

После чего появляется возможность сравнить ранги – чтобы выяснить, насколько коррелируют (совпадают) наши вкусы. Визуально можно сразу сказать, что коррелируют они слабо, т. к. читатель явно не жалует цитрусовые. Но, разумеется, есть математическая оценка этой связи, и называется она коэффициент ранговой корреляции Спирмена.
Оставим вкусное на десерт и начнём с более прозаичной задачи, где сопоставляются два количественных признака:
Пример 78
Имеются выборочные данные по
студентам:
– количество прогулов за некоторый период времени и
– суммарная успеваемость за этот период:
![]()
Найти коэффициент ранговой корреляции Спирмена, сделать вывод.
В Примере 67 мы вычислили линейный коэффициент корреляции
, что говорит о сильной обратной корреляционной зависимости
– суммарной успеваемости от
– количества прогулов. Далее было найдено уравнение линейной регрессии
– это прямая, которая наилучшим образом (по сравнению с другими прямыми) приближает эмпирические точки
:

Но у такого подхода могут быть изъяны. Во-первых, прогулы и успеваемость – это величины дискретные (прерывные), но мы приблизили их непрерывной функцией (линейной). И во-вторых, зависимость может быть гораздо более сложной. Когда прогулов немного, успеваемость, вероятно, падает несущественно; когда их количество растёт – ситуация начинает ухудшаться, и, наконец, с некоторого момента достижения стремительно падают к плинтусу. Возможно, удастся подобрать кривую, удачно приближающую точки, но у нас мало данных (8 наблюдений всего), и по чертежу сомнительно, что удастся.
Поэтому в качестве альтернативы уместно рассмотреть ранговый подход. И я расскажу вам как о ручном решении этой задачи, так и о машинном – с помощью MS Excel.
Сначала рассмотрим признак-фактор
и для удобства упорядочим количество прогулов
по возрастанию:

Это можно сделать на черновике или в Экселе. Теперь каждому значению
легко присвоить свой ранг
и записать ранги на чистовик, для примера парочка синих линий:
Следует заметить, что записывать числа по возрастанию (справа) вовсе не обязательно, это сделано чисто для удобства. Значения
несложно проранжировать в уме (при небольшой выборке) или опять же с помощью специальной функции Экселя (кино будет ниже).
И ещё заметим такой момент, у нас есть одинаковые значения
, но ранги у них разные (7 и 8) и возникает вопрос, а почему не наоборот? В подобных ситуациях обычно находят средний арифметический ранг, который присваивают каждой варианте. В нашей задаче одинаковых значений два, поэтому их средний ранг составит:
– вот теперь всё справедливо, относим дробный ранг 7,5 и к варианте
и к варианте ![]()
Аналогично ранжируем значения
признака-результата
– тоже и ОБЯЗАЛЬНО по возрастанию значений. Ранги
легко проставить устно (что я только что сделал), без фактической сортировки «игрековых» значений:

Среди значений
нет одинаковых, и поэтому ранги не нуждаются в дополнительной корректировке. После ранжирования полезно выполнить проверку. Суммы «иксовых» и «игрековых» рангов должны совпадать и равняться
, в нашей задаче объём выборки составляет
и обе суммы равны
.
Оценим тесноту связи между рангами. Для этого нужно вычислить коэффициент ранговой корреляции Спирмена, и это – есть в точности линейный коэффициент корреляции Пирсона* между рангами
и
.
* а коль скоро так, то минимальный объем совокупности должен равняться 6-7.
Технически вычисления можно провести разными способами. Если вас устраивает результат «на скорую руку», то просто забиваем в Экселе:
= КОРРЕЛ(выделяем мышкой массив
; выделяем массив
) и жмём Enter.
Но в учебных задачах, как правило, нужны подробные расчёты. Если нет дробных рангов, то коэффициент ранговой корреляции Спирмена
удобно вычислить по упрощенной формуле:
, где
– объем совокупности, а
– квадраты разностей между соответствующими рангами.
Если же дробные ранги есть (это означает, что есть одинаковые значения
и / или
), то возможны варианты. В том случае, если точность вычислений не критична и дробных рангов не так много, можно пользоваться той же формулой, но она будет давать приближённый результат:
.
Но если вам необходимы абсолютно точные и подробные расчёты, то лучше расписать нахождение линейного коэффициента корреляции подробно – по образцу, только не между значениями
и
, а между их рангами
. Кроме того, существуют специальные модификации вышеприведённой формулы – с поправкой на повторяющиеся значения
, но лишь для некоторых частных случаев. И да, должен предупредить, что формулы, приведённые во многих источниках Интернета, некорректны. Поэтому лучше потратить время и получить стопудовый результат.
В нашей задаче дробные ранги есть, и мы выберем упрощенный вариант. Для этого вычислим разности соответствующих рангов
, их квадраты
и сумму
. Заполним расчётную таблицу:

Так как среди рангов есть дробные, то формула даёт лишь приближенный результат:
![]()
Более точное значение, вычисленное с помощью функции =КОРРЕЛ() приложения MS Excel:
. И, как видите, погрешность вполне приемлемая, одна сотая всего.
Поскольку
– это линейный коэффициент корреляции между рангами, то его интерпретация будет такой же. Коэффициент ранговой корреляции изменяется в пределах
и чем он ближе по модулю к единице, тем теснее ранговая корреляционная зависимость. Для оценки тесноты связи используем ту же шкалу Чеддока:

при этом если
, то корреляционная связь обратная, а если
, то прямая
Теперь смотрим кино, как это всё быстро подсчитать в Экселе (копия на Рутубе):
и записываем ответ:
, таким образом, существует сильная обратная корреляционная зависимость
– суммарной успеваемости от
– количества прогулов.
Напомню значение линейного коэффициента корреляции
, и сейчас мы получили примерно такой же, даже более убедительный результат.
По аналогии с линейным коэффициентом, можно проверить статистическую значимость рангового коэффициента корреляции и построить соответствующие доверительные интервалы. Но это уже немного дебри статистики, с которыми можно ознакомиться, например, в учебном пособии Гмурмана (поздние издания) и других источниках. …Ловко я модернизировал метод Ивана Сусанина :)
К недостатку рангового коэффициента корреляции Спирмена можно отнести тот факт, что он практически ничего не говорит о форме зависимости. Но повторюсь, эта форма может быть трудноопределима или не определИма вовсе. Как, например, при сопоставлении качественных признаков. По этой причине ранговый подход нашёл широчайшее применение в психологии, социологии и других гуманитарных направлениях. К слову, Чарльз Спирмен был именно психологом, и в его честь мы рассмотрим как раз простенькую задачу по психологии. На совместимость двух людей:
Пример 79
Коле и Оле было предложено проранжировать свои увлечения – от самого любимого до самого скучного / неприятного. В результате были получены следующие результаты:

! В подобных задачах объекты принято ранжировать по убыванию их «качества» – от самого «хорошего» до самого «плохого».
С помощью коэффициента корреляции Спирмена определить совместимость Коли и Оли в плане увлечений.
Это задача для самостоятельного решения! – все числа уже в Экселе. Образец для сверки внизу.
В наиболее благоприятном случае все ранги по увлечениям совпадают, их разности равны нулю
и посему
, это говорит о практически идеальной совместимости. По мере убывания
совместимость будет падать до нейтрального околонулевого значения, где нельзя сказать, что увлечения как-то сильно совпадают или наоборот, разнятся. И в отрицательной зоне начинает нарастать негатив – вплоть до значения
, при котором Коля и Оля – совершенно разные люди.
Помимо подхода Спирмена, существует и другой принцип ранжированию объектов, который выражается ранговым коэффициентом корреляции Кендалла. Но он не слишком распространен в массовой практике (по крайне мере, технической), поэтому едем дальше:
Коэффициент корреляции Фехнера
Решения и ответы:
Пример 79. Решение: вычислим разности соответствующих рангов
, их квадраты
и сумму
:

Так как среди рангов нет дробных, то:
![]()
Ответ:
, таким образом, Коля и Оля имеют слабо-умеренно-негативную совместимость по интересам.
Автор: Емелин Александр
Высшая математика для заочников и не только >>>
(Переход на главную страницу)
Высшая математика – просто и доступно!
Наш форум, библиотека и блог:


Повторяем школьный курс
Карта сайта



© Copyright