Корреляция

Пример корреляции в анализе данных может быть связан с изучением взаимосвязи между двумя переменными. Например, исследователь может хотеть выяснить, существует ли связь между количеством часов, которые студенты уделяют подготовке к экзаменам, и их оценками по экзамену.

Для этого можно применить коэффициент корреляции Пирсона, который измеряет степень линейной взаимосвязи между двумя переменными. Коэффициент корреляции Пирсона может принимать значения от -1 до +1, где значение -1 указывает на полную отрицательную корреляцию, +1 — на полную положительную корреляцию, а значение 0 — на отсутствие корреляции.

Предположим, что после проведения исследования и анализа данных, было выявлено, что коэффициент корреляции Пирсона между количеством часов подготовки и оценкой по экзамену равен 0.8, что указывает на достаточно высокую положительную корреляцию между этими двумя переменными. Это означает, что чем больше времени студенты уделяют подготовке, тем выше вероятность получить высокую оценку по экзамену.

# генерируем данные x = np.array([1, 2, 3, 4, 5]) y = np.array([2, 4, 6, 8, 10])


# вычисляем средние значения

mean_x = np.mean(x)

mean_y = np.mean(y)
# вычисляем отклонения от среднего

deviation_x = x — mean_x

deviation_y = y — mean_y
# вычисляем коэффициент корреляции

corr_coef = np.sum(deviation_x * deviation_y) / (np.sqrt(np.sum(deviation_x**2)) * np.sqrt(np.sum(deviation_y**2)))

print(«Коэффициент корреляции Пирсона: «, corr_coef)

В данном примере мы генерируем два массива данных x и y, содержащих соответственно значения переменных. Затем мы вычисляем средние значения mean_x и mean_y для каждого массива, после чего находим отклонения от среднего deviation_x и deviation_y. Наконец, мы вычисляем коэффициент корреляции Пирсона corr_coef с помощью формулы, используя функции библиотеки NumPy для вычисления суммы и квадратного корня.

Результат выполнения кода должен быть примерно равен 1.0, что указывает на положительную линейную корреляцию между переменными x и y.