Термины в теовере. Часть вторая

11) Дисперсия (Variance) — это мера разброса случайной величины относительно её среднего значения. Она позволяет оценить, насколько значения случайной величины отклоняются от её среднего значения. В программировании, дисперсию можно вычислить с использованием соответствующих методов и функций. Рассмотрим примеры работы с дисперсией в языке программирования Python.

Пример 1: Вычисление дисперсии для списка значений



import numpy as np
# Определение списка значений случайной величины

values = [4, 7, 9, 5, 2, 6]
# Вычисление дисперсии с использованием NumPy

variance = np.var(values)
# Вывод результата

print("Дисперсия:", variance)

В этом примере у нас есть список значений случайной величины, определенный переменной values. Мы используем функцию np.var() из библиотеки NumPy для вычисления дисперсии списка значений.

Пример 2: Вычисление дисперсии для непрерывной случайной величины с заданным распределением



import numpy as np
# Определение параметров непрерывной случайной величины

mean = 5.0

std = 2.0
# Генерация выборки значений

values = np.random.normal(loc=mean, scale=std, size=100)
# Вычисление дисперсии с использованием NumPy

variance = np.var(values)
# Вывод результата

print("Дисперсия:", variance)

В этом примере мы генерируем выборку значений непрерывной случайной величины с нормальным распределением, заданным средним (mean) и стандартным отклонением (std). Затем мы используем функцию np.var() из библиотеки NumPy для вычисления дисперсии выборки значений.

12) Стандартное отклонение (Standard Deviation) — это мера разброса значений случайной величины относительно её среднего значения. Оно представляет собой квадратный корень из дисперсии и позволяет оценить, насколько значения случайной величины отклоняются от её среднего значения. В программировании, стандартное отклонение можно вычислить с использованием соответствующих методов и функций. Рассмотрим примеры работы со стандартным отклонением в языке программирования Python.

Пример 1: Вычисление стандартного отклонения для списка значений



import numpy as np
# Определение списка значений случайной величины

values = [4, 7, 9, 5, 2, 6]
# Вычисление стандартного отклонения с использованием NumPy

std_deviation = np.std(values)
# Вывод результата

print("Стандартное отклонение:", std_deviation)

В этом примере у нас есть список значений случайной величины, определенный переменной values. Мы используем функцию np.std() из библиотеки NumPy для вычисления стандартного отклонения списка значений.

Пример 2: Вычисление стандартного отклонения для непрерывной случайной величины с заданным распределением



import numpy as np
# Определение параметров непрерывной случайной величины

mean = 5.0

std = 2.0
# Генерация выборки значений

values = np.random.normal(loc=mean, scale=std, size=100)
# Вычисление стандартного отклонения с использованием NumPy

std_deviation = np.std(values)
# Вывод результата

print("Стандартное отклонение:", std_deviation)

В этом примере мы генерируем выборку значений непрерывной случайной величины с нормальным распределением, заданным средним (mean) и стандартным отклонением (std). Затем мы используем функцию np.std() из библиотеки NumPy для вычисления стандартного отклонения выборки значений.

13) Корреляция (Correlation) — это мера статистической зависимости между двумя случайными величинами. Она позволяет оценить, насколько две величины изменяются вместе. Коэффициент корреляции может принимать значения от -1 до 1, где положительное значение указывает на положительную зависимость, отрицательное значение — на отрицательную зависимость, а значение близкое к 0 — на отсутствие зависимости.

В программировании, коэффициент корреляции можно вычислить с использованием соответствующих методов и функций. Рассмотрим примеры работы с корреляцией в языке программирования Python.

Пример 1: Вычисление коэффициента корреляции Пирсона



import numpy as np
# Определение двух случайных величин

x = [1, 2, 3, 4, 5]

y = [2, 4, 6, 8, 10]
# Вычисление коэффициента корреляции Пирсона с использованием NumPy

correlation = np.corrcoef(x, y)[0, 1]
# Вывод результата

print("Коэффициент корреляции:", correlation)

В этом примере у нас есть две случайные величины, определенные списками x и y. Мы используем функцию np.corrcoef() из библиотеки NumPy для вычисления коэффициента корреляции Пирсона между двумя величинами. Значение [0, 1] возвращаемого массива указывает на коэффициент корреляции между x и y.

Пример 2: Вычисление коэффициента корреляции Спирмена



import numpy as np

from scipy.stats import spearmanr
# Определение двух случайных величин

x = [1, 2, 3, 4, 5]

y = [2, 4, 6, 8, 10]
# Вычисление коэффициента корреляции Спирмена с использованием scipy.stats

correlation, _ = spearmanr(x, y)
# Вывод результата

print("Коэффициент корреляции:", correlation)

В этом примере мы также имеем две случайные величины x и y. Мы используем функцию spearmanr() из модуля scipy.stats для вычисления коэффициента корреляции Спирмена между двумя величинами. Обратите внимание, что для вычисления коэффициента корреляции Спирмена, мы использовали функцию spearmanr() из модуля scipy.stats. Этот метод подходит для оценки корреляции между двумя величинами, не обязательно линейной зависимости.

Важно отметить, что в обоих примерах мы использовали библиотеки NumPy и SciPy, но в Python также доступны другие библиотеки для работы с корреляцией, такие как pandas, которые предоставляют более широкий функционал для анализа данных и работы с таблицами.

Также стоит упомянуть, что в приведенных примерах мы работали с одномерными массивами значений. Однако, в реальных ситуациях часто возникает необходимость в вычислении корреляции между многомерными массивами данных. Для этого можно использовать соответствующие методы и функции из библиотек, таких как NumPy, pandas или SciPy.

14) Центральная предельная теорема (Central Limit Theorem): Фундаментальный результат в теории вероятностей, утверждающий, что сумма большого числа независимых и одинаково распределенных случайных величин стремится к нормальному распределению, независимо от формы их исходного распределения.

Центральная предельная теорема (Central Limit Theorem) — это фундаментальный результат в теории вероятностей, который утверждает, что сумма или среднее большого числа независимых и одинаково распределенных случайных величин стремится к нормальному распределению, независимо от формы исходного распределения.

Центральная предельная теорема имеет важное значение в статистике, так как позволяет делать выводы о распределении средних значений на основе ограниченного числа наблюдений. В программировании, можно проиллюстрировать эту теорему с помощью генерации случайных чисел и построения графиков.

Пример: Иллюстрация Центральной предельной теоремы



import numpy as np

import matplotlib.pyplot as plt
# Генерация случайных чисел из равномерного распределения

sample_size = 1000

num_samples = 1000

samples = np.random.uniform(0, 1, size=(sample_size, num_samples))
# Вычисление средних значений по каждой выборке

means = np.mean(samples, axis=0)
# Построение гистограммы средних значений

plt.hist(means, bins=30, density=True, alpha=0.5)

plt.xlabel('Среднее значение')

plt.ylabel('Частота')

plt.title('Центральная предельная теорема')

plt.show()

В этом примере мы генерируем случайные числа из равномерного распределения, используя функцию np.random.uniform(). Затем мы вычисляем средние значения по каждой выборке с помощью функции np.mean(). Наконец, мы строим гистограмму средних значений с использованием функции plt.hist() из библиотеки Matplotlib.

График демонстрирует, как средние значения распределены при повторном выборе случайных чисел из исходного распределения. По мере увеличения числа выборок, распределение средних значений становится все более приближенным к нормальному распределению, что является проявлением центральной предельной теоремы.

Обратите внимание, что в этом примере мы использовали равномерное распределение в качестве исходного, но центральная предельная теорема справедлива для широкого класса распределений. Это одна из важнейших теорем в статистике, которая обеспечивает основу для использования средних значений в статистических выводах и построении доверительных интервалов.

15) Гипотеза (Hypothesis): Утверждение или предположение, которое проверяется с использованием статистических методов. Обычно формулируется в виде нулевой гипотезы (H0) и альтернативной гипотезы (H1).

Гипотеза (Hypothesis) — это утверждение или предположение о свойствах или параметрах случайного явления или набора данных. В статистике, гипотезы используются для формулирования предположений о распределении данных, связи между переменными или эффектах в эксперименте.

Для проверки гипотезы в программировании, можно использовать различные статистические тесты и методы. Рассмотрим пример работы с гипотезами с использованием библиотеки SciPy в языке программирования Python.

Пример: Проверка гипотезы с использованием t-теста



import numpy as np

from scipy.stats import ttest_ind
# Генерация двух выборок данных

sample1 = np.random.normal(5, 1, size=100)

sample2 = np.random.normal(7, 1, size=100)
# Проверка гипотезы с использованием t-теста

t_statistic, p_value = ttest_ind(sample1, sample2)
# Вывод результата

print("t-статистика:", t_statistic)

print("p-значение:", p_value)

В этом примере мы генерируем две выборки данных sample1 и sample2, которые представляют собой случайные значения из нормального распределения с различными средними значениями. Затем мы используем функцию ttest_ind() из библиотеки SciPy для выполнения t-теста на независимость выборок.

Результатом теста являются t-статистика (t_statistic) и p-значение (p_value). t-статистика отражает различие между выборками, а p-значение представляет вероятность получить такие или более экстремальные результаты при условии, что нулевая гипотеза верна. Нулевая гипотеза часто формулируется как отсутствие различий или связи между выборками.

После выполнения теста можно анализировать p-значение и сравнивать его с выбранным уровнем значимости для принятия или отвержения нулевой гипотезы.

16) Уровень значимости (Significance Level) — это пороговое значение, используемое для принятия или отвержения нулевой гипотезы в статистических тестах. Он определяет, насколько низкая должна быть вероятность получить такие или более экстремальные результаты, чтобы отвергнуть нулевую гипотезу.

В программировании, уровень значимости указывается в виде значения альфа (α) и используется вместе с результатами статистического теста для принятия решения об отвержении или неотвержении нулевой гипотезы. Обычно, значения альфа варьируются от 0.05 до 0.01, в зависимости от требуемой степени уверенности в результатах.

Рассмотрим пример работы с уровнем значимости в языке программирования Python.

Пример: Принятие решения на основе уровня значимости



import numpy as np

from scipy.stats import ttest_ind
# Генерация двух выборок данных

sample1 = np.random.normal(5, 1, size=100)

sample2 = np.random.normal(7, 1, size=100)
# Проверка гипотезы с использованием t-теста

t_statistic, p_value = ttest_ind(sample1, sample2)
# Уровень значимости

alpha = 0.05
# Проверка результата

if p_value < alpha:
    print("Отвергаем нулевую гипотезу")
else:
    print("Не отвергаем нулевую гипотезу")

В этом примере мы снова генерируем две выборки данных sample1 и sample2, а затем выполняем t-тест с помощью функции ttest_ind() из библиотеки SciPy.

Затем мы определяем уровень значимости, задав значение альфа (alpha). В данном случае, уровень значимости равен 0.05, что означает, что мы принимаем 5% риск совершить ошибку первого рода (отклонить нулевую гипотезу, когда она фактически верна).

Далее мы проверяем результат теста, сравнивая p-значение (p_value) с уровнем значимости (alpha). Если p-значение меньше уровня значимости, мы отвергаем нулевую гипотезу, в противном случае не отвергаем нулевую гипотезу.

Важно выбирать уровень значимости, соответствующий требованиям исследования и конкретному контексту. Слишком высокий уровень значимости может привести к неправильному принятию альтернативной гипотезы, а слишком низкий уровень значимости может привести к отклонению верной нулевой гипотезы.

При выборе уровня значимости следует учитывать характер исследования, его цель и последствия ошибок. Также стоит помнить, что уровень значимости не является абсолютным стандартом и может изменяться в зависимости от контекста и специфики задачи.

В приведенном примере мы проверяем нулевую гипотезу о равенстве средних значений двух выборок. Если p-значение меньше заданного уровня значимости (alpha), мы отвергаем нулевую гипотезу и делаем вывод о наличии статистически значимых различий между выборками.

17) Доверительный интервал (Confidence Interval) — это интервал, в котором с заданной вероятностью содержится неизвестный параметр популяции на основе выборочных данных. Он представляет собой оценку неопределенности и позволяет оценить диапазон значений, в котором находится истинное значение параметра.

В программировании, доверительный интервал может быть вычислен с использованием различных методов и функций. Рассмотрим пример работы с доверительным интервалом в языке программирования Python.

Пример: Вычисление доверительного интервала с использованием библиотеки NumPy



import numpy as np
# Генерация выборки данных

data = np.random.normal(5, 1, size=100)
# Вычисление среднего и стандартного отклонения

mean = np.mean(data)

std = np.std(data)
# Расчет доверительного интервала с использованием метода ЦПТ

alpha = 0.05  # Уровень значимости

z = 1.96  # Z-значение для 95% доверительного интервала
lower_bound = mean - z * (std / np.sqrt(len(data)))

upper_bound = mean + z * (std / np.sqrt(len(data)))
# Вывод результата

print("Доверительный интервал:", (lower_bound, upper_bound))

В этом примере мы генерируем выборку данных data из нормального распределения с заданным средним (5) и стандартным отклонением (1).

Затем мы вычисляем среднее значение (mean) и стандартное отклонение (std) выборки.

Далее мы используем метод Центральной предельной теоремы (ЦПТ) для вычисления доверительного интервала. Мы задаем уровень значимости (alpha), который определяет ширину интервала, и Z-значение (z), которое связано с выбранным уровнем значимости (например, для 95% доверительного интервала Z-значение равно 1.96).

Затем мы вычисляем нижнюю и верхнюю границы доверительного интервала на основе среднего значения, стандартного отклонения и размера выборки.

В конечном итоге мы выводим результат — доверительный интервал в виде кортежа (lower_bound, upper_bound).

Важно отметить, что в приведенном примере мы использовали нормальное распределение и метод ЦПТ для вычисления доверительного интервала. Для других распределений или в случае небольших выборок, могут использоваться друг