Boxplot (ящик с усами) — это графический метод, который используется в аналитике данных для визуализации распределения данных. Boxplot позволяет быстро оценить основные характеристики распределения, такие как медиана, квартили, минимальное и максимальное значения, а также наличие выбросов.
На графике boxplot данные представлены в виде прямоугольника, который показывает интерквартильный размах (IQR) — разницу между первым и третьим квартилями. Внутри прямоугольника находится линия, которая показывает медиану. Из прямоугольника выходят линии — усы, которые показывают минимальное и максимальное значения в данных. Если есть выбросы, то они отображаются на графике в виде отдельных точек за пределами усов.
Boxplot — это мощный инструмент для исследования распределения данных и выявления выбросов. Он также позволяет сравнивать распределения между различными группами или переменными.
Для создания boxplot в Python для аналитика данных можно использовать библиотеку matplotlib. Ниже приведен пример кода:
import matplotlib.pyplot as plt
import numpy as np
#Создаем данные
data = [np.random.normal(0, std, 100) for std in range(1, 4)]
#Создаем фигуру и оси
fig, ax = plt.subplots()
#Создаем ящики с усами
ax.boxplot(data)
#Добавляем заголовок и метки осей
ax.set_title('Box Plot Demo')
ax.set_xticklabels(['Data 1', 'Data 2', 'Data 3'])
ax.set_ylabel('Значение')
#Отображаем график
plt.show()
В этом примере мы создаем три нормально распределенных набора данных с различными стандартными отклонениями, затем создаем фигуру и оси, создаем ящики с усами для каждого набора данных