1、读取数据到DataFrame

import pandas as pd 
import seaborn as sns 
sns.set(style="darkgrid", font_scale=1.2) 
df = pd.read_csv( 
  "/content/melb_housing.csv",  
  usecols=["Regionname", "Type", "Rooms", "Distance", "Price"] 
) 
df.head()

2、Seaborn的离散函数

Seaborn的离散函数允许创建3种不同类型的分布:

  • 柱状图
  • Kde(核密度估计)图
  • Ecdf图

我们只需要调整kind参数来选择plot的类型。

第一个例子是创建一个基本直方图。它将连续变量的取值范围划分为离散的箱子,并显示每个箱子中有多少个值。

sns.displot( 
  data=df, 
  x="Price", 
  kind="hist", 
  aspect=1.4 
)

3、log_scale

在第一个例子中,我们可以清楚地看到价格栏中有一些异常值。柱状图在右边有一条长尾,这表明价格非常高的房子很少。

减少这种异常值影响的一种方法是对值取对数。displot函数可以使用log_scale参数执行此操作。价格以10的幂表示。现在我们对房价的分布有了一个更好的概述。

sns.displot( 
  data=df, 
  x="Price", 
  kind="hist", 
  aspect=1.4, 
  log_scale=10 
)

3、bins

我们还可以调整直方图中的箱数量。在某些情况下,最好使用较少的箱数量,这样我们就可以得到一个更结构化的概述。

用于此调整的参数是bins。

sns.displot( 
  data=df, 
  x="Price", 
  kind="hist", 
  aspect=1.4, 
  log_scale=10, 
  bins=20 
)

4、hue

数据集还包含分类变量。例如,类型列有3个类别,分别是h(房屋)、t(联排房屋)和u(单位)。我们可能需要分别检查每款的分布情况。

一种选择是在相同的可视化中用不同的颜色显示它们。我们只需要将列的名称传递给hue参数。

sns.displot( 
  data=df, 
  x="Price", 
  hue="Type", 
  kind="hist", 
  aspect=1.4, 
  log_scale=10, 
  bins=20 
)

这个图为我们提供了2条信息:

  • 每个类别的大小与房屋的数量有关。h类是最大的一类。
  • 每类房屋的价格分布。

5、col & row

另一个检查每个类别分布的选项是创建单独的子图。我们可以对这个任务使用col或row参数。给定列中的每个类别都有一个子图。

sns.displot( 
  data=df, 
  x="Price", 
  col="Type", 
  kind="hist", 
  aspect=1.4, 
  log_scale=10, 
  bins=20 
)

6、二维直方图

displot函数还允许生成二维直方图。因此,我们得到了关于两列中值的观察值(即行)分布的概述。

我们使用价格和距离列创建一个。我们只是将列名传递给x和y参数。

sns.displot( 
  data=df, 
  x="Price", 
  y="Distance", 
  col="Type", 
  kind="hist", 
  height=5, 
  aspect=1.2, 
  log_scale=(10,0), 
  bins=20 
)

7、kde图

Kde图还可以用于可视化变量的分布。它们和直方图很相似。然而,kde图使用连续的概率密度曲线来表示分布,而不是使用离散的箱。

kind参数设置为“kde”,以生成kde图。

sns.displot( 
  data=df, 
  x="Price", 
  kind="kde", 
  aspect=1.4, 
  log_scale=10 
)

8、多类kde

与直方图类似,可以为不同的类别分别绘制kde图。我们的数据集包含房屋的区域信息。我们看看不同地区的价格变化。南方大都市区的平均房价似乎最高。

sns.displot( 
  data=df, 
  x="Price", 
  hue="Regionname", 
  kind="kde", 
  height=6, 
  aspect=1.4, 
  log_scale=10 
)

对于数据分析或机器学习任务,了解变量(即特征)的分布是非常重要的。我们如何处理给定的任务可能取决于分布。

在这篇文章中,我们看到了如何使用Seaborn的displot函数来分析价格和距离栏的分布。

打赏作者

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

CAPTCHA