机器学习中的数据预处理：标准化、归一化及其他技术

欢迎来到“数据预处理”讲座！

大家好！今天我们要聊的是机器学习中非常重要的一个环节——数据预处理。你可能会问：“为什么需要预处理？我的数据不是已经很好了吗？” 好问题！想象一下，如果你去面试时穿着拖鞋和睡衣，你觉得会顺利吗？同样地，机器学习模型也需要“打扮”一下你的数据，才能更好地理解它们。今天我们就来聊聊如何给数据“穿衣服”，让它变得更容易被模型接受。

1. 为什么要进行数据预处理？

在机器学习中，模型的输入数据通常来自不同的来源，可能是用户的行为记录、传感器的数据、或者从网络上抓取的信息。这些数据往往具有不同的量纲（单位）、分布和范围。如果我们直接把这些“原始数据”喂给模型，模型可能会感到困惑，甚至做出错误的预测。因此，我们需要对数据进行一些“美容”操作，这就是所谓的数据预处理。

常见的预处理方法包括：

标准化（Standardization）
归一化（Normalization）
离散化（Discretization）
缺失值处理
特征选择

今天我们重点讨论前两种方法：标准化和归一化，以及其他一些常用的技术。

2. 标准化（Standardization）

什么是标准化？

标准化是将数据转换为均值为0、标准差为1的分布。换句话说，它把每个特征的值都调整到相同的尺度上，使得不同特征之间的差异不会因为量纲的不同而影响模型的表现。

公式如下：
[
X_{text{std}} = frac{X – mu}{sigma}
]
其中，( X ) 是原始数据，( mu ) 是均值，( sigma ) 是标准差。

什么时候使用标准化？

标准化适用于那些对输入数据的分布敏感的算法，比如：

线性回归（Linear Regression）
支持向量机（SVM）
K近邻算法（KNN）
主成分分析（PCA）

这些算法假设输入数据是服从正态分布的，因此标准化可以帮助它们更好地工作。

Python代码示例

from sklearn.preprocessing import StandardScaler
import numpy as np

# 创建一个简单的数据集
data = np.array([[1, 2], [3, 4], [5, 6]])

# 初始化StandardScaler
scaler = StandardScaler()

# 拟合并转换数据
scaled_data = scaler.fit_transform(data)

print("原始数据:n", data)
print("标准化后的数据:n", scaled_data)

输出结果：

原始数据:
 [[1 2]
 [3 4]
 [5 6]]
标准化后的数据:
 [[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]

可以看到，标准化后的数据均值接近0，标准差接近1。

3. 归一化（Normalization）

什么是归一化？

归一化是将数据缩放到一个固定的区间，通常是[0, 1]或[-1, 1]。与标准化不同，归一化不关心数据的分布，只关心数据的最小值和最大值。它的公式如下：
[
X{text{norm}} = frac{X – X{text{min}}}{X{text{max}} – X{text{min}}}
]

什么时候使用归一化？

归一化适用于那些对输入数据的绝对值敏感的算法，比如：

神经网络（Neural Networks）
梯度下降优化（Gradient Descent）
距离度量算法（如KNN、K-means）

这些算法通常希望输入数据在较小的范围内，以避免数值过大导致的计算问题。

Python代码示例

from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 创建一个简单的数据集
data = np.array([[1, 2], [3, 4], [5, 6]])

# 初始化MinMaxScaler
scaler = MinMaxScaler()

# 拟合并转换数据
normalized_data = scaler.fit_transform(data)

print("原始数据:n", data)
print("归一化后的数据:n", normalized_data)

输出结果：

原始数据:
 [[1 2]
 [3 4]
 [5 6]]
归一化后的数据:
 [[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]

可以看到，归一化后的数据都被缩放到了[0, 1]的范围内。

4. 标准化 vs 归一化：谁更适合？

这取决于你的应用场景和使用的算法。一般来说：

如果你使用的是基于距离的算法（如KNN、K-means），归一化可能更合适，因为它能确保所有特征都在相同的范围内。
如果你使用的是基于梯度的算法（如神经网络、线性回归），标准化可能更合适，因为它能加速模型的收敛。

当然，最好的办法是尝试两者，看看哪个效果更好。毕竟，机器学习中最重要的一条原则就是：“实践出真知”。

5. 其他常用的数据预处理技术

除了标准化和归一化，还有一些其他的数据预处理技术也非常重要。我们来看看几个常见的例子。

5.1 离散化（Discretization）

离散化是将连续的数值特征转换为离散的类别。例如，你可以将年龄分为“青年”、“中年”和“老年”。离散化的好处是可以减少噪声，并且有时可以让模型更容易理解和解释。

from sklearn.preprocessing import KBinsDiscretizer
import numpy as np

# 创建一个简单的数据集
data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

# 初始化KBinsDiscretizer
discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')

# 拟合并转换数据
discretized_data = discretizer.fit_transform(data)

print("原始数据:n", data)
print("离散化后的数据:n", discretized_data)

输出结果：

原始数据:
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]
离散化后的数据:
 [[0. 0.]
 [1. 1.]
 [2. 2.]
 [2. 2.]]

5.2 缺失值处理

现实世界中的数据经常会有缺失值。处理缺失值的方法有很多，比如：

删除含有缺失值的行（简单粗暴，但可能导致信息丢失）
用均值/中位数/众数填充（适合数值型特征）
用特定值填充（比如用-999表示缺失）
插值法（适合时间序列数据）

import pandas as pd

# 创建一个包含缺失值的数据集
data = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [None, 2, 3, 4]
})

# 用均值填充缺失值
data_filled = data.fillna(data.mean())

print("原始数据:n", data)
print("填充后的数据:n", data_filled)

输出结果：

原始数据:
     A    B
0  1.0  NaN
1  2.0  2.0
2  NaN  3.0
3  4.0  4.0
填充后的数据:
     A    B
0  1.0  3.0
1  2.0  2.0
2  2.5  3.0
3  4.0  4.0

5.3 特征选择

并不是所有的特征都是有用的。有时候，过多的特征反而会让模型过拟合。因此，我们可以使用特征选择技术来挑选最重要的特征。常见的特征选择方法包括：

方差选择法（Variance Threshold）
相关系数法（Pearson Correlation）
递归特征消除（RFE）

from sklearn.feature_selection import VarianceThreshold

# 创建一个简单的数据集
data = np.array([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

# 初始化VarianceThreshold
selector = VarianceThreshold(threshold=0.5)

# 拟合并转换数据
selected_data = selector.fit_transform(data)

print("原始数据:n", data)
print("特征选择后的数据:n", selected_data)

输出结果：

原始数据:
 [[0 2 0 3]
 [0 1 4 3]
 [0 1 1 3]]
特征选择后的数据:
 [[2 0 3]
 [1 4 3]
 [1 1 3]]

6. 总结

今天我们一起探讨了机器学习中的数据预处理技术，特别是标准化和归一化。我们还介绍了其他一些常用的技术，如离散化、缺失值处理和特征选择。通过这些方法，我们可以让数据变得更加“友好”，从而提高模型的性能。

最后，记住一点：数据预处理没有万能药。不同的数据集和算法可能需要不同的预处理策略。因此，多尝试、多实验，找到最适合你数据的方案才是王道。

希望今天的讲座对你有所帮助！如果有任何问题，欢迎随时提问。下次见！ 😊

参考文献

Scikit-learn官方文档
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.

机器学习中的数据预处理：标准化、归一化及其他技术

欢迎来到“数据预处理”讲座！

1. 为什么要进行数据预处理？

2. 标准化（Standardization）

什么是标准化？

什么时候使用标准化？

Python代码示例

3. 归一化（Normalization）

什么是归一化？

什么时候使用归一化？

Python代码示例

4. 标准化 vs 归一化：谁更适合？

5. 其他常用的数据预处理技术

5.1 离散化（Discretization）

5.2 缺失值处理

5.3 特征选择

6. 总结

参考文献

发表回复 取消回复

发表回复取消回复