Python实现机器学习中特征工程的详细教程【教程】

admin 百科 2025-12-16 12

特征工程是让模型更清晰识别数据规律的关键步骤，直接影响效果；需据模型类型选择标准化或归一化，按类别性质选用编码方式，将缺失视为信息并构造有业务意义的特征。

Python实现机器学习中特征工程的详细教程【教程】-第1张图片-佛山资讯网

特征工程不是“加数据”，而是让模型能更清楚地看到数据里的规律。它直接影响模型效果，有时比换算法还管用。

数值型特征的处理：标准化与归一化不能混用

很多初学者直接对所有数值列做 StandardScaler，但实际要看分布和用途：

线性模型（如线性回归、逻辑回归、SVM）通常需要标准化（Z-score），让不同量纲的特征贡献更均衡；
树模型（如决策树、随机森林、XGBoost）不依赖数值缩放，标准化反而可能干扰分割点选择；
归一化（Min-Max Scaling）适合有明确上下界的数据（如像素值 0–255、评分 1–5），或用于神经网络输入层加快收敛。

示例（使用 scikit-learn）：

from sklearn.preprocessing import StandardScaler, MinMaxScaler
scaler = StandardScaler() # 或 MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train.select_dtypes(include='number'))
X_test_scaled = scaler.transform(X_test.select_dtypes(include='number')) # 注意：只 transform，不 fit