特征工程是让模型更清晰识别数据规律的关键步骤,直接影响效果;需据模型类型选择标准化或归一化,按类别性质选用编码方式,将缺失视为信息并构造有业务意义的特征。

特征工程不是“加数据”,而是让模型能更清楚地看到数据里的规律。它直接影响模型效果,有时比换算法还管用。
数值型特征的处理:标准化与归一化不能混用
很多初学者直接对所有数值列做 StandardScaler,但实际要看分布和用途:
- 线性模型(如线性回归、逻辑回归、SVM)通常需要标准化(Z-score),让不同量纲的特征贡献更均衡;
- 树模型(如决策树、随机森林、XGBoost)不依赖数值缩放,标准化反而可能干扰分割点选择;
- 归一化(Min-Max Scaling)适合有明确上下界的数据(如像素值 0–255、评分 1–5),或用于神经网络输入层加快收敛。
示例(使用 scikit-learn):
from sklearn.preprocessing import StandardScaler, MinMaxScalerscaler = StandardScaler() # 或 MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train.select_dtypes(include='number'))
X_test_scaled = scaler.transform(X_test.select_dtypes(include='number')) # 注意:只 transform,不 fit
类别型特征编码:选对方法比硬套更重要
类别特征不能直接喂给大多数模型,但编码方式要按特征性质选:
立即学习“Python免费学习笔记(深入)”;
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
还木有评论哦,快来抢沙发吧~