06.Scikit-Learn教程

朋远方 • 2022年11月14日下午8:12 • 学习笔记 • 581 views

三种方式生成数据

方式1

#调用模块
from sklearn.datasets import load_iris
data = load_iris()

#导入数据和标签
data_X = data.data
data_y = data.target

方式2

from sklearn import datasets
loaded_data = datasets.load_iris()  # 导入数据集的属性

#导入样本数据
data_X = loaded_data.data
# 导入标签
data_y = loaded_data.target

方式3

# 直接返回
data_X, data_y = load_iris(return_X_y=True)

数据集使用汇总

from sklearn import datasets  # 导入库

boston = datasets.load_boston()  # 导入波士顿房价数据
print(boston.keys())  # 查看键(属性)     ['data','target','feature_names','DESCR', 'filename'] 
print(boston.data.shape,boston.target.shape)  # 查看数据的形状 
print(boston.feature_names)  # 查看有哪些特征 
print(boston.DESCR)  # described 数据集描述信息 
print(boston.filename)  # 文件路径

数据切分

# 导入模块
from sklearn.model_selection import train_test_split
# 划分为训练集和测试集数据
X_train, X_test, y_train, y_test = train_test_split(
  data_X, 
  data_y, 
  test_size=0.2,
  random_state=111
)

# 150*0.8=120
len(X_train)

数据标准化和归一化

from sklearn.preprocessing import StandardScaler  # 标准化
from sklearn.preprocessing import MinMaxScaler  # 归一化

# 标准化
ss = StandardScaler()
X_scaled = ss.fit_transform(X_train)  # 传入待标准化的数据

# 归一化
mm = MinMaxScaler()
X_scaled = mm.fit_transform(X_train)

类型编码

对数字编码

06.Scikit-Learn教程

对字符串编码

06.Scikit-Learn教程

原创文章，作者：朋远方，如若转载，请注明出处：https://caovan.com/06-scikit-learnjiaocheng/.html

algorithm algorithmic python sklearn 机器学习算法交易Algorithm Trading

Like (0)

Donate

微信扫一扫

0 0

05.金融特征工程

Previous 2022年11月14日上午11:27

07.理解线性回归与梯度下降并做简单预测

Next 2022年11月14日下午9:46

学习笔记

Linux常用操作之重定向与echo

002000

朋远方
2022年8月25日
学习笔记

Linux常用操作之系统信息

005380

朋远方
2022年8月28日
互联网技术

Ubuntu服务器安装MySQL并且指定数据库保存路径

00770

朋远方
2024年10月9日
学习笔记

02.用于数据科学的 Python 基础知识之pandas（上）

002690

朋远方
2022年11月11日
互联网技术

Ubuntu服务器自动备份文件到指定路径

001920

朋远方
2024年10月24日
学习笔记

Linux常用操作之打包和压缩

001500

朋远方
2022年8月28日

发表回复

Please Login to Comment