【20211208】【Python】UCI数据集的简单介绍和使用Python保存UCI数据集为.mat文件

一、UCI 数据集介绍进行机器学习学习过程中，会使用到 UCI 公开数据集，UCI 数据集网址：UCI Machine Learning Repository。点击进入之后，页面显示如下：以 iris 数据集为例，点击进入：该页面展示了该数据集的相关信息，包括：数据及相关介绍、相关任务、样本个数、特征个数、是否有缺失值等。常见数据集及其样本个数、特征个数总结：更为详细的数据集介...

Satisfying

15398人浏览 · 2021-12-08 21:14:26

Satisfying · 2021-12-08 21:14:26 发布

一、UCI 数据集介绍

进行机器学习学习过程中，会使用到 UCI 公开数据集，UCI 数据集网址：UCI Machine Learning Repository。

点击进入之后，页面显示如下：

以 iris 数据集为例，点击进入：

该页面展示了该数据集的相关信息，包括：数据及相关介绍、相关任务、样本个数、特征个数、是否有缺失值等。

常见数据集及其样本个数、特征个数总结：

更为详细的数据集介绍和使用方法见下面参考链接，因为本文是利用 Python 读取数据集，所以就不在此赘述了~

（参考：UCI数据集整理（附论文常用数据集））

（参考：UCI数据集详解及其数据处理（附148个数据集及处理代码））

二、使用 Python 读取 UCI 数据集，并保存成 .mat 数据

在 UCI 网站下载数据集固然可行，但突然想到 Python 中的 sklearn.datasets 可以直接 load 数据集，所以直接借用 Python 了。

代码如下：

import numpy as np
from sklearn import datasets  # UCI 数据集在sklearn.datasets中有
from scipy import io as scio  # 用来save .mat数据

# 载入wine数据集
Data = datasets.load_wine()

feaName = Data.feature_names  # 数据集特征名称
tarName = Data.target_names  # 数据集标签名称

myData = np.array(Data.data)  # 数据集数据
labels = np.array(Data.target)  # 数据集标签

DataSet = {}
DataSet['feature_names'] = feaName
DataSet['class_names'] = tarName
DataSet['data'] = myData
DataSet['label'] = labels


# 保存数据到 .mat 文件中
scio.savemat('DataSet_UCIwine.mat', DataSet)

（参考：python读取文件——python读取和保存mat文件）

三、sklearn.datasets.load_wine() 使用方法

本节详细介绍 sklearn.datasets.load_wine() 的返回值，即 Data 是什么？

from sklearn import datasets

Data = datasets.load_wine()

可以看出，Data 是一个 Bunch 模式的数据，其中包含 data（数据集数据）、feature_names（特征名字）、target（数据集标签）、target_names（分类后的类别名字）等信息，所以可以通过 Data.data, Data.target 等的方法获取数据和相应标签等。

（参考：【20210924】【机器/深度学习】以鸢尾花卉数据集为例，使用K折交叉验证选取KNN算法最优的模型参数实例）

四、知识点

1. Bunch 模式

Bunch 模式继承自 Dict 类，所以它具有 Dict 类的所有属性。

Bunch 模式非常灵活，其属性可以动态设置，可以使用它实现多种类型，尤其适用于建立树形结构。

（参考：Python中的Bunch模式）

（参考：python函数——Bunch配置加载）

（参考：Python中的Bunch模式）

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

openGauss 6.0.0 RC1数据库日常运维

华为开发者空间

KubeEdge 1.20.0发布！ 6大新特性提升边缘管理能力

华为开发者空间

解读TaurusDB二级分区，如何提高查询性能和管理效率

华为开发者空间

所有评论(0)

查看更多评论

Satisfying

@weixin_40583722

已为社区贡献10条内容