本博客参考:sklearn官方api

数据集简介

乳腺癌数据集
经典的二分类数据集

569个样本,每个样本30个特征,阳性样本357,阴性样本212

关于乳腺癌数据集
乳腺癌数据集的原型是一组病灶造影图片,该数据集的提供者在收集到这些图片的初期,首先对图片进行了分析,从每张图片中提取主要的特征,然后编写图片处理程序,从图片中抽取这些特征。本数据集只关注了10个原始特征,然后又求得每个原始特征的标准差和最大值作为两个衍生特征,这样,最终数据集呈现出的效果便是30个特征
关于衍生特征
实际上,通过处理原始特征得到的衍生特征能够体现出事物间的内在逻辑。比如现在有多台主机,我们知道了每台主机的cpu占用率、内存占用率、网络吞吐量等三个特征,我们想要将其分类为(正常运行/不正常运行)两种状态,然而我们知道,仅仅凭借其中的任意一个特征判断主机状态都是不合理的,那么怎么办?
我们可以构造衍生特征:cpu占用率/内存占用率,cpu占用率/网络吞吐量作为新的特征,这些特征能够更好地反映出主机状态

函数参数

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)

return_X_y

若为True,则返回(data,target)
若为False,则返回一个Bunch对象

返回值

return_X_y=True

return_X_y=False

Bunch对象

Dictionary-like object

data:{ndarray, dataframe} of shape (569, 30)

数据矩阵,as_frame设置为True时,该属性将是一个DataFrame对象

target: {ndarray, Series} of shape (569,)

分类标签,as_frame设置为True时,该属性将是一个Series对象

feature_names: list

数据集每一列的名称

target_names: list

目标标签名称

frame: DataFrame of shape (569, 31)

只有当as_frame设置为True时,该属性才会生效,是一个DataFrame对象,里面包含了data和target

DESCR: str

关于数据集的完整描述

filename: str

breast_cancer数据集的本地的存储位置

使用示例

from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer()
x=cancer.data
y=cancer.target
x.shape,y.shape
>>> ((569, 30), (569,))

# 查看标签名称
cancer.target_names
>>> array(['malignant', 'benign'], dtype='<U9')

# 查看target中的数据是什么样子的
y[10:20],y[90:99]
>>> (array([0, 0, 0, 0, 0, 0, 0, 0, 0, 1]), array([1, 0, 1, 1, 0, 0, 1, 1, 1]))

# 查看阳性和阴性样本数量
y[y==0].shape,y[y==1].shape
>>> ((212,),(357,))

# 查看每个特征的名称
cancer.feature_names
>>> array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')
# 查看特征数量
len(cancer.feature_names)
>>> 30
Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐