【神经网络】Pytorch构建自己的训练数据集

【神经网络】Pytorch构建自己的训练数据集最近参加了一个比赛，需要对给定的图像数据进行分类，之前使用Pytorch进行神经网络模型的构建与训练过程中，都是使用的Pytorch内置的数据集，直接下载使用就好，而且下载下来的数据已经是Pytorch可以直接用于训练的Dataset类型，十分方便。但是如何使用Pytorch对自己的数据集进行训练，以及如何将数据集转换成Pytorch可以用于训练的D

I寒舟I

9244人浏览 · 2021-11-29 15:14:28

I寒舟I · 2021-11-29 15:14:28 发布

【神经网络】Pytorch构建自己的训练数据集

最近参加了一个比赛，需要对给定的图像数据进行分类，之前使用Pytorch进行神经网络模型的构建与训练过程中，都是使用的Pytorch内置的数据集，直接下载使用就好，而且下载下来的数据已经是Pytorch可以直接用于训练的Dataset类型，十分方便。但是如何使用Pytorch对自己的数据集进行训练，以及如何将数据集转换成Pytorch可以用于训练的Dataset数据类型，着实进行了一系列的摸索与尝试，特此进行记录。

如果要重写Pytorch的Dataset类与DataLoader类，首先需要获取到自己的数据集，我的数据是存放在 “./data” 文件夹下面，其中 “./data/image/train/” 文件夹下面存放的是用于训练的图像数据，对应的图像标签存放在 “./data/train.labels.csv” 文件中，其中的数据存放格式是 “train_0.jpg 0” ，而 “./data/image/test/” 文件夹下面存放的是测试图像，不含标签，因此训练过程的验证集选择从训练图像中进行按照比例划分，选择使用sklearn中的对应函数，可以按照比例的进行随机划分。

因此重写Pytorch的两个类，首先要将对应的图像与标签读取到，图像与标签进行匹配配对，然后进行后续的操作。

一、导入包：

import numpy as np
from sklearn.model_selection import train_test_split  # 将数据分为测试集和训练集
import os  # 打开读取文件
import cv2  # opencv读取图像
from matplotlib import pyplot as plt  # 测试图像是否读入进行绘制图像
import torch
from torch.autograd import Variable
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader
from PIL import Image

二、读取图像文件夹：

def read_directory(directory_name, array_of_img, length, imgPath):
    # 参数为文件夹名称，图像数组，读取的文件长度，图像地址数组
    direct = os.listdir(r"./" + directory_name)
    # 乱序读取进来的数据集，对读取进来的数据集按照标号进行排序
    direct.sort(key=lambda x: int(x[6:-4]))
    # 如果输入-1，将其转换为长度加一，即将数据全部读入
    if length == -1:
        length = len(direct) + 1
    for filename in direct[0: length]:
        print("读取图像：" + filename)  # 测试是否按序读入
        iPath = "./" + directory_name + filename  # 读取当前图像的地址
        imgPath.append(iPath)  # 追加进图像地址数组中去
        img = cv2.imread(directory_name + "/" + filename)
        # 调整图像大小
        # img = cv2.resize(img, (32, 32))
        # 使用cv2.imread()接口读图像，读进来的是BGR格式以及【0～255】,所以需要将img转换为RGB格式正常显示
        img = img[:, :, [2, 1, 0]]
        # # 转为一维数组
        # img = np.array(img).flatten()
        # # print(img)
        array_of_img.append(img)

注释已经基本上写的十分详细了，对代码进行简要的说明：

（1）读取到图像数据之后，将图像本身的数据与图像的地址数据分别存放在传入的列表"array_of_img"和"imgPath"中；

（2）读取图像数据之后，不知道Python读取进来的数据顺序是什么，但是有序的文件夹中的图像名称，读取进来之后就变成乱序了，因此使用正则表达式对图像的编号进行排序，保证其可以和对应的图像编号相对应；

（3）训练数据集中含有近八万张图像，如果每次测试都将图像全部读取进来，时间开销巨大，因此设置参数"length"，对读取文件夹中的图像列表进行切片，可以在训练中读取较少的图像用于测试。如果想要读取全部的参数，可以传入参数"-1"，但是Python的切片操作"[0:-1]“得到的列表不包含最后一个数据，因此对”-1"进行转换，设置为文件夹图像数据长度+1，就可以实现图像的全部读取进来；

（4）使用cv2.imread()接口读图像，读进来的是BGR格式以及[0～255]，如果对图像进行绘制的话，显示的颜色失真，所以需要将img转换为RGB格式正常显示。

三、显示图像：

def show_pic(images, length):
    i = 0
    plt.figure(figsize=(length, length))
    for img in images[0: length * length]:
        plt.subplot(length, length, i + 1)
        plt.imshow(img)
        # 关闭x，y轴显示
        plt.xticks([])
        plt.yticks([])
        i += 1

    plt.show()

如果想要测试是否成功的读取到图像，可以选择性的调用这个函数对图像进行绘制，参数为图像本身的数据数组以及想要每行显示的图像数量（共绘制length*length个图像）。

四、读取图像对应标签：

def read_tag(tag_path, tags, length):
    # 参数为标签文件路径，标签数组，读取长度
    # 读取数据的标签
    with open(tag_path) as file:
        for line in list(file)[0:length]:
            # 读取前多少张图片的标签
            a = str(line).split("\t")
            b = a[1]  # 得到数字值
            tag = int(b[0])  # 去掉换行符
            tags.append(tag)

同读取图像文件夹类似，需要对读取的标签数据进行格式检查，得到整型的图像标签，我的标签每行数据格式如"train_0.jpg 0"，因此这里的处理方法要根据自己的数据格式进行相应的调整。

五、分类图像数据集

#  对数据进行处理与加载
def data_load(img_path, tag_path, length, test_rate):
    # 获取数据与数据标签，并将数据分为训练集和测试集
    # 参数为图像文件夹，标签地址，length为读取的数据集长度，size为训练集测试集的区分比例

    images = []  # 图像数组
    tags = []  # 标签数组
    imPath = []  # 图像地址数组
    read_directory(img_path, images, length, imPath)
    read_tag(tag_path, tags, length)

    # 测试图像读取是否正常
    # show_pic(images, 10)

    # 转换为numpy数组
    images = np.array(images)
    tags = np.array(tags)

    # 返回处理得到的数据，有 X_train, X_test, y_train, y_test 四部分
    return train_test_split(images, tags, test_size=test_rate)

如果使用的SkLearn等工具包对数据进行训练，可以直接对原始数据进行训练，则可以利用此函数读取相应的数据，并根据测试集的比例，随机将训练集划分为训练集与验证集。

六、生成文本文件：

def create_txt(img_path, tag_path, length, test_rate):
    # 生成训练集，验证集的数据地址与对应标签存储的数据对
    images = []  # 图像数组
    imagePath = []  # 图像地址数组
    tags = []  # 训练标签数组

    # 读取指定数量的图像，图像地址，以及对应的训练标签
    read_directory(img_path, images, length, imagePath)
    read_tag(tag_path, tags, length)

    # 根据比例随机划分训练集与测试集对应的图像地址和对应的标签
    X_train, X_test, y_train, y_test = train_test_split(imagePath, tags, test_size=test_rate)

    # w+意思是：
    # 打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。
    # 如果该文件不存在，创建新文件
    train = open('./data/train.txt', 'w+')
    test = open('./data/test.txt', 'w+')

    for i in range(len(X_train)):  # 生成训练文档
        name = X_train[i] + ' ' + str(int(y_train[i])) + '\n'
        train.write(name)
    for i in range(len(X_test)):  # 生成测试文档
        name = X_test[i] + ' ' + str(int(y_test[i])) + '\n'
        test.write(name)

    train.close()
    test.close()

因为Pytorch中读取到的数据与标签类似于一个二元组，相互绑定，那么使用此函数将图像的地址与图像的标签进行绑定，生成一个txt文档，用于之后重写Dataset类，并且使用Sklearn的 “train_test_split()” 函数将数据根据比例随机划分为训练集与验证集，构建的txt文档格式为："./data/image/train/train_3.jpg 0"，用于之后的处理。

（注意使用的Python解释器，如果使用的是服务器上的解释器，生成的txt文档会在服务器的对应地址处，而本地没有这个txt文档，当初排查了好久。。。。。。）

七、重写Dataset类：

def default_loader(path):
    return Image.open(path).convert('RGB')


class MyDataset(Dataset):
    # 使用__init__()初始化一些需要传入的参数及数据集的调用
    def __init__(self, txt, resize, target_transform=None, loader=default_loader):
        super(MyDataset, self).__init__()
        # 对继承自父类的属性进行初始化
        fh = open(txt, 'r')
        imgs = []
        # 按照传入的路径和txt文本参数，以只读的方式打开这个文本
        for line in fh:  # 迭代该列表,按行循环txt文本中的内容
            line = line.strip('\n')
            line = line.rstrip('\n')
            # 删除本行string字符串末尾的指定字符，默认为空白符，包括空格、换行符、回车符、制表符
            words = line.split()
            # 用split将该行分割成列表，split的默认参数是空格，所以不传递任何参数时分割空格
            imgs.append((words[0], int(words[1])))
            # 把txt里的内容读入imgs列表保存
        self.imgs = imgs
        # 重新定义图像大小
        self.transform = transforms.Compose([transforms.Resize(size=(resize, resize)), transforms.ToTensor()])
        self.target_transform = target_transform
        self.loader = loader

    # 使用__getitem__()对数据进行预处理并返回想要的信息
    def __getitem__(self, index):
        fn, label = self.imgs[index]
        # fn是图片path
        img = self.loader(fn)
        # 按照路径读取图片
        if self.transform is not None:
            img = self.transform(img)
            # 数据标签转换为Tensor
        return img, label
        # return回哪些内容，那么在训练时循环读取每个batch时，就能获得哪些内容

    # 使用__len__()初始化一些需要传入的参数及数据集的调用
    def __len__(self):
        return len(self.imgs)

除了注释中的说明外，因为不同的神经网络模型对于图像大小要求不一样，因此构建数据集时传入参数 “resize”，将图像进行大小调整为 “resize*resize” 大小的图像，用于模型训练。

八、创建DataLoader：

def MyDataLoader(img_path, tag_path, length, test_rate, Resize, batch_size):
    # 制作适用于torch的数据
    create_txt(img_path, tag_path, length, test_rate)
    train_data = MyDataset(txt='./data/train.txt', resize=Resize)
    test_data = MyDataset(txt='./data/test.txt', resize=Resize)
    train_loader = DataLoader(dataset=train_data, batch_size=batch_size, shuffle=True)
    test_loader = DataLoader(dataset=test_data, batch_size=batch_size, shuffle=False)
    return train_loader, test_loader

首先构建图像与标签对应的文本数据，之后创建对应的dataset，然后构建成DataLoader用于Pytorch的模型训练。

九、测试：

def main():
    img_path = "data/image/train/"
    tag_path = "data/train.labels.csv"
    data_length = 10
    test_rate = 0.3
    batch_size = 2
    Resize = 64

    train_loader, test_loader = MyDataLoader(img_path, tag_path, data_length, test_rate, Resize, batch_size)
    for X, y in train_loader:
        print("Shape of X [N, C, H, W]: ", X.shape)
        print("Shape of y: ", y.shape, y.dtype)
        break


if __name__ == "__main__":
    main()

输出为：

读取图像：train_0.jpg
读取图像：train_1.jpg
读取图像：train_2.jpg
读取图像：train_3.jpg
读取图像：train_4.jpg
读取图像：train_5.jpg
读取图像：train_6.jpg
读取图像：train_7.jpg
读取图像：train_8.jpg
读取图像：train_9.jpg
Shape of X [N, C, H, W]: torch.Size([2, 3, 64, 64])
Shape of y: torch.Size([2]) torch.int64