python使用dataset数据集_Python——数据集和数据加载器,pytorchDataset,Dataloader

Dataset和DataloaderDataset基类PyTorch 读取其他的数据，主要是通过 Dataset 类，所以先简单了解一下 Dataset 类。在看很多PyTorch的代码的时候，也会经常看到dataset这个东西的存在。Dataset类作为所有的 datasets 的基类存在，所有的 datasets 都需要继承它。构建Dataset子类下面我们构建一下Dataset的子类，叫他M

weixin_39820158

10360人浏览 · 2021-01-29 08:24:28

weixin_39820158 · 2021-01-29 08:24:28 发布

Dataset和Dataloader

Dataset基类

PyTorch 读取其他的数据，主要是通过 Dataset 类，所以先简单了解一下 Dataset 类。在看很多PyTorch的代码的时候，也会经常看到dataset这个东西的存在。Dataset类作为所有的 datasets 的基类存在，所有的 datasets 都需要继承它。

构建Dataset子类

下面我们构建一下Dataset的子类，叫他MyDataset类：

import torch

from torch.utils.data import Dataset,DataLoader

class MyDataset(Dataset):

def __init__(self):

self.data = torch.tensor([[1,2,3],[2,3,4],[3,4,5],[4,5,6]])

self.label = torch.LongTensor([1,1,0,0])

def __getitem__(self,index):

return self.data[index],self.label[index]

def __len__(self):

return len(self.data)

Init

初始化中，一般是把数据直接保存在这个类的属性中。像是self.data,self.label

getitem

index是一个索引，这个索引的取值范围是要根据__len__这个返回值确定的，在上面的例子中，__len__的返回值是4，所以这个index会在0，1，2，3这个范围内。

dataloader

从上文中，我们知道了MyDataset这个类中的__getitem__的返回值，应该是某一个样本的数据和标签(如果是测试集的dataset，那么就只返回数据)，在梯度下降的过程中，一般是需要将多个数据组成batch，这个需要我们自己来组合吗？不需要的，所以PyTorch中存在DataLoader这个迭代器(这个名词用的准不准确有待考究)。

继续上面的代码，我们接着写代码：

mydataset=MyDataset()

mydataloader = DataLoader(dataset=mydataset,

batch_size=1)

我们现在创建了一个DataLoader的实例，并且把之前实例化的mydataset作为参数输入进去，并且还输入了batch_size这个参数，现在我们使用的batch_size是1.下面来用for循环来遍历这个dataloader：

for i,(data,label) in enumerate(mydataloader):

print(data,label)

输出结果：

意料之中的结果，总共输出了4个batch，每个batch都是只有1个样本(数据+标签)，值得注意的是，这个输出过程是顺序的。

我们稍微修改一下上面的DataLoader的参数：

mydataloader = DataLoader(dataset=mydataset,

batch_size=2,

shuffle=True)

for i,(data,label) in enumerate(mydataloader):

print(data,label)

输出结果：

可以看到每一个batch内出现了2个样本。假如我们再运行一遍上面的代码，得到：

两次结果不同，这是因为shuffle=True,dataset中的index不再是按照顺序从0到3了，而是乱序，可能是[0,1,2,3],也可能是[2,3,1,0]。

其他

Dataloader和Dataset两个类是非常方便的，因为这个可以快速的做出来batch数据，修改batch_size和乱序都非常地方便。有下面两个希望注意的地方：

一般标签值应该是Long整数的，所以标签的tensor可以用torch.LongTensor(数据)或者用.long()来转化成Long整数的形式。

如果要使用PyTorch的GPU训练的话，一般是先判断cuda是否可用，然后把数据标签都用to()放到GPU显存上进行GPU加速。

device = 'cuda' if torch.cuda.is_available() else 'cpu'

for i,(data,label) in enumerate(mydataloader):

data = data.to(device)

label = label.to(device)

print(data,label)

输出：

HarmonyOS开发者社区

讨论HarmonyOS开发技术，专注于API与组件、DevEco Studio、测试、元服务和应用上架分发等。

更多推荐

DevEco Studio 鸿蒙开发环境搭建全指南

点击页面右上角的 “下载” 按钮，根据你的操作系统选择安装包。配置完成后，你会在 “我的设备” 列表中看到新建的模拟器。点击操作栏中的 “启动” 按钮，即可运行鸿蒙模拟器。如果启动模拟器时遇到 “未开启 Hyper-V” 的报错，这是因为 Windows 的虚拟化功能未启用。DevEco Studio 的正常提示，弹窗表示当前鸿蒙模拟器存在更高版本的系统镜像可供下载更新。首先，我们需要从华为官方网

HarmonyOS开发者社区

21 鸿蒙LiteOS软件定时器实战：多定时器周期性任务完整示例（源码+解析）

本文详细介绍了鸿蒙LiteOS中软件定时器的使用方法和注意事项。主要内容包括：软件定时器的核心概念、API函数说明、完整可运行源码示例及逐行解析。文章重点对比了任务与软件定时器的区别，指出定时器回调函数必须简短且不能阻塞，适合简单定时触发场景；而任务适合复杂业务逻辑处理。通过1秒和2秒两个周期性定时器的实例演示，展示了多定时器并发运行的实现方式。最后总结了定时器和任务各自适用的典型场景，为开发者提

HarmonyOS开发者社区

鸿蒙音乐播放器应用开发指南

本项目是基于鸿蒙OS ArkTS开发的音乐播放器应用，采用现代化UI设计，支持本地音乐播放、在线搜索和播放列表管理。应用采用卡片式布局和扁平化风格，包含音乐播放控制、进度调节、收藏等核心功能。技术架构分为数据层、业务层和UI层，使用TypeScript接口定义数据结构，通过组件化开发和状态管理实现响应式交互。项目亮点包括性能优化、代码复用和良好的可扩展性，未来可集成在线播放、歌词显示等扩展功能。