MindSpore加载文本数据集

 时间:2026-02-20 14:34:17

1、准备数据

1. 数据如下:

Welcome to Beijing!

北京欢迎您!

我喜欢China!

2.创建tokenizer.txt文件并复制文本数特册摸据到该文件中,将该文件存放在./test路径中,目录结轿晃构如下。

└─test

    └─tokenizer.txt

3.导入mindspore.dataset和mindspore.dataset.text模块。

import mindspore.dataset as ds

import mindspore.dataset.text as text

2、加载数据集

1.配置数据集目录,创建数据集对象。

DATA_FILE = "./test/tokenizer.txt"

dataset = ds.TextFileDataset(DATA_FILE, shuffle=False)

2.创建迭代器,通过迭代器获取数据。

for data in dataset.create_dict_iterator(output_numpy=True):

    print(text.to_str(data['text']))

获取到分词前的数据:

Welcome to Beijing!

北京欢迎您!

我喜欢China!

3、数据分词

下面演示使用WhitespaceTokenizer分词器来分词,该分词是按照爹晃空格来进行分词。

1.创建tokenizer。

tokenizer = text.WhitespaceTokenizer()

2.执行操作tokenizer。

dataset = dataset.map(operations=tokenizer)

3.创建迭代器,通过迭代器获取数据。

for i in dataset.create_dict_iterator(num_epochs=1, output_numpy=True):

        token = text.to_str(i['text']).tolist()

        print(token)

获取到分词后的数据:

['Welcome', 'to', 'Beijing!']

['北京欢迎您!']

['我喜欢China!']

  • MindSpore怎样使用混合精度
  • 如何使用torchtext读取文本数据集
  • MindSpore如何动态调整学习率
  • 文本数据转换为Excel表格数据
  • CAD如何加载标记集
  • 热门搜索
    如何钓白条鱼 如何恢复删除的文件 生活因什么而精彩 如何安装字体到电脑 起亚k3油耗怎么样 怎么样才能不射 饥荒千年狐怎么升级 向往的生活第四季 小巨蛋牙膏怎么样 如何建设网站