TFRecord输入数据格式

Tensorflow提供了一种统一的格式来存储数据,这个格式就是TFRecord,接下来介绍如何使用TFRecord来统一输入数据的格式。

  • TFRcord格式介绍

TFRcord文件中的数据都是通过tf.train.Example Protocol Buffer的格式来存储的,以下代码给出了tf.train.Example的定义。

message example{
    Feature feature = 1;
}

message Feature {
    map < string,Feature > feature = 1;
}
message Feature {
    oneof kind {
        BytesList bytes_list = 1;
        FloatList float_list = 2;
        Int64List int64_list = 3;
    }
};

从以上代码可以看出tf.train.Example的数据结构是比较简洁的。tf.train.Example中包含了一个从属性名称到取值的字典。其中属性名称是一个字符串,属性数值可以为字符串(BytesList),实数列表(FloatList)或者整数列表(Int64List)。


TFRcord样例程序

  • 本样例展示了把mnist数据集转化为TFRcord格式。
#coding;utf-8

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
import numpy as np

def _int64_feature(value):
    return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))

def _bytes_feature(value):
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

mnist = input_data.read_data_sets('mnist/',dtype=tf.uint8,one_hot=True)

images = mnist.train.images
labels = mnist.train.labels

pixels = images.shape[1]

num_examples = mnist.train.num_examples

filename = 'output/train.tfrecords'

writer = tf.python_io.TFRecordWriter(filename)
for index in range(num_examples):
    image_raw = images[index].tostring()
    example = tf.train.Example(features=tf.train.Features(feature={
        'pixels':_int64_feature(pixels),
        'label':_int64_feature(np.argmax(labels[index])),
        'image_raw':_bytes_feature(image_raw)}))

    writer.write(example.SerializeToString())
writer.close()

以上程序可以将mnist数据集中所有的训练数据存储到一个TFRcord文件中,当数据量较大时,也可以将数据写入多个TFRcord文件。


  • 本样例展示了读取TFRcord中的数据。
#coding;utf-8

import tensorflow as tf
import matplotlib as plt
import cv2

reader = tf.TFRecordReader()
#创建一个队列来维护输入的文件列表
filename_queue = tf.train.string_input_producer(['output/train.tfrecords'])

_,serialized_example = reader.read(filename_queue)

features = tf.parse_single_example(serialized_example,
                                   features={
                                       'image_raw':tf.FixedLenFeature([],tf.string),
                                       'pixels':tf.FixedLenFeature([],tf.int64),
                                       'label':tf.FixedLenFeature([],tf.int64),
                                   })
images = tf.decode_raw(features['image_raw'],tf.uint8)
labels = tf.cast(features['label'],tf.int32)
pixels = tf.cast(features['pixels'],tf.int32)

sess = tf.Session()

coord = tf.train.Coordinator()

threads = tf.train.start_queue_runners(sess=sess,coord=coord)
for i in range(10):
    image,label,pixel = sess.run([images,labels,pixels])
    cv2.imshow('image',image)

以上程序可以将之前生成的train.tfrecords文件转换为可读图片。