用自然语言理解的Caffe

时间:2016-06-12 17:42:07

标签: python database caffe pycaffe

我正在使用Rotten Tomatoes database作为我的数据集。在this code之后我格式化了数据。因此,每个句子的大小为56个单词,如果句子的大小小于56个单词,则此代码会将一些 PAD 放在序列的末尾。例如,仅仅为了理解而不是句子大小为56,想象它是5:

在:

complete_sentence = ['a', 'b', 'c', 'd', 'e']
not_complete_sentence = ['a', 'b', 'c']

后:

complete_sentence = ['a', 'b', 'c', 'd', 'e']
not_complete_sentence = ['a', 'b', 'c', 'PAD', 'PAD']

处理完数据后,我将其转换为caffe datum:

datum = caffe.proto.caffe_pb2.Datum()
datum.channels = 1
datum.height = txt_array.shape[0] ## 56
datum.width = 1
datum.label = label
datum.data = txt_array.tobytes()

标签为0或1(正面或负面评论),txt_array为格式化句子 np.array 。最后,我把这个数据放在两个lmdbs上,一个用于训练,另一个用于测试。

我想知道我的数据集是否配置好?对于图像,我使用了类似的东西,但对于文本,这个配置也有效吗?或者我必须为文本做些不同的事情吗?

0 个答案:

没有答案