使用带有文本序列的torchtext作为输入

时间:2019-04-27 15:36:34

标签: python pytorch text-processing torchtext

我正在尝试使用torchtext标记序列为句子的序列。因此,每个class C_type { vector<vector<T>> name; C_type();} C_type::C_type(){name = vector<vector<T>>(.......... 都是一个句子及其标签的列表:

Example

我当然仍然希望在单词级别上使用标记化和词汇,但是 似乎没有明显的方法可以做到这一点。例如,[ { 'texts': ["An example.", "It's the data.", "I'm talking about it."], 'labels': [0,2,0] }, { 'texts': ["This is another example", "This is also data."], 'labels': [0,1] } ] 期望有一个TabularDataset的列表适用于每个示例的元素,但我想在构成输入的句子列表中映射文本字段。

我以为这也许是Field的目的,但它似乎专门针对字符嵌入。

我想念什么吗? torchtext是否有可能(没有太多麻烦)?我非常愿意接受不回答:)

1 个答案:

答案 0 :(得分:0)

以下是使用Field和NestedField的示例:

NESTING_FIELD = Field(batch_first=True, tokenize=clean_string)
TEXT_FIELD = NestedField(NESTING_FIELD, tokenize=split_sents)