Question

我正在尝试使用torchtext标记序列为句子的序列。因此，每个class C_type { vector<vector<T>> name; C_type();} C_type::C_type(){name = vector<vector<T>>(..........都是一个句子及其标签的列表：

Example

我当然仍然希望在单词级别上使用标记化和词汇，但是似乎没有明显的方法可以做到这一点。例如，[ { 'texts': ["An example.", "It's the data.", "I'm talking about it."], 'labels': [0,2,0] }, { 'texts': ["This is another example", "This is also data."], 'labels': [0,1] } ]期望有一个TabularDataset的列表适用于每个示例的元素，但我想在构成输入的句子列表中映射文本字段。

我以为这也许是Field的目的，但它似乎专门针对字符嵌入。

我想念什么吗？ torchtext是否有可能（没有太多麻烦）？我非常愿意接受不回答：）

Answer 1

以下是使用Field和NestedField的示例：

NESTING_FIELD = Field(batch_first=True, tokenize=clean_string)
TEXT_FIELD = NestedField(NESTING_FIELD, tokenize=split_sents)

使用带有文本序列的torchtext作为输入

1 个答案: