我正在尝试使用torchtext标记序列为句子的序列。因此,每个class C_type {
vector<vector<T>> name;
C_type();}
C_type::C_type(){name = vector<vector<T>>(..........
都是一个句子及其标签的列表:
Example
我当然仍然希望在单词级别上使用标记化和词汇,但是
似乎没有明显的方法可以做到这一点。例如,[
{
'texts': ["An example.", "It's the data.", "I'm talking about it."],
'labels': [0,2,0]
},
{ 'texts': ["This is another example", "This is also data."],
'labels': [0,1]
}
]
期望有一个TabularDataset
的列表适用于每个示例的元素,但我想在构成输入的句子列表中映射文本字段。
我以为这也许是Field
的目的,但它似乎专门针对字符嵌入。
我想念什么吗? torchtext是否有可能(没有太多麻烦)?我非常愿意接受不回答:)
答案 0 :(得分:0)
以下是使用Field和NestedField的示例:
NESTING_FIELD = Field(batch_first=True, tokenize=clean_string)
TEXT_FIELD = NestedField(NESTING_FIELD, tokenize=split_sents)