如何逃避CNTK文本阅读器中的特殊字符?

时间:2017-03-14 00:22:10

标签: cntk

对于像这样读取CTF格式文件的读者,

     query         = StreamDef(field='S0', shape=vocab_size,  is_sparse=True),
     intent        = StreamDef(field='S1', shape=num_intents, is_sparse=True),  
     slot_labels   = StreamDef(field='S2', shape=num_labels,  is_sparse=True)

如何逃避特殊字符,例如“|”如果是令牌? 我正在警告中间的线路,其中令牌本身是“|”

48155 | S0 196:1 |# - | S2 0:1 |#无

48155 | S0 18217:1 |#| | S2 0:1 |#无

48155 | S0 3152:1 | #Cindy | S2 0:1 | #No

我可以在创建CFT文件时删除它们,但我想知道我们如何处理这个问题。 感谢

2 个答案:

答案 0 :(得分:0)

可以通过向其添加哈希符号来转义管道:|# this is a CTF comment with an escaped pipe: '|#'

答案 1 :(得分:0)

您还可以将管道映射到未显示在语料库中的其他单词或字符。我通常用。替换管道。