我需要在HTML文档中标记部分文本。但是,它主要由日期,公司名称,地址等形式的文本组成。我计划使用CRF(sklearn-crfsuite)
我的问题是很难将数据集分成句子。我们能否训练一个没有句子边界的CRF模型将所有内容视为一个单一的序列? CRFSuite或sklearn-crfsuite中的教程没有谈到这一点。
如果没有句子分割就无法完成,有关如何将这些文本划分为句子的任何提示吗?
答案 0 :(得分:0)
是的,您可以在不将输入序列划分为句子的情况下进行训练 - 只需对所有内容使用大序列。例如,https://github.com/scrapinghub/webstruct为HTML页面执行此操作。
句子中的拆分序列提供了额外的信息(硬边界),但CRF可以在没有它的情况下工作。另见:https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf。