应用错误收集

时间：2017-07-17 20:38:13

标签： machine-learning crf crfsuite python-crfsuite

我需要在HTML文档中标记部分文本。但是，它主要由日期，公司名称，地址等形式的文本组成。我计划使用CRF（sklearn-crfsuite）

我的问题是很难将数据集分成句子。我们能否训练一个没有句子边界的CRF模型将所有内容视为一个单一的序列？ CRFSuite或sklearn-crfsuite中的教程没有谈到这一点。

如果没有句子分割就无法完成，有关如何将这些文本划分为句子的任何提示吗？

数据是这样的:(我不能分享实际数据）

答案 0 :(得分：0)

是的，您可以在不将输入序列划分为句子的情况下进行训练 - 只需对所有内容使用大序列。例如，https://github.com/scrapinghub/webstruct为HTML页面执行此操作。

句子中的拆分序列提供了额外的信息（硬边界），但CRF可以在没有它的情况下工作。另见：https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf。