将松散结构化文档自动划分为子部分的过程?

时间:2018-06-15 21:36:44

标签: machine-learning nlp text-processing

我有一些半结构化的文件。所有这些都是各种来源的职位。每个文档都有一个需求部分,一个资格部分等等。

问题是这些没有固定的格式。有时,节名称是粗体,有时它们在h1,h2标签中,有时它们与文本的其余部分相同。

将这些文件划分为更小的部分的过程是什么?我可以搜索一个已知的术语吗?

0 个答案:

没有答案