应用错误收集

将松散结构化文档自动划分为子部分的过程？

时间：2018-06-15 21:36:44

标签： machine-learning nlp text-processing

我有一些半结构化的文件。所有这些都是各种来源的职位。每个文档都有一个需求部分，一个资格部分等等。

问题是这些没有固定的格式。有时，节名称是粗体，有时它们在h1，h2标签中，有时它们与文本的其余部分相同。

将这些文件划分为更小的部分的过程是什么？我可以搜索一个已知的术语吗？

0 个答案:

没有答案