标签: machine-learning nlp text-processing
我有一些半结构化的文件。所有这些都是各种来源的职位。每个文档都有一个需求部分,一个资格部分等等。
问题是这些没有固定的格式。有时,节名称是粗体,有时它们在h1,h2标签中,有时它们与文本的其余部分相同。
将这些文件划分为更小的部分的过程是什么?我可以搜索一个已知的术语吗?