跨多个结构不同的文档的文本提取

时间:2019-06-17 21:10:03

标签: machine-learning text-extraction

我想了解一种从pdf或网页中提取数据的有效(非手动)方法。

例如,如果我想根据他们的投资策略评估是否投资共同基金以及他们是否进行了卖空交易,我通常可以在基金的招股说明书中找到这些信息。难点在于我想用100支基金来做到这一点,每种基金可能使用略有不同的术语,而不能依赖于相同位置的信息。

因此,从我应该研究哪种技术以及可以使用哪些功能的角度来看,我的问题更具理论性。

当我使用各种术语搜索但找不到合适的词时,任何想法都将不胜感激。

谢谢

PS我非常喜欢UI的概念,在这种情况下我可以协助进行有监督的培训,因为我可以将pdf中的任何功能标记为我将其分类为的属性。是否有任何现有工具已经可以执行此操作?

0 个答案:

没有答案