从文本文档中提取关联值,并将表格作为返回值

时间:2019-02-16 08:19:12

标签: text-mining

从pdf文档中提取信息时遇到了挑战。我设法将pdf中的相关信息转换为r中的数据框。挑战在于将信息隐藏在文本中,是否有可能使信息以表格形式返回?

例如,我有一个动物,猴子,海雀,金枪鱼等的列表作为观察值,它们的特征作为变量,例如头,尾巴,眼睛,头发,长度,重量...我要求代码使用这些查询来搜索以表格形式返回的相关文档,表格以行作为观察值,以列作为变量(如果未找到值,则返回作为相关细胞中的NAs)?

我已经使用R从pdf文件中提取了感兴趣的参数。我的代码不灵活,只能使我提取并整理某些感兴趣的页面。这些页面是结构合理的附录,带有标签,可以用来缩小搜索范围。

0 个答案:

没有答案