从java中的一系列教科书PDF中查找作者信息

时间:2016-03-27 03:50:29

标签: java pdf search find author

是否有可靠的方法来搜索PDF教科书的文件夹,并通过在PDF文档中找到它来取回每本教科书的作者?

我的思维过程就是在宣布作者之前搜索在作者被命名之前通常使用的关键字,例如:作者,书面作者或任何一系列常用术语。一旦找到这些关键字中的一个,我就会检查下一个不属于字典的10个单词(因为名称通常与实际单词不匹配),然后将这些单词存储在带有PDF标题的文档中。

或者,如果这被证明是非常不准确的,我会强调建议的作者姓名,整个句子显示在上下文框架中,然后我会有2个按钮,一个用于是,一个用于否。如果不是,它将尝试继续搜索并最终扩大搜索,如果没有匹配。

我的问题是我不知道有哪些选项可供使用。那里的任何免费资源或尝试这个想法的提示都会有很大帮助。

到目前为止,我所知道的最佳选择只是暂时将PDF转换为文本文件,然后搜索该系列关键字以尝试此操作。

0 个答案:

没有答案