NLP挑战:自动删除参考书目/参考文献?

时间:2018-01-25 13:45:11

标签: nlp gensim topic-modeling

我最近遇到了以下问题:在一堆已解析的PDF文件上应用主题模型时,我发现不幸的是,引用的内容也是模型的重要内容。即引用中的单词出现在标记化的单词列表中。

是否有任何已知的"最佳实践"解决这个问题?

我想到了一个搜索策略,其中python代码在最后一次提及"引用后自动删除所有内容。或"参考书目"。如果我愿意第一次,或随便提及"引用"或"参考书目"在全文中,解析器可能无法捕获真正的完整内容。

输入PDF全部来自不同的期刊,因此页面结构不同。

2 个答案:

答案 0 :(得分:2)

语法是使参考书目条目与常规句子不同的原因。

测试与您尝试删除的任何(或多个)引用样式一致的模式。

Aka日期,不带引号的字符串,字符串,特定格式的页码。

在此之前,我花了一些时间寻找已经识别参考书目的工具,因为它对每种风格都是独一无二的(MLA等)。

答案 1 :(得分:1)

要考虑检测参考序列开始的其他一些附加功能

  • 检查提及“参考”或“参考书目”是否在最后几页而不是之前的页面
  • 在单词之后运行一些字长(~50?)的实体识别,如果50中的大量标记是实体,则表示期刊名称,作者姓名等。