应用错误收集

时间：2018-01-25 13:45:11

标签： nlp gensim topic-modeling

我最近遇到了以下问题：在一堆已解析的PDF文件上应用主题模型时，我发现不幸的是，引用的内容也是模型的重要内容。即引用中的单词出现在标记化的单词列表中。

是否有任何已知的＆＃34;最佳实践＆＃34;解决这个问题？

我想到了一个搜索策略，其中python代码在最后一次提及＆＃34;引用后自动删除所有内容。或＆＃34;参考书目＆＃34;。如果我愿意第一次，或随便提及＆＃34;引用＆＃34;或＆＃34;参考书目＆＃34;在全文中，解析器可能无法捕获真正的完整内容。

输入PDF全部来自不同的期刊，因此页面结构不同。

答案 0 :(得分：2)

语法是使参考书目条目与常规句子不同的原因。

测试与您尝试删除的任何（或多个）引用样式一致的模式。

Aka日期，不带引号的字符串，字符串，特定格式的页码。

在此之前，我花了一些时间寻找已经识别参考书目的工具，因为它对每种风格都是独一无二的（MLA等）。

答案 1 :(得分：1)

要考虑检测参考序列开始的其他一些附加功能