我最近遇到了以下问题:在一堆已解析的PDF文件上应用主题模型时,我发现不幸的是,引用的内容也是模型的重要内容。即引用中的单词出现在标记化的单词列表中。
是否有任何已知的"最佳实践"解决这个问题?
我想到了一个搜索策略,其中python代码在最后一次提及"引用后自动删除所有内容。或"参考书目"。如果我愿意第一次,或随便提及"引用"或"参考书目"在全文中,解析器可能无法捕获真正的完整内容。
输入PDF全部来自不同的期刊,因此页面结构不同。
答案 0 :(得分:2)
语法是使参考书目条目与常规句子不同的原因。
测试与您尝试删除的任何(或多个)引用样式一致的模式。
Aka日期,不带引号的字符串,字符串,特定格式的页码。
在此之前,我花了一些时间寻找已经识别参考书目的工具,因为它对每种风格都是独一无二的(MLA等)。
答案 1 :(得分:1)
要考虑检测参考序列开始的其他一些附加功能