我们正在建立科学论文数据库并对摘要进行分析。目标是能够说“对这一主题的兴趣比去年增加了20%”。我已经尝试过关键词分析,并没有真正喜欢这些结果。所以现在我正试图将短语和文字的接近移到彼此身上,并意识到我在我脑海中。任何人都可以指出我更好的解决方案,或者至少给我一个好的术语谷歌了解更多?
使用的语言是python,但我不认为这会影响你的答案。在此先感谢您的帮助。
答案 0 :(得分:2)
这只是猜测;不确定这种方法是否有效。如果你正在看短语和文字的接近,也许你可以建立一个马尔可夫链?这样你就可以了解某些短语/单词相对于他人的频率(基于你的马尔可夫链的顺序)。
所以你建立了2009年马尔可夫链和频率分布。然后你在2010年底建立另一个并比较频率(某些短语和单词)。您可能需要对文本进行规范化。
除此之外,我想到的是自然语言处理技术(有很多关于这个主题的文献!)。
答案 1 :(得分:1)
这是一个很大的主题,但是NLTK工具包可以很好地介绍这样的NLP。这是用于教学和使用Python - 即。适合涉猎和实验。在NLTK网站上还有一本非常好的开源书(也是来自O'Reilly的纸质表格)。