The Foo Fighters performed at...
(The Foo) (Foo Fighters) (Fighters performed) (performed at)...
我有一个从许多句子连接起来的2克派生词列表。我想从整个列表中提取两个和三个单词(The Foo Fighters
,Bill Gates
)的短语。但我想拒绝更长的短语(to cancel this newsletter, please click...
)。
编辑:也就是说,我想提取那些可能是实体的短语,例如名词。
对此有什么好处?
我提出的最简单的方法是只考虑双字短语和过滤停用词。但它不会接受The Foo Fighters
。我还简要地考虑过TF-IDF降级过于常见的短语。
答案 0 :(得分:1)
对于一个大学。项目我必须做一些与你所描述的非常相似的事情。
我们尝试了以下方法:
从上面的3开始,基于维基百科的算法大幅度地实现了最佳性能(p_value <0.05,不记得究竟有多少)
我们是如何做到的完全是:
对于维基百科排名 - 固定和动态得分相似的结果,对于其他人 - 动态是我们尝试过的最好。