NLP:标记网址

时间:2014-06-14 17:16:10

标签: ruby-on-rails tags nlp

从URL中提取3个与其相关性的标签的最佳方法是什么?

例如:给定http://david.heinemeierhansson.com/2014/tdd-is-dead-long-live-testing.html

结果可能是:

Test-driven-development: 0.7
Rails: 0.2
Programming: 0.1

PS:

1)它适用于Rails应用程序。因此,好的答案应该包括API请求,或者执行此操作的Ruby Gem。

2)相关性实际上不必标准化(总计为1)

1 个答案:

答案 0 :(得分:0)

您可以对网址的内容进行主题建模:http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm