我正致力于提取关键字。系统将URL作为输入,输出应该是描述URL内容的关键字。我们现在只考虑文字部分。我想知道我可以采用哪些方法从URL中提取关键字以及它们如何相互比较。欢迎提出建议和重定向。
答案 0 :(得分:1)
我认为你可以使用这种方法
使用urllib(http://docs.python.org/library/urllib2.html?highlight=urllib2#module-urllib2)阅读网站,然后删除代码并创建网站的平面文字
然后检查哪个词被更多地使用。然后创建前十(或计数)