好的,所以我能够使用NaiveBayes算法训练我的电影评论分类器。任务是:
根据对行尸走肉的负面评价来测试您的分类器。 http://metro.co.uk/2017/02/27/the-walking-dead-season-7-episode-11-hostiles-and-calamities-wasnt-as-exciting-as-it-sounds-6473911/#mv-a
现在我的书给出了一个分类文档的例子,它使用classifier.classify(df)
....现在我明白这是文档功能,必须进行标记化等。
我的问题:是否有一些方法可以使用网址测试我的分类器对评论?或者我是否必须突出显示评论的所有单词,存储为字符串或文档然后标记化等?
答案 0 :(得分:1)
您的程序可以读取以下网址的内容:
with urllib.urlopen("http://example.com/review.html") as rec:
data = rec.read()
但是,您建议的URL指向HTML文档,因此您需要“删除”内容(即,提取审阅的正文并通过删除粗体等将其转换为“纯文本”)你再继续为此,您可以使用BeautifulSoup
或类似的东西。 (NLTK曾经有一个抓取功能,但放弃了BeautifulSoup
。)除非你已经学会了如何做到这一点,通过从中复制粘贴来获取一些测试文档确实更简单您的浏览器是一个纯文本编辑器,如记事本,它将删除所有标记。