我有一个网络抓取工具和整个网络抓取。 我的策略应该是什么?我应该使用什么样的分类算法?
我说我有一个网络抓取工具,我的意思是手动抓取网络。
答案 0 :(得分:2)
您可以尝试对抓取的每个网页进行分类,并确定它是否为餐馆(二元分类器)并使用 supervised learning 。
您可以使用 Bag of Words model - 这意味着,使用单词作为“功能”,它们的存在(和出现次数)决定了功能的价值。
您还需要首先手动标记一组页面,并确定它们是否是餐馆页面。您生成的数据称为训练集。
请注意,单词包模型往往具有巨大的特征空间 - 因此您将需要一个对非信息功能不敏感的分类器。
您稍后可以使用 cross-validation 来估算您的模型有多好。
以下是我在使用单词包模型分类数据时发现的一些建议: