如何搜索纽约市的餐馆?

时间:2013-01-16 18:27:30

标签: algorithm data-structures

我有一个网络抓取工具和整个网络抓取。 我的策略应该是什么?我应该使用什么样的分类算法?

我说我有一个网络抓取工具,我的意思是手动抓取网络。

1 个答案:

答案 0 :(得分:2)

您可以尝试对抓取的每个网页进行分类,并确定它是否为餐馆(二元分类器)并使用 supervised learning

您可以使用 Bag of Words model - 这意味着,使用单词作为“功能”,它们的存在(和出现次数)决定了功能的价值。

您还需要首先手动标记一组页面,并确定它们是否是餐馆页面。您生成的数据称为训练集

请注意,单词包模型往往具有巨大的特征空间 - 因此您将需要一个对非信息功能不敏感的分类器。

您稍后可以使用 cross-validation 来估算您的模型有多好。

以下是我在使用单词包模型分类数据时发现的一些建议:

  • SVM 往往非常有用,可以为Bag of Words模型带来非常好的效果。我没有看到线性内核和高斯内核的性能有显着差异。
  • 使用stemming并过滤stop words - 您不需要它产生的噪音。
  • 使用bi-grams,它们非常有用,至少对我而言 - 往往会显着提高分类器的准确性。