使用搜索引擎打开网页

时间:2016-08-12 21:02:57

标签: web-scraping screen-scraping web-site-project

我正在尝试在同一个域上打开多个网页。我需要这些链接来废弃一些数据(我已获得网站的许可)。 我不能使用我实际想要废弃的域名,但作为一个例子: 如果一个网站是 www.gsmarena.com,以及我要废弃的所有内容都是该网站上以特定字符串结尾的所有页面: 示例www.gsmarena.com/anystring / searchstring

我希望有人可以帮助我

1 个答案:

答案 0 :(得分:0)

我可以告诉你,如果我遇到你的情况我会怎么做,但你需要一些创建报废应用程序的经验(我的首选语言是 C#。)。以下是步骤(需要使用报废应用程序完成):

  • 将主页下载为字符串
  • 获取所有类别(或您需要的类别)的链接(如果您想使用C#,那么HTMLAgilityPack将帮助您执行此操作)
  • 按类别下载类别,并从那里获取产品链接。

我希望它对你有所帮助。如果您想了解更多,请随时在评论中提问。