检索网站源代码的网络爬虫

时间:2011-03-19 19:45:53

标签: web-crawler

我想做一些有点困难。我想制作一个爬虫,除了链接之外还会下载该网站的源代码。之后,我想创建一个程序来搜索源代码如果存在语句,则每个站点(例如,如果有标题排除此站点)。

6 个答案:

答案 0 :(得分:2)

我曾经发现类似的PHP脚本,但当然它抓住了客户端代码(正如SpyrosP所说的那样)。见http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html

答案 1 :(得分:1)

这是一个使用HttpWebRequest对象获取信息的C#示例。

http://www.csharp-station.com/HowTo/HttpWebFetch.aspx

答案 2 :(得分:0)

您无法从脚本中读取服务器代码。您只能抓取HTML或客户端上运行的任何其他内容(即javascript)。

答案 3 :(得分:0)

您可以浏览 jsoup
jsoup是一个用于处理真实HTML的Java库 jsoup - official site link
您可以使用标签检索信息,解析Html。

答案 4 :(得分:0)

您是否使用linux comando wget进行测试? http://m.linuxjournal.com/content/downloading-entire-web-site-wget

我认为你也可以测试。

答案 5 :(得分:0)

你可以从这里开始,https://github.com/johneliades/code_crawler。我对某些流行编程站点中存在的一些类进行了硬编码,以便 python 脚本收集答案代码块或遇到的第一个代码块。然后它使用在线编程语言识别工具的 API 找到合适的词法分析器并进行一些代码颜色格式化,然后打印每个站点的着色结果。请获取 API 密钥,因为我的当前是硬编码的。