如何开始页面抓取技术

时间:2012-12-01 21:21:10

标签: html xml rss

我是崭露头角的新手,我不知道从哪里开始。 什么是最容易做页面疤痕的方法?您对此有何看法,哪种网络技术最适合您? 任何人都可以帮助我,谢谢。

2 个答案:

答案 0 :(得分:0)

查看html aglity pack;

示例:

嗯,这取决于。例如,如果一个标签有一个类并且它是唯一的 - 它是一个函数,但是如果有多个标签,你需要根据标签位置思考和创建你的功能,另一种情况是没有标签你会必须计算html元素;例如,您可能还需要循环tabe行。

以下示例与您需要的相似。 (不确定它是否仍然有效,因为如果页面布局发生了变化,它可能会失败。)但是它给出了这个想法,你可以从那里开始。

PS - 在提问时请提出确切的问题,而不是模糊的问题。

C#示例:

                String openUrl = @"http://www.ebay.com/sch/-/11724/i.html?_nkw=" + some_part_number + "&_armrs=1&LH_Complete=1";

                HtmlWeb hw = new HtmlWeb();
                hw.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)";
                HtmlAgilityPack.HtmlDocument doc = hw.Load(openUrl);

                foreach (HtmlNode nd in doc.DocumentNode.SelectNodes("//tr[@itemprop='offers']"))
                {
                    String title = "";
                    title = Regex.Split(nd.InnerHtml.ToString(), ("title='"))[1].Trim();
                    title = Regex.Split(title, "'")[0].Trim();
                }

答案 1 :(得分:-1)

可能最好和最简单的方法是雅虎查询语言YQL。 它使用起来很简单。你也可以使用yql管道与yql。谷歌一下。 你可以从这里开始: http://ijaar.com/basic-yql-tutorials/

此外还有一些关于屏幕上有疤痕的问题,请查看。

是的,yql不是唯一的技术,你也可以使用php,xquery,甚至是python,但在我看来这是最简单的 - 而且它的工作非常好。

相关问题