查询网站并从中检索公共数据

时间:2012-07-22 12:03:23

标签: c# regex webclient

我是c#编程的新手。我想得到你们的帮助(如果可能的话)。我有一个网站(这是一个购物网站)的数据:产品,价格,描述等。我想做的是:由于网站具有搜索功能,因此我希望通过查询搜索链接获取数据,并仅获取重要数据(产品ID,名称,价格和描述)。当我执行搜索时,我会收到很多页面,每次按下一步,我都会获得包含额外产品列表的新页面。我怎样才能简单地实现这些任务的自动化?

我在互联网上搜索了很多,我发现我需要使用正则表达式webclient(),我认为可能需要在页面内容和搜索结果页面上循环。 你觉得怎么样?

Website Example.

我感谢你们的任何努力。

1 个答案:

答案 0 :(得分:0)

您所描述的内容称为抓取。

你想要的是使用像HtmlAgilityPack这样的东西来获取网站。然后通过使用DOM找到您感兴趣的节点,并阅读它们的内部文本。

整个过程相当复杂,但至少我已经把你送到了正确的方向。在大多数情况下,搜索网址往往具有相同的格式。

在您的链接中

http://cdon.se/hemelektronik/advanced-search?manufacturer-id=&title=.&title-matchtype=1&genre-id=&page-size=15&sort-order=142&page=2

您可以将“页面”更改为其他内容,然后您可以浏览所有页面。

添加了: 也不要尝试使用正则表达式来解析html。它驱使一个人特别疯狂......

RegEx match open tags except XHTML self-contained tags