网页抓取(热门网站的HTML格式)

时间:2010-11-03 06:52:28

标签: rss screen-scraping

如何抓取任何网站为我的网站创建Feed?大多数热门网站遵循哪种格式?

3 个答案:

答案 0 :(得分:1)

您必须对每个网站进行逆向工程,因为它们不遵循通用格式或其他内容(Web开发人员的自由)。如何抓取他们的 rss Feed?

答案 1 :(得分:1)

我正在使用Octoparse(A free web scraper)向最终用户提供及时的信息。

我用它来从多个数据源中抓取数据,并将提取的数据转换为结构化的数据表。您可以轻松自动向订阅了数据Feed的所有用户提供大量及时的信息。 您只需在Octoparse中安排提取任务即可自动收集Web数据,并使用最新的Internet内容丰富您的应用程序。

答案 2 :(得分:0)

我不相信很多网站都在搜索内容,但如果您愿意,我会选择RSS(Really Simple Syndication)。几乎每个网站都有一个,从中轻松抓取。 RSS 2.0 Specification

Brian在几种方式上发表了一篇很好的文章来阅读RSS(在C#中)。

http://msdn.microsoft.com/en-us/library/bb943474.aspx

http://msdn.microsoft.com/en-us/library/system.servicemodel.syndication.syndicationfeed.aspx

http://msdn.microsoft.com/en-us/library/bb943480.aspx

Here是一些基于网络的工具,也可以通过组合多个其他工具制作单个Feed。

引用此处的列表:

  1. RSS Mixer
  2. FeedBlendr
  3. FeedTwister
  4. BlogSieve
  5. RSSMesh
  6. RSS Mix
  7. BlastFeed
  8. Feed Combine
  9. FrankenFeed
  10. Yahoo Pipes

希望这会有所帮助:)