如何使用Mechanize刮取HP打印机状态页面?

时间:2012-02-05 13:28:27

标签: python screen-scraping mechanize

状态页面如下所示:

http://h20000.www2.hp.com/bc/docs/support/SupportDocument/c00002742/c00004781.gif

您是否看到设备状态标题下方的文字?这就是我想要的。

导航到时,状态页面会更新。我从页面来源中删除了这个:

<form id="deviceStatusPage"   method="post" action="this.LCDispatcher?nav=hp.DeviceStatus">

我似乎无法理解它实际上是做什么的,所以很难找到一个好的抓取策略。我相当肯定解决方案将是微不足道的,但我似乎无法开始。

应该说我一直在玩Mechanize和Beautiful Soup。前者似乎达到了我想要的水平,但我不确定如何。

1 个答案:

答案 0 :(得分:1)

使用抓取库。 BeautifulSoup是一个很棒的人。 mechanizeBeautifulSoup共同构成非常有用的抓手。