从页面的源代码中提取某些信息?

时间:2013-08-01 02:21:45

标签: html web-scraping

我正在尝试找出从页面来源“废弃”某些数据的最有效方法。一个例子是:

<TH CLASS="ddtitle" scope="colgroup" ><A HREF="/PROD/bwckschd.p_disp_detail_sched?term_in=201370&amp;crn_in=71492">Printing Industry/Typogaphy - 71492 - INT 101 - 0</A></TH>

我需要文字“印刷业/印刷业 - 71492 - INT 101 - 0”

我有什么选择? (复制/粘贴不会这样做,因为这些项目超过40个页面。我还打算将此技术用于其他信息。)

1 个答案:

答案 0 :(得分:0)

您是否考虑过使用XPath?

http://www.w3schools.com/xpath/