哪些工具可用于有效解析&刮这个HTML?

时间:2012-03-30 14:55:12

标签: html parsing

我有大约2000个文档,我正试图从中提取元数据。现在,元数据被硬编码为文档顶部的内容。

一些给予: 每个页面都生成一个<script>...</script>,我不再需要从<p style=...的第一个实例开始捕获数据,因此我可以将这些标记用作“开始”和“结束”标记。

我不需要标签,只需要文本,我更喜欢分隔的文本输出,9列,每列代表数据。 (例如,列将为Desc, RefNum, Replaces, SpecCond, States, How, When, Owner, ChgDate,每行代表单个文档的数据 - 每个HTML文档一行。

我也试图尽可能地自动化这个,所以我想要一个工具来抓取路径及其子目录寻找* .html并抓取内容。

我不确定从哪里开始。想法?

</script>
<!--                        -->
<!--  BEGIN CAPTURE HERE    --> 
<!--                        -->
<h1>Additional Deposit Warning</h1>
<p class="Plain_Text"><font style="font-family:'Arial';">Description: Additional Deposit</font></p>        
<p class="Plain_Text"><font style="font-family:'Arial';">Reference Number: 897</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Replaces Letter: CIBS 417</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Special Conditions: NA</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">States Applicable: WI, MI</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">How Generated: User Selects In CSS</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">When Generated: Additional deposit may be needed</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Owner: Credit - Deposits</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Last change letter: March 27, 2003</font></p>
<!--                        -->
<!--  END CAPTURE HERE      --> 
<!--                        -->
<p style="margin-top:0;margin-bottom:0">&#160;</p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;">#Mdate</font></p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;"><br />

1 个答案:

答案 0 :(得分:0)

我最终使用了javascript。需要进行一些重写来解释异常数据,但总的来说它运作良好。