Question

我有大约2000个文档，我正试图从中提取元数据。现在，元数据被硬编码为文档顶部的内容。

一些给予：每个页面都生成一个<script>...</script>，我不再需要从<p style=...的第一个实例开始捕获数据，因此我可以将这些标记用作“开始”和“结束”标记。

我不需要标签，只需要文本，我更喜欢分隔的文本输出，9列，每列代表数据。（例如，列将为Desc, RefNum, Replaces, SpecCond, States, How, When, Owner, ChgDate，每行代表单个文档的数据 - 每个HTML文档一行。

我也试图尽可能地自动化这个，所以我想要一个工具来抓取路径及其子目录寻找* .html并抓取内容。

我不确定从哪里开始。想法？

</script>
<!--                        -->
<!--  BEGIN CAPTURE HERE    --> 
<!--                        -->
<h1>Additional Deposit Warning</h1>
<p class="Plain_Text"><font style="font-family:'Arial';">Description: Additional Deposit</font></p>        
<p class="Plain_Text"><font style="font-family:'Arial';">Reference Number: 897</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Replaces Letter: CIBS 417</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Special Conditions: NA</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">States Applicable: WI, MI</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">How Generated: User Selects In CSS</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">When Generated: Additional deposit may be needed</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Owner: Credit - Deposits</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Last change letter: March 27, 2003</font></p>
<!--                        -->
<!--  END CAPTURE HERE      --> 
<!--                        -->
<p style="margin-top:0;margin-bottom:0">&#160;</p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;">#Mdate</font></p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;"><br />

Answer 1

我最终使用了javascript。需要进行一些重写来解释异常数据，但总的来说它运作良好。

哪些工具可用于有效解析＆amp;刮这个HTML？

1 个答案: