我有大约2000个文档,我正试图从中提取元数据。现在,元数据被硬编码为文档顶部的内容。
一些给予:
每个页面都生成一个<script>...</script>
,我不再需要从<p style=...
的第一个实例开始捕获数据,因此我可以将这些标记用作“开始”和“结束”标记。
我不需要标签,只需要文本,我更喜欢分隔的文本输出,9列,每列代表数据。 (例如,列将为Desc, RefNum, Replaces, SpecCond, States, How, When, Owner, ChgDate
,每行代表单个文档的数据 - 每个HTML文档一行。
我也试图尽可能地自动化这个,所以我想要一个工具来抓取路径及其子目录寻找* .html并抓取内容。
我不确定从哪里开始。想法?
</script>
<!-- -->
<!-- BEGIN CAPTURE HERE -->
<!-- -->
<h1>Additional Deposit Warning</h1>
<p class="Plain_Text"><font style="font-family:'Arial';">Description: Additional Deposit</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Reference Number: 897</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Replaces Letter: CIBS 417</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Special Conditions: NA</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">States Applicable: WI, MI</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">How Generated: User Selects In CSS</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">When Generated: Additional deposit may be needed</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Owner: Credit - Deposits</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Last change letter: March 27, 2003</font></p>
<!-- -->
<!-- END CAPTURE HERE -->
<!-- -->
<p style="margin-top:0;margin-bottom:0"> </p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;">#Mdate</font></p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;"><br />
答案 0 :(得分:0)
我最终使用了javascript。需要进行一些重写来解释异常数据,但总的来说它运作良好。