通过模式组织文本的最佳方式?

时间:2014-01-22 21:25:59

标签: java regex

我抓了很多信息,需要把它整理成几个字段。唯一的问题是在信息之前没有特定的标题来识别它并创建模式和匹配器。我在下面列出了2组数据的信息。如图所示,标识符只是“左”或“中心”,显示它们在屏幕上的位置。通过在每个数据集中添加每个字段,将每组数据搜索并组织成CSV的最佳方法是什么?需要保存的数据将是“离开”的所有内容>或“中心”>到

<td align="left">ERIK DAVIDOVIC, ET AL  </td><td align="left">5620 GOODMAN DRIVE</td><td align="center">NORTH ROYALTON</td><td align="center">44133-0000</td><td align="center">
                        <a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_0" href="javascript:__doPostBack(&#39;ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl02$lbCaseNum&#39;,&#39;&#39;)" style="display:inline-block;width:100px;">CV-13-798497</a>
                    </td><td align="center">488-05-029</td><td align="center">I</td><td align="center">01/02/2013</td>
        </tr><tr style="background-color:Gainsboro;">


            <td align="left">UNKNOWN HEIRS, ETC OF D.C. RUFUS, ET AL  </td><td align="left">10603 HAMPDEN AVENUE</td><td align="center">CLEVELAND</td><td align="center">44108-0000</td><td align="center">
                        <a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_1" href="javascript:__doPostBack(&#39;ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl03$lbCaseNum&#39;,&#39;&#39;)" style="display:inline-block;width:100px;">CV-13-798498</a>
                    </td><td align="center">109-16-094</td><td align="center">A</td><td align="center">01/02/2013</td>
        </tr><tr style="background-color:LightGrey;">

2 个答案:

答案 0 :(得分:0)

您可以使用http://jsoup.org/之类的解析器来解析您的html文件,并使用选择器提取信息。

希望它有所帮助。

答案 1 :(得分:0)

实际上,这是一个非常有条理的表格。

您应该能够解析<td..>以了解新值正在开始,然后在<tr>上开始新行

您只需计算行中哪个<td>即可知道该值代表哪一列。