使用Tika </div>从<div>中提取HTML图像

时间:2012-09-15 17:08:45

标签: java apache xhtml apache-tika

我有以下xhtml文件,其中包含大约30-40张图片。该文件是自动生成的,图像的数量将会改变,但{html text}内容应该真的不会改变。我希望有人能指出我正确的方向。

我正在尝试解析/找到这些图像,将它们从图像#.png重命名为{html text} .png。

HTML的子字符串:

<div class="s8a6d62e8" style="">Top 10 ARP sources in terms of bits.</div>
<div class="sbeea9846" style="">
    <img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_34.Png"></img>
</div>
<div class="s306f0049" style="">Figure 3 - Top Ten ARP MAC Sources</div>
<div class="s12d95b95" style="">
    <a name="Top Ten ARP MAC Destinations"><br></a>
</div>
<div class="s1a75bf07" style="">Top Ten ARP MAC Destinations</div>
<div class="s8a6d62e8" style="">Top 10 ARP destinations in terms of bits.</div>
<div class="sbeea9846" style="">
    <img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_35.Png"></img>
</div>
<div class="s306f0049" style="">Figure 4 - Top Ten ARP MAC Destinations</div>
<div class="s1a75bf07" style="">ARP MAC Conversations</div>
<div class="s8a6d62e8" style="">Conversation ring with ARP endpoints and conversations.</div>
<div class="sbeea9846" style="">
    <img style="width: 701px; height: 526px; border: 0px" src="Final Test Report_3.files\Final Test Report_36.Png"></img>
</div>
<div class="s306f0049" style="">Figure 5 - ARP MAC Conversations</div>

我想要的输出如下:

Final Test Report_3.files\Top Ten ARP MAC Sources.Png
Final Test Report_3.files\Top Ten ARP MAC Destinations.Png
Final Test Report_3.files\ARP MAC Conversations.Png

等,

0 个答案:

没有答案