从聊天框中抓取链接并将其保存为CSV格式的文件

时间:2016-04-26 11:09:07

标签: html csv hyperlink web-scraping xidel

我正在使用“Link Klipper”chrome扩展程序,使用正则表达式从我的html live cbox聊天中获取链接,此扩展程序可以保存CSV文件,但有时候,它无法按预期工作。

<div class="Center" style="text-align: left">
 <br>
   <a class="MyURL" href="http://www.mywebsite.com/mylink" target="_blank">
    <font size=3 color="#333333" style="text-shadow: 0 0 0.1em black, 0 0 0.1em black,  0 0 0.1em black,  0 0 0.1em black,  0 0 0.1em black, 0 0 0.1em black, 0 0 0.1em black;">
      <b> My Link Name </b> 
    </font>
    <font size=3 color="#333333" style="text-shadow: 0 0 0.1em balck, 0 0 0.1em balck,  0 0 0.1em balck,  0 0 0.1em balck,  0 0 0.1em balck, 0 0 0.1em balck, 0 0 0.1em balck;">
      <b> Link Description </b>
    </font>
    <font size=3 color="#333333" style="text-shadow: 0 0 0.1em black, 0 0 0.1em black,  0 0 0.1em black,  0 0 0.1em black,  0 0 0.1em black, 0 0 0.1em black, 0 0 0.1em black;">
      <b> 100.0 MB </b>
    </font>
   </a>
 <br>
 </div>

是否有其他有效的方法,可能使用 wget xidel 来抓取正确格式化的CSV中的链接+名称+描述+大小?或任何支持的人类可读格式。

2 个答案:

答案 0 :(得分:2)

这样的东西?

xidel -q example1.xml -e "//b"

或作为CSV:

xidel -q example1.xml -e "join(//b,',')"

答案 1 :(得分:0)

我使用xidel绘制链接,并使用以下命令将链接输出到html文件:

xidel "http://www.mywebsite.com" --html -e //BODY/DIV/B/A > c:\Users\User\Desktop\1.html