阅读HTML文件

时间:2017-06-10 04:55:27

标签: html html-parsing

我的计算机上有一个HTML文件。我需要浏览文件并仅从中提取文本,然后需要将其发送到输出文件。我已经尝试过简单的方法,比如正则表达式,但是这个文件很复杂。为了证明这一点,下面有一小部分文件。什么是最好的解决方案?另外,会推荐什么语言?

    src="https://apps.ideal-logic.com/files/public/feb81069e2541cc3_4WTF-
    39PK/small_thumb/no_photo.png" width="100" />
    </div></div></div></div></div></td><td align="left" valign="top"><div 
    id="k1e7e1347a6586e16"><div style="margin-left:10px;position:relative;">
    <div style="position:relative;"><div id="k61d14cb4bd7c9b1d"><div 
    style="position:relative;"><div style="position:relative;"><div 
    id="k2329528aeb074bce"><div style="position:relative;"><div><div 
    class="L"><b>XXXXXXXXX</b></div></div><div></div></div></div><div 
    id="k4e138f7b9a8cda5f"><div style="position:relative;"></div></div><div 
    id="k734a690c6ec3be3d"><div style="position:relative;"><div 
    style="position:relative;"><div id="k3aef25d5470a3761"><div 
    style="position:relative;"></div></div><div id="kfae5ce53de173253"><div 
    style="position:relative;"><div id="k7e5f871a226c6981"><div><div 
    style="position:relative;"></div></div></div></div></div><div 
    id="kc6b05b0b2907cbd6"><div style="margin-
    bottom:10px;position:relative;"><div style="position:relative;"><div 
    id="k99d6d517ae2fec1c"><div style="position:relative;"><div><a 
    href="mailto:XXXXXXXXX">xxxxxx@xxxxxxx.com</a></div><div></div></div>
    </div><div id="k59ef038775af95ac"><div style="position:relative;"><div>
    <div></div><div><div><div>XXXXXXXXX (Home)</div></div></div></div>
    </div></div></div></div></div><div id="k95052b8c903214ae"><div 
    style="margin-bottom:10px;position:relative;"><div><div></div><div><div>
    <div><span id="s38113de6">XXXXXXXXX<br/>XXXXXXXXX 
    05482</span></div></div></div></div></div></div><div 
    id="k58ea548276b5da0d"><div style="position:relative;"></div></div><div 
    id="kb869465048bdb63a"><div style="margin-
    bottom:10px;position:relative;">

整个文件就是这样,我找不到剥离格式的方法。 X是存在的,因为应该有重要数据不应公开披露。 最终目标是将所有这些输出到CSV文件,以便将它们上载到Excel文档中。是否有能够执行此操作的库或工具?

1 个答案:

答案 0 :(得分:0)

您可以使用Javascript / jQuery(如果您需要后端解决方案,则可在node.js中使用)

htmlString=`</div></div></div></div></div></td><td align="left" valign="top"><div 
    id="k1e7e1347a6586e16"><div style="margin-left:10px;position:relative;">
    <div style="position:relative;"><div id="k61d14cb4bd7c9b1d"><div 
    style="position:relative;">....`

text = $(htmlString).text()

结果:

Isabel Abramsaqua847@aol.com

(802) 497-3311 (Home)

610 Wake Robin DriveShelburne, Vermont