我的计算机上有一个HTML文件。我需要浏览文件并仅从中提取文本,然后需要将其发送到输出文件。我已经尝试过简单的方法,比如正则表达式,但是这个文件很复杂。为了证明这一点,下面有一小部分文件。什么是最好的解决方案?另外,会推荐什么语言?
src="https://apps.ideal-logic.com/files/public/feb81069e2541cc3_4WTF-
39PK/small_thumb/no_photo.png" width="100" />
</div></div></div></div></div></td><td align="left" valign="top"><div
id="k1e7e1347a6586e16"><div style="margin-left:10px;position:relative;">
<div style="position:relative;"><div id="k61d14cb4bd7c9b1d"><div
style="position:relative;"><div style="position:relative;"><div
id="k2329528aeb074bce"><div style="position:relative;"><div><div
class="L"><b>XXXXXXXXX</b></div></div><div></div></div></div><div
id="k4e138f7b9a8cda5f"><div style="position:relative;"></div></div><div
id="k734a690c6ec3be3d"><div style="position:relative;"><div
style="position:relative;"><div id="k3aef25d5470a3761"><div
style="position:relative;"></div></div><div id="kfae5ce53de173253"><div
style="position:relative;"><div id="k7e5f871a226c6981"><div><div
style="position:relative;"></div></div></div></div></div><div
id="kc6b05b0b2907cbd6"><div style="margin-
bottom:10px;position:relative;"><div style="position:relative;"><div
id="k99d6d517ae2fec1c"><div style="position:relative;"><div><a
href="mailto:XXXXXXXXX">xxxxxx@xxxxxxx.com</a></div><div></div></div>
</div><div id="k59ef038775af95ac"><div style="position:relative;"><div>
<div></div><div><div><div>XXXXXXXXX (Home)</div></div></div></div>
</div></div></div></div></div><div id="k95052b8c903214ae"><div
style="margin-bottom:10px;position:relative;"><div><div></div><div><div>
<div><span id="s38113de6">XXXXXXXXX<br/>XXXXXXXXX
05482</span></div></div></div></div></div></div><div
id="k58ea548276b5da0d"><div style="position:relative;"></div></div><div
id="kb869465048bdb63a"><div style="margin-
bottom:10px;position:relative;">
整个文件就是这样,我找不到剥离格式的方法。 X是存在的,因为应该有重要数据不应公开披露。 最终目标是将所有这些输出到CSV文件,以便将它们上载到Excel文档中。是否有能够执行此操作的库或工具?
答案 0 :(得分:0)
您可以使用Javascript / jQuery(如果您需要后端解决方案,则可在node.js中使用)
htmlString=`</div></div></div></div></div></td><td align="left" valign="top"><div
id="k1e7e1347a6586e16"><div style="margin-left:10px;position:relative;">
<div style="position:relative;"><div id="k61d14cb4bd7c9b1d"><div
style="position:relative;">....`
text = $(htmlString).text()
结果:
Isabel Abramsaqua847@aol.com
(802) 497-3311 (Home)
610 Wake Robin DriveShelburne, Vermont