这不是https://stackoverflow.com/questions/12234084/batch-html-file-processing的副本,因为我不仅限于Mac机器。我想用Linux做这件事。
无论如何,我想删除一系列标签,如:
<div id="p-person" role="function="">
*some text here*
</div>
也许可以替换他们
<b>.
即使正则表达式可以完成这项工作,我也想学习更精细的方法,解析dom,因为正则表达式不适用于更复杂的情况。