手动将html文本转换为markdown(javascript / nodejs)

时间:2017-07-07 20:24:46

标签: html node.js string parsing markdown

我有点卡住了。我已经抓了一个网站,现在想把它转换成降价。我的HTML看起来像这样:

Some text more text, and more text. Some text more text, and more text. 
Once in a while  <span class="bold">something is bold</span>. 
Then some more text. And <span class="bold">more bold stuff</span>.

可以使用html到markdown模块,但是,它们仅在文本<b> looked like this </b>时才有效。

我怎样才能浏览html,每当我找到一个应该加粗内容的span时,将这段html变为粗体降价,即将其设为**look like this**

2 个答案:

答案 0 :(得分:2)

试试这个https://github.com/domchristie/to-markdown,一个用JavaScript编写的HTML to Markdown转换器。

可以通过将转换器数组传递给选项对象来扩展它:

toMarkdown(stringOfHTML, { converters: [converter1, converter2, …] });

在您的情况下,转换器可以

{
    filter: 'span',
    replacement: function(content) {
       return '**' + content + '**';
   }
}

有关详细信息,请参阅其自述文件。

答案 1 :(得分:-1)

Notepad ++是一个支持正则表达式的开源编辑器。这张照片显示了基本的想法。

您知道如何使用编辑器来查找和替换字符串。在像Notepad ++这样的编辑器中,您可以查找字符串模式并替换部分模式并保留剩下的内容。在您的情况下,您希望查找由HTML标记框起的字符串。这里的正则表达式中找到了什么&#39;编辑框显示,使用特殊符号([^<]*)表示除了&#39;&lt;&#39;之外的任何字符都保存零或更多。用于替换字符串。 &#39;替换为&#39;编辑框说明使用表达式\1中保存的内容(如**\1**),它可以为您提供文本文件中您更喜欢的内容。仍然需要点击“全部替换”。

using Notepad++

为了能够这样做,你需要安装Notepad ++并学习一些基本的Perl正则表达式。要获得此对话框,请单击Ctl-H。当然,如果你弄错了,总会有Ctl-Z。