如何删除Sublime Text中段落标记之外的所有内容

时间:2014-01-27 01:38:05

标签: html sublimetext2

这可能看起来很奇怪,因为它是自动上传到在线内容系统的写作,但是这里有:

我在Sublime Text中写了一个故事或其他什么内容。我通过Sublime Text文件创建Word 2010 .htm文件(导出到纯文本文件,Word中的命令行批处理,在Sublime中重新打开新生成的.htm)。 export.htm文件是一个完整的html页面,当我需要的是使用<p>标签的正文条目时。例如,来自这个export.htm:

<html>

<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 14 (filtered)">
<style>
<!--
 /* Font Definitions */
 @font-face
    {font-family:"Cambria Math";
    panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
    {font-family:Calibri;
    panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
    {font-family:"Trebuchet MS";
    panose-1:2 11 6 3 2 2 2 2 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
    {margin-top:0in;
    margin-right:0in;
    margin-bottom:10.0pt;
    margin-left:0in;
    line-height:115%;
    font-size:11.0pt;
    font-family:"Calibri","sans-serif";}
.MsoChpDefault
    {font-family:"Calibri","sans-serif";}
.MsoPapDefault
    {margin-bottom:10.0pt;
    line-height:115%;}
@page WordSection1
    {size:8.5in 11.0in;
    margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
    {page:WordSection1;}
-->
</style>

</head>

<body lang=EN-US>

<div class=WordSection1>

<p class=MsoNormal style='margin-top:12.0pt;text-indent:.5in'><font size=2
face="Trebuchet MS"><span style='font-size:11.0pt;line-height:115%;font-family:
"Trebuchet MS","sans-serif"'>This is a paragraph of story text to be uploaded
to the online parsing system.</span></font></p>

<p class=MsoNormal style='margin-top:12.0pt;text-indent:.5in'><font size=2
face="Trebuchet MS"><span style='font-size:11.0pt;line-height:115%;font-family:
"Trebuchet MS","sans-serif"'>This is a another paragraph of story text to be
uploaded to the online parsing system.</span></font></p>

</div>

</body>

</html>

我想保留的唯一部分如下:

<p class=MsoNormal style='margin-top:12.0pt;text-indent:.5in'><font size=2
face="Trebuchet MS"><span style='font-size:11.0pt;line-height:115%;font-family:
"Trebuchet MS","sans-serif"'>This is a paragraph of story text to be uploaded
to the online parsing system.</span></font></p>

<p class=MsoNormal style='margin-top:12.0pt;text-indent:.5in'><font size=2
face="Trebuchet MS"><span style='font-size:11.0pt;line-height:115%;font-family:
"Trebuchet MS","sans-serif"'>This is a another paragraph of story text to be
uploaded to the online parsing system.</span></font></p>

一旦我拥有该文件的这个特定部分,我就可以再执行一个自动操作(连接线),并且该文件已准备好发送到在线解析器。

解析器需要某种html文本格式,但只接受页面正文的内容(页面的其余部分通过提交系统自动完成。)这需要从文字处理器导出html,但都知道处理器吐出最大宽度的HTML。解析器在文件中看到换行符(html会忽略换行符)并添加
标签,所以这就是为什么我需要运行我的sublime脚本来连接导出文件中的行。但要做到这一点,我需要清理导出,因此只有所需的行(内容段落)存在,否则一般的html将编入上传到解析器的单行。

我意识到这里最好的解决方案可能是更改解析器,以便忽略文件中未使用的垃圾,但它是由一个不妥协的第三方控制的(它是一个创意故事托管网站)。无论如何,这是目标。我可以自己处理,只需要从文件中清除非段落部分即可。

我已经找到了手动选择单个标签然后抓取其全部内容的方法,但抓取所有类型或抓取反向(按照此处的要求,除了所需的标签之外)都是我无法触及的。我已经搜索了谷歌的高低,以及这里的stackoverflow并且干了。

任何帮助都很感激,伙计们。

1 个答案:

答案 0 :(得分:-2)

按住“shift”键并按“箭头”键选择要删除的文本。然后按“退格键”。