这可能看起来很奇怪,因为它是自动上传到在线内容系统的写作,但是这里有:
我在Sublime Text中写了一个故事或其他什么内容。我通过Sublime Text文件创建Word 2010 .htm文件(导出到纯文本文件,Word中的命令行批处理,在Sublime中重新打开新生成的.htm)。 export.htm文件是一个完整的html页面,当我需要的是使用<p>
标签的正文条目时。例如,来自这个export.htm:
<html>
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 14 (filtered)">
<style>
<!--
/* Font Definitions */
@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
{font-family:"Trebuchet MS";
panose-1:2 11 6 3 2 2 2 2 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{margin-top:0in;
margin-right:0in;
margin-bottom:10.0pt;
margin-left:0in;
line-height:115%;
font-size:11.0pt;
font-family:"Calibri","sans-serif";}
.MsoChpDefault
{font-family:"Calibri","sans-serif";}
.MsoPapDefault
{margin-bottom:10.0pt;
line-height:115%;}
@page WordSection1
{size:8.5in 11.0in;
margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
{page:WordSection1;}
-->
</style>
</head>
<body lang=EN-US>
<div class=WordSection1>
<p class=MsoNormal style='margin-top:12.0pt;text-indent:.5in'><font size=2
face="Trebuchet MS"><span style='font-size:11.0pt;line-height:115%;font-family:
"Trebuchet MS","sans-serif"'>This is a paragraph of story text to be uploaded
to the online parsing system.</span></font></p>
<p class=MsoNormal style='margin-top:12.0pt;text-indent:.5in'><font size=2
face="Trebuchet MS"><span style='font-size:11.0pt;line-height:115%;font-family:
"Trebuchet MS","sans-serif"'>This is a another paragraph of story text to be
uploaded to the online parsing system.</span></font></p>
</div>
</body>
</html>
我想保留的唯一部分如下:
<p class=MsoNormal style='margin-top:12.0pt;text-indent:.5in'><font size=2
face="Trebuchet MS"><span style='font-size:11.0pt;line-height:115%;font-family:
"Trebuchet MS","sans-serif"'>This is a paragraph of story text to be uploaded
to the online parsing system.</span></font></p>
<p class=MsoNormal style='margin-top:12.0pt;text-indent:.5in'><font size=2
face="Trebuchet MS"><span style='font-size:11.0pt;line-height:115%;font-family:
"Trebuchet MS","sans-serif"'>This is a another paragraph of story text to be
uploaded to the online parsing system.</span></font></p>
一旦我拥有该文件的这个特定部分,我就可以再执行一个自动操作(连接线),并且该文件已准备好发送到在线解析器。
解析器需要某种html文本格式,但只接受页面正文的内容(页面的其余部分通过提交系统自动完成。)这需要从文字处理器导出html,但都知道处理器吐出最大宽度的HTML。解析器在文件中看到换行符(html会忽略换行符)并添加
标签,所以这就是为什么我需要运行我的sublime脚本来连接导出文件中的行。但要做到这一点,我需要清理导出,因此只有所需的行(内容段落)存在,否则一般的html将编入上传到解析器的单行。
我意识到这里最好的解决方案可能是更改解析器,以便忽略文件中未使用的垃圾,但它是由一个不妥协的第三方控制的(它是一个创意故事托管网站)。无论如何,这是目标。我可以自己处理,只需要从文件中清除非段落部分即可。
我已经找到了手动选择单个标签然后抓取其全部内容的方法,但抓取所有类型或抓取反向(按照此处的要求,除了所需的标签之外)都是我无法触及的。我已经搜索了谷歌的高低,以及这里的stackoverflow并且干了。
任何帮助都很感激,伙计们。
答案 0 :(得分:-2)
按住“shift”键并按“箭头”键选择要删除的文本。然后按“退格键”。