终端中用于从文件中提取文本的命令是什么

时间:2010-12-23 08:48:57

标签: php javascript html linux terminal

嘿,任何人都可以告诉我在终端中编写命令,使用< li>,< strong>,< b>,< title>,< td>等标签从html文件中提取文本。 ..etc ...和$ var =“strings”和javascript函数使用msgstring ....

- >我正在考虑将这些标签放在文本文件中......

- >然后我想在终端命令的帮助下匹配标签......

- >然后我必须将它放入转储文件(文本)......

因为......我想用语言偏好来改变文本....

我尝试使用awk脚本和egrep ....但是我的结果很糟糕......

5 个答案:

答案 0 :(得分:2)

这正是 pandoc 的用途。

pandoc filename.html -f html -t plain -o filename.txt

作为奖励,生成的纯文本格式精美。

Pandoc Manual

答案 1 :(得分:1)

使用awk和egrep执行此操作可能意味着使用正则表达式来解析HTML。这是一个坏主意。见this famous answer

相反,使用HTML解析器。请参阅上面链接中的其他答案,获取HTML解析器的链接。

关于解析PHP源代码:

由于它在结构上与HTML类似,因此您可以使用(容忍)HTML解析器。否则,请使用PHP解析器。参见例如this answer

答案 2 :(得分:0)

您可能想澄清您的问题(样本输入和预期输出可能会有所帮助)。通过“终端中的命令”,你的意思是shell命令。

这看起来很不重要,您可能需要编写一个shell脚本。见Advanced Bash-Scripting Guide。但正如sleske所指出的,我还推荐了一些更高级的脚本语言(perl / python)。

答案 3 :(得分:0)

使用这样的正则表达式:

perl -pne '/<strong>(.*)?<\/strong>/;' file

当然,我猜你的正则表达式会更复杂。

答案 4 :(得分:0)

嘿......伙计......我得到了答案......

egrep -i -r -f myfile.txt [path]&gt; dumpdata.txt

它的工作...但我必须解析更多....清除javascript的所有功能和包含字符串的php的变量值...

感谢所有建议。

建议你是否知道更准确....