在bash中使用TagSoup将HTML转换为XHTML

时间:2012-12-03 05:40:30

标签: html bash xhtml tag-soup

我的印象是你可以使用TagSoup将HTML转换为XHTML。我将tagsoup jar文件保存为tagsoup.jar我使用以下命令wget -O usa_stock.html "http://markets.usatoday.com/custom/usatoday-com/new/html-mktscreener.asp#" | java -jar tagsoup.jar usa_stock.html当我使用此命令时,它会生成html和xhtml文件但是当我在firefox中打开xhtml时它是空的。我怀疑当我管道时它只是不知道我试图转换哪个文件。

有人可以帮我解决这个问题吗?

感谢。

1 个答案:

答案 0 :(得分:3)

您的代码中使用的管道(|)肯定是错误的,使用&&进行更改可能会解决您的问题。

  1. 由于wget没有将检索网页输出到stdout,因此您没有将任何内容输入到tagoup中。
  2. 虽然您还为jsoup指定了输入文件和输出文件,但您使用了管道。因此,当java-jar开始执行时,wget仍在运行。您为tagsoup指定的输入文件尚未就绪。
  3. 因此,在jsoup开始之前,您需要先wget退出0退出状态,&&此处将用于此目的。