我的印象是你可以使用TagSoup将HTML转换为XHTML。我将tagsoup jar文件保存为tagsoup.jar我使用以下命令wget -O usa_stock.html "http://markets.usatoday.com/custom/usatoday-com/new/html-mktscreener.asp#" | java -jar tagsoup.jar usa_stock.html
当我使用此命令时,它会生成html和xhtml文件但是当我在firefox中打开xhtml时它是空的。我怀疑当我管道时它只是不知道我试图转换哪个文件。
有人可以帮我解决这个问题吗?
感谢。
答案 0 :(得分:3)
您的代码中使用的管道(|
)肯定是错误的,使用&&
进行更改可能会解决您的问题。
wget
没有将检索网页输出到stdout
,因此您没有将任何内容输入到tagoup中。 java-jar
开始执行时,wget
仍在运行。您为tagsoup指定的输入文件尚未就绪。因此,在jsoup开始之前,您需要先wget
退出0
退出状态,&&
此处将用于此目的。