html2text适用于单个文件,但不适用于多个文件

时间:2019-05-19 11:29:26

标签: unix

我有.html个文件的集合,需要将其转换为文本。源是UTF8(根据html标头),结果也应该是UTF8。如果我使用

转换单个文件
html2text -utf8 chapter2.html > 2u.txt

结果正确包含(正确显示了德国变音符号)。

如果我对一堆文件使用相同的命令

html2text -utf8 chapter*.html > 3u.txt

在一种情况下(3个文件)结果正确,并且

file 3u.txt 

给出3u.txt: UTF-8 Unicode text。在较大目录(> 100个文件,共400 k个字符)中的同一命令将产生具有不同编码的文件

3u.txt: Non-ISO extended-ASCII text

我使用的是html2text版本1.3.2a。

此行为是否有任何解释?

我已经尝试过使用html2text单独转换文件,该文件可以正常工作,然后使用cat连接文件。我观察到cat输出的结果具有错误的文件编码。 cat是否不保留编码? (我的语言环境具有$ LANG = en_US.utf8)。

如果有人可以帮助我了解发生了什么并告诉我如何串联文件,我将不胜感激!

0 个答案:

没有答案