我有.html
个文件的集合,需要将其转换为文本。源是UTF8(根据html标头),结果也应该是UTF8。如果我使用
html2text -utf8 chapter2.html > 2u.txt
结果正确包含(正确显示了德国变音符号)。
如果我对一堆文件使用相同的命令
html2text -utf8 chapter*.html > 3u.txt
在一种情况下(3个文件)结果正确,并且
file 3u.txt
给出3u.txt: UTF-8 Unicode text
。在较大目录(> 100个文件,共400 k个字符)中的同一命令将产生具有不同编码的文件
3u.txt: Non-ISO extended-ASCII text
我使用的是html2text版本1.3.2a。
此行为是否有任何解释?
我已经尝试过使用html2text
单独转换文件,该文件可以正常工作,然后使用cat
连接文件。我观察到cat
输出的结果具有错误的文件编码。 cat
是否不保留编码? (我的语言环境具有$ LANG = en_US.utf8)。
如果有人可以帮助我了解发生了什么并告诉我如何串联文件,我将不胜感激!