Question

我有.html个文件的集合，需要将其转换为文本。源是UTF8（根据html标头），结果也应该是UTF8。如果我使用

转换单个文件

html2text -utf8 chapter2.html > 2u.txt

结果正确包含（正确显示了德国变音符号）。

如果我对一堆文件使用相同的命令

html2text -utf8 chapter*.html > 3u.txt

在一种情况下（3个文件）结果正确，并且

file 3u.txt

给出3u.txt: UTF-8 Unicode text。在较大目录（> 100个文件，共400 k个字符）中的同一命令将产生具有不同编码的文件

3u.txt: Non-ISO extended-ASCII text

我使用的是html2text版本1.3.2a。

此行为是否有任何解释？

我已经尝试过使用html2text单独转换文件，该文件可以正常工作，然后使用cat连接文件。我观察到cat输出的结果具有错误的文件编码。 cat是否不保留编码？（我的语言环境具有$ LANG = en_US.utf8）。

如果有人可以帮助我了解发生了什么并告诉我如何串联文件，我将不胜感激！