Question

我目前正在构建一个全面的多发行版/项目/源/ OS开源文档网站。

目前由于转换过程需要获取内容，而不是不尊重（man page rock）但是，标准手册的神秘格式，我的文本增长了15GB。

我必须有更多现代的源格式才能获得手册页内容。开发人员还没有为文档编写50岁的* roff格式文件，是吗？

我迫切需要消除尽可能多的手册页来源，因此到目前为止，如果有任何开发人员可以澄清这些项目是否是原始的或者是否是从另一种文本格式生成的过程将是一个巨大的帮助。所以在列表中。

我希望不会使用古老的基于* roff的doc文件：

因此，作为一名程序员，他花了很多时间在基于操作系统的doc文件集中与愚蠢的groff -mandoc'文件'-T html错误搏斗，我需要帮助并转向SO。

选项1可替代更多解析友好的文档内容来源。

选项2是重新格式化手册页内容的更好方法，而不是运行

find . -type f -exec sh -c 'cd $(dirname "$0") && groff -mandoc "$0" -T html > "$0.html"' {} \;

或

find . -type f -exec sh -c 'cd $(dirname "$0") && man2html "$0" > "$0.html"' {} \;

并希望我在几千个文件中不会出现一个错误。所有这些也几乎丢掉了Unicode多语言支持。

如果谷歌搜索涉及“男人”和“文档”字样的技术内容并不是一项无用的尝试，我可能已经找到了解决方案，但我们就是这样的。

Answer 1

我不知道我是否得到了你的实际问题。

但是今天许多积极维护项目的联机帮助页都是从docbook（XML）源创建的，这些源可以在各种项目的源代码压缩包中找到。所以它们是用XML编写和维护的。

这些docbook文件由xmlto（或docbook2man）等工具转换为创建联机帮助页或html页或pdf ..等。