我想转换技术文档网页,该网页具有较大的TOC树,可将其他页面导航到一个降价文档。例如:
https://docs.microsoft.com/en-us/cpp/cpp/cpp-language-reference?view=vs-2017
├── https://docs.microsoft.com/en-us/cpp/cpp/lexical-conventions?view=vs-2017
├── https://docs.microsoft.com/en-us/cpp/cpp/basic-concepts-cpp?view=vs-2017
├── ...
技术-1使用HTTRACK下载所有站点并使用pandoc转换降价
我尝试使用HTTRACK下载所有站点,并使用带有Makefile的pandoc将所有下载的HTML文件转换为markdown,并使用Java程序将该文件加入。
Makefile:
SOURCE_DOCS := $(wildcard *.html)
EXPORTED_DOCS=\
$(SOURCE_DOCS:.html=.markdown)
RM=rm
PANDOC=pandoc
PANDOC_OPTIONS=--smart --standalone
PANDOC_HTML_OPTIONS=-f html -t markdown
%.markdown : %.html
$(PANDOC) $(PANDOC_OPTIONS) $(PANDOC_HTML_OPTIONS) -o $@ $<
.PHONY: all clean
all : $(EXPORTED_DOCS)
clean:
- $(RM) $(EXPORTED_DOCS)....
但是HTTRACK随机下载了HTML文件。目前,我有385个HTML文件,无法以正确的顺序手动组织所有这些文件。 是否有技巧将TOC树文档页面转换为一个markdown文档?
更多TOC树文档网站示例:
https://git-scm.com/book/en/v2
https://docs.microsoft.com/en-us/ef/ef6/
https://docs.oracle.com/javase/specs/jls/se10/html/index.html