我正在尝试为LaTeX转换器执行自定义HTML,该转换器使用Wordpress帖子作为源。
基本上,它需要做一些“替换”,比如:
<h2>H2 Title</h2>
<p>Text text text</p>
<img src="/image.png" alt="Image ALT tag" \>
到此
\begin{document}
\section{H2 Title}
Text text text
\shorthandoff{=}
\begin{figure}[H]
\centering
\includegraphics[scale=0.7]{./img/image.png}
\caption{Image ALT tag}
\end{figure}
\shorthandon{=}
\end{document}
我应该使用哪种方法?是否有HTML DOM解析器允许这样的替换?还是其他建议?
更新:有没有办法在PHP的HTML DOM树中正确 ?我尝试了RecursiveDOMIterator(http://stackoverflow.com/questions/4431142/loop-through-all-elements-of-body-tags-using-dom),但我无法获得成功的结果。
感谢。
答案 0 :(得分:1)
你试过PHP Simple HTML DOM Parser吗?具体来说,“如何遍历DOM树?” manual中的部分可能就是您要找的内容。
答案 1 :(得分:0)
根据帖子中HTML结构的复杂程度,您可以使用基于正则表达式的替换(如果标记非常简单,如示例所示)。如果要将复杂结构(嵌套元素)复制到LaTeX中,那么正则表达式可能无效。