对于翻译程序,我试图从HTML文件中获取95%准确的文本,以便翻译句子和链接。
例如:
<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>
应该给我2个翻译结果:
Overflow
Texts <b>go</b> here
针对此问题提供的任何建议或商业套餐?
答案 0 :(得分:0)
我不确定你在问什么,但请看simplehtmldom。特别是在该首页上快速启动的“从HTML中提取内容”选项卡(无法直接链接,叹息)。有了它,你可以提取一个网站的文本,而不是所有那些讨厌的标签。