从HTML页面中提取所有文本而不会丢失上下文

时间:2010-05-07 03:03:34

标签: php multilingual translate

对于翻译程序,我试图从HTML文件中获取95%准确的文本,以便翻译句子和链接。

例如:

<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>

应该给我2个翻译结果:

Overflow

Texts <b>go</b> here

针对此问题提供的任何建议或商业套餐?

1 个答案:

答案 0 :(得分:0)

我不确定你在问什么,但请看simplehtmldom。特别是在该首页上快速启动的“从HTML中提取内容”选项卡(无法直接链接,叹息)。有了它,你可以提取一个网站的文本,而不是所有那些讨厌的标签。