获取html文档中的节点包含单词

时间:2013-05-13 19:13:13

标签: java c++ python c parsing

我想写一个检查a的脚本 关键字的文档,并指定包含它们的html文档节点(可能 分配唯一标识符)。

我不是一名专业程序员,也不知道PLO等低级语言和事物的力量。我害怕做一些非常糟糕且不受支持的事情。

如何隔离所需的节点?

我的经验 - js和php - php只适用于非常简单的事情。还有,我 不想利用这个机会工作 与js节点。我的想法:

  • 制作一个html字符串
  • 验证网页上是否存在字词
  • 如果页面上的单词存在:body元素中的foreach节点我得到第一个和最后一个位置 (例如,我们看到我们最初知道的每个字符的开始标记 位置,因此我们计算第一个 标签打开的位置和最后关闭的位置。等等所有节点。)

我们知道这个词的位置(例如192, 199)并检查它得到的范围(在此 case,这些band - 节点html文件)。

我需要有经验的程序员的想法。 你是什​​么语言并不重要 编程(面向网络除外) - 每个意见对我都很重要。这有可能 有图书馆可以解决这个问题 问题。我非常希望你能 明白我。英语不是我的母语 语言。

2 个答案:

答案 0 :(得分:1)

您需要使用html解析器。参阅

Which HTML Parser is the best?

之后,您需要使用xpath功能来提取任何节点。

答案 1 :(得分:1)

我总是建议Beautiful Soup来做这件事。它是一个Python库,允许您快速解析XML / HTML文档。你可以很快得到一些运行,从我想到的每个div元素中提取文本。然后使用Pythons内置的字符串操作工具,我确信搜索特定的单词会相当简单。