我想写一个检查a的脚本 关键字的文档,并指定包含它们的html文档节点(可能 分配唯一标识符)。
我不是一名专业程序员,也不知道PLO等低级语言和事物的力量。我害怕做一些非常糟糕且不受支持的事情。
如何隔离所需的节点?
我的经验 - js和php - php只适用于非常简单的事情。还有,我 不想利用这个机会工作 与js节点。我的想法:
我们知道这个词的位置(例如192, 199)并检查它得到的范围(在此 case,这些band - 节点html文件)。
我需要有经验的程序员的想法。 你是什么语言并不重要 编程(面向网络除外) - 每个意见对我都很重要。这有可能 有图书馆可以解决这个问题 问题。我非常希望你能 明白我。英语不是我的母语 语言。
答案 0 :(得分:1)
答案 1 :(得分:1)
我总是建议Beautiful Soup来做这件事。它是一个Python库,允许您快速解析XML / HTML文档。你可以很快得到一些运行,从我想到的每个div元素中提取文本。然后使用Pythons内置的字符串操作工具,我确信搜索特定的单词会相当简单。