对于我的应用程序,我需要能够在网页上记录用户选择的文本,然后使用网络爬虫重新访问该网页,并查看用户突出显示的文本是否在将来更改。我正在跟踪的文字是产品信息。
使用JavaScript获取用户选择的文本很容易,但是获得一种可靠的方法来记录爬虫应该访问的文档中的哪些位置来检查信息。
主要问题之一是文档的JavaScript Dom表示与原始html不同。我尝试根据用户选择的文本周围的文本创建正则表达式,但由于这个原因,这是不可靠的。
XPath是另一种选择,但很可能遇到同样的问题。
如果有人能提出我可以在这里使用的技术,那将非常感激。