转到网页,查找特定标记,将该标记之间的值保存到文本文档中

时间:2014-01-30 00:35:37

标签: javascript jquery html curl wget

我发现了一些与此非常接近的帖子,但没有一篇能让我足够接近。

我需要设置一个自动化:

- 转到网页(http://webpageinquestion.com/things/3445
- 在该页面上找到特定的HTML标签(<small>sometext</small>
- 获取包含在该标记之间的值(“sometext”)
- 将该值保存为文本文档作为列表,以页面名称为前缀(3445_sometext)

最后,我需要一个看起来像这样的列表:

  

3445_sometext
  3446_someothertext
  3447_yetmoretext
  3845_textext
  4564_textThetext
  9837_texty

我已经探索了可能使用Wget和jquery GET请求的不同方法。但很明显,为了实现这一点,我对这两种工具都没有扎实的理解。我确信CURL可能会做这样的事情,但我自己从未使用过它。

有什么想法吗?这一直是个难题......

1 个答案:

答案 0 :(得分:1)

使用jQuery,我认为最简单,最快速的方法是这样的:

  • 使用jQuery AJAX请求获取该网页的内容。
  • 使用正则表达式获取<body>标记内的内容。
    • 只有当您确定每个页面都有正确格式化的开始和结束正文标记时,才能使用正则表达式。如果您无法确保这一点,则需要抓取DOM。
  • 将翻录的内容放入新的jQuery对象:var $contents = $(bodyContents)
  • 使用典型的jQuery函数来查找所需内容:$contents.find('small').text()
  • 将值写入文件。

完成所有这些工作的代码相当多,所以我不打算尝试。

此外,为了编写文件,除非您在某些环境中,否则您无法使用JavaScript编写文件(至少不使用您标记的技术),因此您需要一种方法。一些选项:

  • 将AJAX呼叫发送到可以存储它的服务器。
  • 将脚本作为可以访问文件系统的节点脚本运行。
  • 使用类似HTML 5本地存储的内容:http://diveintohtml5.info/storage.html
祝你好运。