应用错误收集

我发现了一些与此非常接近的帖子，但没有一篇能让我足够接近。

我需要设置一个自动化：

- 转到网页（http://webpageinquestion.com/things/3445）
- 在该页面上找到特定的HTML标签（<small>sometext</small>）
- 获取包含在该标记之间的值（“sometext”）
- 将该值保存为文本文档作为列表，以页面名称为前缀（3445_sometext）

最后，我需要一个看起来像这样的列表：

3445_sometext
  3446_someothertext
  3447_yetmoretext
  3845_textext
  4564_textThetext
  9837_texty

我已经探索了可能使用Wget和jquery GET请求的不同方法。但很明显，为了实现这一点，我对这两种工具都没有扎实的理解。我确信CURL可能会做这样的事情，但我自己从未使用过它。

有什么想法吗？这一直是个难题......

使用jQuery，我认为最简单，最快速的方法是这样的：

使用jQuery AJAX请求获取该网页的内容。
使用正则表达式获取<body>标记内的内容。
- 只有当您确定每个页面都有正确格式化的开始和结束正文标记时，才能使用正则表达式。如果您无法确保这一点，则需要抓取DOM。
将翻录的内容放入新的jQuery对象：var $contents = $(bodyContents)
使用典型的jQuery函数来查找所需内容：$contents.find('small').text()
将值写入文件。

完成所有这些工作的代码相当多，所以我不打算尝试。

此外，为了编写文件，除非您在某些环境中，否则您无法使用JavaScript编写文件（至少不使用您标记的技术），因此您需要一种方法。一些选项：

将AJAX呼叫发送到可以存储它的服务器。
将脚本作为可以访问文件系统的节点脚本运行。
使用类似HTML 5本地存储的内容：http://diveintohtml5.info/storage.html

祝你好运。

转到网页，查找特定标记，将该标记之间的值保存到文本文档中

1 个答案: