我发现了一些与此非常接近的帖子,但没有一篇能让我足够接近。
我需要设置一个自动化:
- 转到网页(http://webpageinquestion.com/things/3445)
- 在该页面上找到特定的HTML标签(<small>sometext</small>
)
- 获取包含在该标记之间的值(“sometext”)
- 将该值保存为文本文档作为列表,以页面名称为前缀(3445_sometext)
最后,我需要一个看起来像这样的列表:
3445_sometext
3446_someothertext
3447_yetmoretext
3845_textext
4564_textThetext
9837_texty
我已经探索了可能使用Wget和jquery GET请求的不同方法。但很明显,为了实现这一点,我对这两种工具都没有扎实的理解。我确信CURL可能会做这样的事情,但我自己从未使用过它。
有什么想法吗?这一直是个难题......
答案 0 :(得分:1)
使用jQuery,我认为最简单,最快速的方法是这样的:
<body>
标记内的内容。
var $contents = $(bodyContents)
$contents.find('small').text()
完成所有这些工作的代码相当多,所以我不打算尝试。
此外,为了编写文件,除非您在某些环境中,否则您无法使用JavaScript编写文件(至少不使用您标记的技术),因此您需要一种方法。一些选项: