我想知道是否有办法从第三方网页复制和粘贴文本的某些部分。我的老板让我在这个网站上逐一输入一组文本(50,100,200):http://fbatoolkit.com/chart_details?category=T2ZmaWNlIFByb2R1Y3Rz&rank=500并复制/粘贴信息" 3(30天平均值)&#34 ;到另一个文件。 " rank = 500" part是url中的查询字符串。而且我也知道html源代码中的信息在哪里。是这里:
<div style="margin: 20px">
Estimate sales per day for the rank
<input type="text" name="rank" value="500" />
in this category.
<input type="submit" value="Estimate" />
<table width="200">
<tr>
<td>
3 (30 Days Avg)
</d>
</tr>
<tr>
<td>
More than 2 (Last Day)
</td>
</tr>
</table>
</div>
</form>
我想知道是否有办法递归访问网站并将该部分文本复制/粘贴到另一个文件中。我知道这可能不是最聪明的做事方式,但请帮助,全能的堆栈溢出!我真的很感激。
答案 0 :(得分:0)
所以我不写python,但我会试一试。使用Python通常很容易完成这些类型的任务。所以,我将为您提供一般语言结构,我将使用完整的链接来完成此任务。
一般步骤
在此内部循环中,查询网页,如下所示:有关打开和阅读网址的更多选项,请参阅This Answer
page = urllib.request.urlopen(“URL HERE”)。read()
然后使用RegEx找到您感兴趣的文本,通过这样做(注意 - 下面的RegEx创建假设“(30天平均)”是一个静态字符串,它似乎来自您提供的页面。如果您愿意,可以将此文本重新附加到分组项目的末尾:
match = re.search(“(\ w +)(30天平均)$”,字符串) extractedText = match.groups(0)
关闭你的循环
对不起,这不是更多的剪切和粘贴代码。此外,SO文本编辑语法似乎不能很好地处理列表中的代码。 “extractedText ......”应该是独立的。