从第三方网页复制并粘贴文本

时间:2014-07-01 17:21:22

标签: javascript php html url

我想知道是否有办法从第三方网页复制和粘贴文本的某些部分。我的老板让我在这个网站上逐一输入一组文本(50,100,200):http://fbatoolkit.com/chart_details?category=T2ZmaWNlIFByb2R1Y3Rz&rank=500并复制/粘贴信息" 3(30天平均值)&#34 ;到另一个文件。 " rank = 500" part是url中的查询字符串。而且我也知道html源代码中的信息在哪里。是这里:              

    <div style="margin: 20px">
        Estimate sales per day for the rank  
        <input type="text" name="rank" value="500" />
        in this category.

        <input type="submit" value="Estimate" />

            <table width="200">
                <tr>
                    <td>
                        3 (30 Days Avg)
                    </d> 
                </tr>
                <tr>
                    <td>
                        More than 2 (Last Day)
                    </td> 
                </tr>
            </table>

    </div>
</form>

我想知道是否有办法递归访问网站并将该部分文本复制/粘贴到另一个文件中。我知道这可能不是最聪明的做事方式,但请帮助,全能的堆栈溢出!我真的很感激。

1 个答案:

答案 0 :(得分:0)

所以我不写python,但我会试一试。使用Python通常很容易完成这些类型的任务。所以,我将为您提供一般语言结构,我将使用完整的链接来完成此任务。

一般步骤

  1. 设置类别数组
  2. 设置要使用的排名数组
  3. 循环遍历每个类别,然后通过每个等级嵌套循环
  4. 在此内部循环中,查询网页,如下所示:有关打开和阅读网址的更多选项,请参阅This Answer

    page = urllib.request.urlopen(“URL HERE”)。read()

  5. 然后使用RegEx找到您感兴趣的文本,通过这样做(注意 - 下面的RegEx创建假设“(30天平均)”是一个静态字符串,它似乎来自您提供的页面。如果您愿意,可以将此文本重新附加到分组项目的末尾:

    match = re.search(“(\ w +)(30天平均)$”,字符串) extractedText = match.groups(0)

  6. 根据This Answer

  7. 将文字附加到您选择的文件中
  8. 关闭你的循环

  9. 对不起,这不是更多的剪切和粘贴代码。此外,SO文本编辑语法似乎不能很好地处理列表中的代码。 “extractedText ......”应该是独立的。