在Azure上安排Web抓取作业并将结果存储在ADLS上

时间:2018-01-03 14:02:35

标签: python azure u-sql

我有一个python作业,使用漂亮的汤来从网上抓取数据。我尝试使用U-SQL执行脚本,但是我一直收到一般错误消息:

            <title>Payers</title>
                <text>
                    <table border="1" width="100%">
                        <thead>
                            <tr>
                                <th>Payer Name</th>
                                <th>Policy Type</th>
                                <th>Policy Number</th>
                                <th>Effective Date</th>
                                <th>Expiration Date</th>
                            </tr>
                        </thead>
                        <tbody />
                    </table>
                </text>

由于我不确定是否可以通过U-SQL抓取网页,因此我没有太多地探讨错误。

这是否可以使用U-SQL,如果不是,我可以使用哪个Azure资源来安排此脚本并将结果存储在Azure数据湖存储中?

2 个答案:

答案 0 :(得分:0)

您好我是Azure Data Lake团队的PM,我很乐意帮忙解决这个问题。我首先需要澄清一下你正在尝试做什么。您可以通过mabasile(at)microsoft.com与失败的工作的工作ID联系我吗? (当然可以清除任何敏感信息)。这将是确定您尝试做什么的最佳方式,以及ADL是否可行。

谢谢,我希望尽快收到你的来信! Matt Basile
Azure Data Lake Analytics

更新:确认Michael Rys的答案 - 您不能通过U-SQL调用外部服务,因为如果ADLA扩展到数百个顶点并且每个顶点进行单独调用,您可能最终DDOS服务,所以ADLA阻止外部呼叫。

答案 1 :(得分:0)

此外,如果您提供完整的错误代码以及您想要如何抓取网页,通常会有所帮助。

我现在做了一个随机的假设,你编写了一些访问网页并试图在U-SQL中运行它的代码。如果这是正确的,您将被U-SQL容器阻止所有外部网络访问阻止。有关详细信息,请参阅上一个答案here