我有一个python作业,使用漂亮的汤来从网上抓取数据。我尝试使用U-SQL执行脚本,但是我一直收到一般错误消息:
<title>Payers</title>
<text>
<table border="1" width="100%">
<thead>
<tr>
<th>Payer Name</th>
<th>Policy Type</th>
<th>Policy Number</th>
<th>Effective Date</th>
<th>Expiration Date</th>
</tr>
</thead>
<tbody />
</table>
</text>
由于我不确定是否可以通过U-SQL抓取网页,因此我没有太多地探讨错误。
这是否可以使用U-SQL,如果不是,我可以使用哪个Azure资源来安排此脚本并将结果存储在Azure数据湖存储中?
答案 0 :(得分:0)
您好我是Azure Data Lake团队的PM,我很乐意帮忙解决这个问题。我首先需要澄清一下你正在尝试做什么。您可以通过mabasile(at)microsoft.com与失败的工作的工作ID联系我吗? (当然可以清除任何敏感信息)。这将是确定您尝试做什么的最佳方式,以及ADL是否可行。
谢谢,我希望尽快收到你的来信!
Matt Basile
Azure Data Lake Analytics
更新:确认Michael Rys的答案 - 您不能通过U-SQL调用外部服务,因为如果ADLA扩展到数百个顶点并且每个顶点进行单独调用,您可能最终DDOS服务,所以ADLA阻止外部呼叫。
答案 1 :(得分:0)
此外,如果您提供完整的错误代码以及您想要如何抓取网页,通常会有所帮助。
我现在做了一个随机的假设,你编写了一些访问网页并试图在U-SQL中运行它的代码。如果这是正确的,您将被U-SQL容器阻止所有外部网络访问阻止。有关详细信息,请参阅上一个答案here。