Nifi使用python网页抓取工具

时间:2018-10-19 20:28:04

标签: python apache-nifi

我一直在努力解决一个问题。 我的情况是这样的:我想涉足Hadoop和实时分析。作为斧头的例子,我想从一个特定的网站刮一些价格。该脚本可在我的笔记本电脑上使用,但是当我将其移至NIFI时,它开始出现问题。我在笔记本电脑上安装了Raspbarian Desktop虚拟环境。我正在使用NIFI从ExecuteScript获取数据。我有此代码可在本机笔记本电脑上使用:

    import requests
from bs4 import BeautifulSoup
from html import HTML

page = requests.get('https://web.archive.org/web/20121007172955/https://www.nga.gov/collection/anZ1.htm')

# Create a BeautifulSoup object
soup = BeautifulSoup(page.text, 'html.parser')

一旦我将其放入NIFI中,它就会开始抱怨“第2行中没有名为HTML的模块。我知道这是一个模块问题,但是我只是没有必要的经验来找出根本原因并解决该问题。问题。

注意事项:

  1. 我使用其他方法将python 2.7从python 2.7切换到了python 3.5。
  2. 在执行脚本组件中,我将模块目录设置为以下内容: /usr/local/lib/python3.5/dist-packages、/usr/lib/python3/dist-packages

是否有人熟悉此环境,可以帮助我解决缺少的模块以及如何解决此问题?

0 个答案:

没有答案
相关问题