我使用Python SDK设计了一个简单的Apache Beam Pipeline,虽然我知道Python SDK的流功能仍在开发中我偶然发现了一个我无法避免的障碍:Pipeline中的所有内容都可以正常工作,直到我尝试流入BigQuery表。我没有收到错误,异常或警告,数据根本没有出现在BigQuery上。
我尝试了2.1.0和2.2.0两者,结果相同。
我从中获取数据的PubSub主题只包含“我喜欢Apache Beam #apachebeam #dataflow #beam #datascience”这样的推文。
这是管道:
pd.read_parquet
输出: /home/ubik/Documents/github/twitter-streaming/beam/.venv/lib/python2.7/site-packages/apache_beam/coders/typecoders.py:135: UserWarning:使用回退编码器进行typehint:Any。 warnings.warn('使用回退编码器为typehint:%r。'%typehint) INFO:root:使用DirectRunner运行管道。
编辑:我试图在9月4日再次运行管道,一切正常。可能是BigQuery的恶作剧者不再困扰我了。