我在使用python时遇到了一些问题,并且无法获得获得所需结果的概述。 我想建立一个数据集。如果我们从0开始,则工作流程为:
1) Import articles (dataset B) with BeautifulSoup by API
2) Get the body, published date, url, title out of the soup
3) Evaluate the story inside the body
5) Build a dataframe with evaluation, body, published date, url, title
6) Store it inside a csv file
7) Start at 1)
8) Import articles
9) Get the body, ...
10) NOW PROOF IF THE IMPORTED ARTICLES ARE NEW OR ALREADY INSIDE MY DATASET FROM 6)
11) Go on with step 3)
我的问题是关于步骤10)
我使用熊猫从csv导入数据集(A),并希望将其与我从BeautifulSoup网站API获得的新数据集(B)进行比较。
数据集A是具有5列和20行以上的数据框: 评估,日期/时间,URL,标题,文本 例如:1,2018-12-17T06:34:46 + 0100,https://www.xyz.de,文章标题,文章故事
数据集B是我从API接口获得的汤。 比数据集A提供更多信息。
我需要比较两个数据集A和B,仅获取它们之间差异的所需信号(日期/时间,URL,标题,文本)。
因此,我尝试将两个数据集与发布日期/时间进行比较。 因此,我开始从汤(例如数据集B)中获取日期/时间,URL,标题和文本作为单独的向量:
soup = BeautifulSoup(newData.content,'html.parser')
publishedB = soup.find_all("published")
urlB= soup.find_all("url")
titleB = soup.find_all("title")
bodyB = soup.find_all("body")
所以我抓住了看起来像
的publishedB(element.ResultSet)。publishedB =
<published>2018-12-17T04:42:40+0100</published>
<published>2018-12-17T04:43:40+0100</published>
<published>2018-12-17T04:44:40+0100</published>
,例如文章的故事。
bodyB=
Story of an article1
Story of an article2
Story of an article3
然后我获取我从中获得的另一个数据集(A)的日期/时间向量
datasetA= pd.read_csv('file.csv')
dateTimeA = datasetA.iloc[:, 1]
是一个类似
的系列publishedA=
0 2018-12-17T04:41:40+0100
1 2018-12-17T04:42:40+0100
2 2018-12-17T04:43:40+0100
通过比较两个日期/时间数据,您可以看到dataB仅具有一个日期,该日期晚于dataA的最新日期。这是最后一个:
<published>2018-12-17T04:44:40+0100</published>
所以我只需要这个时间/日期的数据。在此示例中,它是第三行。现在,我想提取文本数据的第三行:
Story of an article3
现在,我正在为该死的比较而努力,并删除了正确的线条。我试图找到find_all,重新找回了我的概述。我不确定如何达到我的目标。