我试图从“日期”列中的日期早于2019年11月11日的数据框中删除所有行
数据帧是通过抓取Google新闻(标题,日期,链接,发布者)产生的。这是完整的代码:
from bs4 import BeautifulSoup
import requests
import html5lib
import pandas as pd
import datetime
headers = {'User-Agent': 'Mozilla/5.0'}
#URL Generator (scraping news for 'sega')
urlA= 'https://news.google.com/search?q='
urlB='sega'
urlC='&hl=en-US&gl=US&ceid=US%3Aen'
url=urlA+urlB+urlC
response=requests.get(url)
soup=BeautifulSoup(response.content,'html5lib')
print(soup)
T=[]
t=[]
L=[]
P=[]
#Collecting Data
for x in soup.find_all(class_='ipQwMb ekueJc RD0gLb'):
title=x.text
T.append(title)
print(title)
for r in soup.find_all(class_='SVJrMe'):
z=r.find('time')
if z is not None:
for y in r.find_all('time'):
time=y.get('datetime')
time=str(time).partition('T')
time=time[0]
time = datetime.datetime.strptime(time, "%Y-%m-%d").date()
print(time)
t.append(time)
else:
x='Not Specified'
t.append(x)
for z in soup.find_all(class_='VDXfz'):
links=z.get('href')
links =links[1::] #removing the dot (first character always a
dot in links which is not required)
urlx= 'https://news.google.com'
links= urlx+links
L.append(links)
for w in soup.find_all(class_='wEwyrc AVN2gc uQIVzc Sksgp'):
publisher = w.text
P.append(publisher)
#Checking length to see all is equal
print(len(T))
print(len(t))
print(len(P))
print(len(L))
df=pd.DataFrame({'Title':(T) , 'Date':(t), 'Publisher' : (P), 'Link': (L)})
print(df)
这是当前输出(仅前12行):
如您所见,数据框包含11月之前的日期,我想删除所有这些行。我已经将dates列转换为'dateTIME'格式(请参阅代码[for汤中的r.find ... time = datetime.datetime.strip ....]。
请告知要添加的代码行,以实现所需的功能。请让我知道是否需要任何澄清。
答案 0 :(得分:1)
IIUC,您正在寻找的是:
df = df[df['Date']>datetime.date(2019,1,11)]
答案 1 :(得分:0)
有两种选择。您可以在循环中编写测试以查看t(小写的t似乎是您的日期)是否在11月之前。如果是这样,甚至不要将其他项目附加到各自的列表中。
还有一种使用数据帧的方法称为drop:https://chrisalbon.com/python/data_wrangling/pandas_dropping_column_and_rows/
您也可以使用它。就个人而言,一旦有了t变量,我就会对其进行测试。如果满足您添加到列表的条件,则添加其他列表。如果没有,继续前进。