正如标题所说,我一直在努力抓取这篇文章,剩下的就是作者。
下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白
目标网站:http://business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/
def extract_text_pyquery(html):
p = pq(html)
article_whole = p.find(".entry")
p_tag = article_whole('p')
print len(p_tag)
print p_tag
for i in range (0, len(p_tag)):
text = p_tag.eq(i).text()
print text
entire = p.find("#main")
author = entire.find('a').filter('.author')
print 'By:', author
答案 0 :(得分:0)
该类不是作者,rel
是;期间选择一个班级。您应该使用'[rel="author"]'
进行过滤,使用方括号可以提交非标准标记。