如何完成代码只从维基百科页面获取标题?

时间:2018-02-13 05:01:27

标签: python-3.x beautifulsoup wikipedia

以下代码显示了一些输出。从中,如何才能获得'标题'

let view = UIView()
view.clipsToBounds = true
view.layer.cornerRadius = 8
view.layer.maskedCorners = [.layerMaxXMaxYCorner, .layerMinXMaxYCorner]

其输出: -

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests

url = u'https://ta.wikisource.org/wiki/அட்டவணை:பாண்டிய நாட்டுக் கோவில்கள்.pdf'
content = requests.get(url).content
soup = BeautifulSoup(content,'lxml')

talkPage1 = soup.findAll(id='ca-talk')
talkPageType = type(talkPage1)
print(talkPage1)

我们的需求:title =“உள்ளடக்கப்பகபககமகமதொடரதொடரதொடரதொடரதொடரஉரையாடலஉரையாடல(((((((((((<<<<<<<<<<<<<<<<<<<<

1 个答案:

答案 0 :(得分:2)

# coding=utf-8
from bs4 import BeautifulSoup
import requests

url = u'https://ta.wikisource.org/wiki/அட்டவணை:பாண்டிய நாட்டுக் கோவில்கள்.pdf'
content = requests.get(url).content
soup = BeautifulSoup(content,'html.parser')  # use html.parser to parse html

talkPage1 = soup.findAll(id='ca-talk')  # if there is not more than one title to find or to only get first tag with id=ca-talk among all then use find() instead of findAll()
talkPageType = type(talkPage1)
for element in talkPage1:  # findAll() is resultset hence need to iterate to process element
    print(element.find('a')['title']) 

输出:

'உள்ளடக்கப் பக்கம் தொடர்பான உரையாடல் பக்கம் (இன்னமும் எழுதப்படவில்லை) [t]'

在网页标记中包含属性标题打印为输出,如果您不想要它,则[t]在标题中,然后您可以使用.replace('[t]', '')或切片。