如何在Python中从嵌入式文档中提取文本

时间:2018-11-27 17:41:48

标签: python html

我想使用Python从某些URL中提取文本,但是我无法从BeautifulSoup中获取任何信息,因为文档的HTML仅包含一个嵌入式ID。这是我要从其中提取文本的文件的示例:Example

关于如何从该URL提取文本的任何想法?

这是一个仅产生乱码的代码示例:

r = sessions.get("http://investors.yum.com/Cache/1001242026.PDF? O=PDF&T=&Y=&D=&FID=1001242026&iid=4025819")
html = r.text
soup = BeautifulSoup(html)
text = soup.get_text()
print(text)

0 个答案:

没有答案