如何将BeautifulSoup结果集写入html文件?

时间:2017-02-08 13:29:37

标签: python-3.x beautifulsoup python-requests

我正从网站http://www.geeksforgeeks.org/amazon-interview-set-3/获取亚马逊访谈。我能够得到我想要的结果集,但它是html格式。这是它的外观:

<p> Hello People <p>
....
....
....

我想将html输出到新的html文件,然后使用pdfkit将html文件转换为pdf。

正如答案所示,我使用命令pip install wkhtmltopdf安装了wkhtmltopdf。

之后我尝试使用命令

pdfkit.from_url('http://example.com/', 'sample.pdf')

OSError:找不到wkhtmltopdf可执行文件:&#34; b&#39;&#39;&#34; 如果此文件存在,请检查此进程是否可以读取它。否则请安装wkhtmltopdf - https://github.com/JazzCore/python-pdfkit/wiki/Installing-wkhtmltopdf

我用Google搜索了解决方案并按照以下步骤操作:

  1. 使用Windows安装程序安装wkhtmltopdf。
  2. 在系统和用户的环境变量路径中添加可执行文件的路径。
  3. 使用pip命令卸载wkhtmltopdf,然后重新安装。
  4. 但错误仍然相同。

    当我使用以下命令导入wkhtmltopdf模块时

    import wkhtmltopdf
    

    我得到如下错误

    C:\Anaconda3\lib\site-packages\wkhtmltopdf\__init__.py in <module>()
    1 from main import WKhtmlToPdf, wkhtmltopdf
      2 import api
    ImportError: No module named 'main'
    

2 个答案:

答案 0 :(得分:1)

如果您要使用pdfkit,可以将HTML字符串直接传送给

import pdfkit

pdfkit.from_string('your HTML string', 'out.pdf')

答案 1 :(得分:0)

如果您想将.html文件转换为.pdf格式,可以随时进行。

import pdfkit

pdfkit.from_file('sample.html', 'sample.pdf')

如果您想通过网址进行操作,请改为使用。

import pdfkit

pdfkit.from_url('http://sample.com', 'sample.pdf')