我想制作一个小程序,它将使用来自任何网站的每个单词 - 含义词
它应该是在python中,我听说过BeautifulSoup,但我不太清楚如何将它用于此目的......小教程? :p
还是像正则表达式一样简单?喜欢:
re.compile('<.*>(.*)<.*>')
所以括号之间的一切?
新行和内容已经完成;)
提前帮忙,对不起的小英语抱歉...
答案 0 :(得分:1)
Scrapy可让网络抓取变得轻松。它还有很好的文档,scrapy startproject
命令将为您构建一个骨架项目。
答案 1 :(得分:1)
Mechanize是一个python库,允许您执行http请求,甚至提供一些解析html并提取您正在寻找的数据的能力。它的主要特点是它可以像浏览器一样处理身份验证和cookie等事情。
使用XML / HTML时,正则表达式并不理想(你会看到)。如果您更喜欢解析库,可以将BeautifulSoup与mechanize结合使用。学习XPath之类的东西也可以让你的生活变得更简单。
机械化和BeautifulSoup都有教程,所以开始阅读一些代码!