我正在抓取http://164.100.47.132/LssNew/psearch/QResult16.aspx?qref=15844的字段。使用常用的HTML标记在控制台上正确“返回”所有字段。我需要将这些字段传递给CSV文件(CSVItemExporter)。如果我尝试将html响应放在临时寄存器中并在分配到项字段时在第二步中应用转换器操作,我会得到一组单独的错误消息。
我在BeautifulSoup get_text和html2text中尝试过解决方案,如Is it possible that Scrapy to get plain text from raw html data directly instead of using xPath selectors?和How can I get all the plain text from a website with Scrapy?。其中的解决方案“打印”得很好,但未能分配到相应的字段。
响应函数上的任何转换器操作(转换器(响应+提取))都会导致错误,例如“str object has no attribute'get_text'”(html2text)或返回带有随机\ r \ n项目插入的文本(BeautifulSoup) 。 我怀疑这是因为原始文本中的硬CR,原作者可能会将这些CR保持对齐。我该如何解决这个问题? Win 32上的Python 2.7。