使用Async UrlFetch在App Engine上进行网页字符代码提取

时间:2012-04-19 01:17:27

标签: google-app-engine urlfetch

有很多关于确定文本文件和网页的字符编码的讨论。

对于网页,似乎最好/最简单的方法是使用一个以Url作为输入并返回正确编码的字符串的库。由于库正在获取文档,因此它可以使用HTTP标头来帮助确定编码。

  1. http://htmlcleaner.sourceforge.net/download
  2. How do you Programmatically Download a Webpage in Java
  3. character encoding in a web page using java
  4. http://docs.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html
  5. 如果我们想使用UrlFetch获取文档,特别是async api,那么最好的方法是库吗?用于确定编码。

    是否存在与async urlfetch集成(或可以轻松修改以集成)的库?

1 个答案:

答案 0 :(得分:0)

使用URLFetch,您将获得一个HTTPResponse,您可以使用getHeaders()获取list of headers.查找Content-Type,对于网页应该是text/html; charset=UTF-8类似于charset,其中{{1}}是您的字符集编码。