如何在HTML页面中检测不同的数据类型?

时间:2011-04-09 01:48:40

标签: java html dom web-crawler

使用Java工具DOM API,regexp等检测html页面内数据类型的最佳方法是什么? 我想检测skype插件类型的电话/ Skype类型,类似于地址,电子邮件,时间等。

2 个答案:

答案 0 :(得分:2)

'类型'对于您所指的信息类型而言是不恰当的术语。 DOM API或正则表达式的选择取决于页面内信息的结构。

如果您知道结构,(例如用于显示信息的表格,您已经知道可以从哪个单元格中找到电话号码以及可以找到电子邮件地址的单元格),那么使用DOM API是有意义的。

否则,您应该在纯HTML文本上使用正则表达式而不进行解析。

答案 1 :(得分:0)

我按以下顺序使用正则表达式:

  1. 仅提取BODY内容
  2. 删除所有标记以保留纯文本
  3. 匹配文字中的相关模式
  4. 当然,这假设标记没有提供提示,并且您纯粹是提取数据,而不是修改页面上下文。

    希望这有帮助,

    Phil Lello