如何解析HTML?

时间:2014-05-07 21:11:24

标签: html-parsing teradata

我有一张桌子

id txt
1  <html> ... a lot of different html tags
2  <html> ... a lot of different html tags
3   <html> ... a lot of different html tags

如何解析txt以便在没有所有这些标签的情况下获得纯文本?

2 个答案:

答案 0 :(得分:1)

您可以使用可从https://downloads.teradata.com/download/extensibility/teradata-udfs-for-popular-oracle-functions

下载的REPLACE UDF

如果您使用的是TD 14,则它具有内置REPLACE功能,用于相同目的。 (www.info.teradata.com/eDownload.cfm?itemid=113480017)

答案 1 :(得分:1)

如果您使用的是TD14,则可以使用REGEXP_REPLACE。

REGEXP_REPLACE(txt, '<[^>]*>', ' ', 1, 0, 'i')

如果你得到&#39;&lt;&#39;和&#39;&gt;&#39;在那里,你应该搜索一个更好的RegExp。