我正在编写一些反XSS代码,并希望将常用HTML标记及其相应属性列入白名单。
我在PostgresSQL数据库中有一个客户输入HTML的大型数据库,并希望挖掘数据以确定哪些标记在不同的列中常用。
我正在考虑将数据库转储为纯文本,并使用grep或shell脚本来查找常用标记。有什么好办法呢?我对任何可以在UNIX(OSX)或PostgreSQL中工作的东西持开放态度。
答案 0 :(得分:1)
查看OWASP java HTML Serializer,OWASP AntiSamy或Jsoup
https://www.owasp.org/index.php/OWASP_Java_HTML_Sanitizer https://www.owasp.org/index.php/Category:OWASP_AntiSamy_Project http://jsoup.org/