我正在抓取一个静态html网站并将内容移动到数据库支持的CMS中。我想在CMS中使用Textile。
有没有可以将HTML转换为Textile的工具,所以我可以抓取现有网站,将HTML转换为Textile,然后将数据插入数据库?
答案 0 :(得分:1)
我知道这是一个老问题,但我发现自己前几天试图这样做而没有找到任何有用的东西,直到我找到Pandoc。它也可以转换其他标记格式的负载 - 它非常棒。
答案 1 :(得分:0)
这是c# lib converting html 2 textile。虽然它是添加了纺织品。不是纯纺织品。
答案 2 :(得分:0)
由于没有javascript实现,我写了一个: https://github.com/cmroanirgo/to-textile
目前这有点原始,因为它是“降价”等价物的盲目端口,但应该完成工作。
答案 3 :(得分:-1)
尝试这个简单的java代码希望它适合你
import java.net.*;
import java.io.*;
class Crawle
{
public static void main(String ar[])throws Exception
{
URL url = new URL("https://www.google.co.in/#q=i+am+happy");
InputStream io = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
FileOutputStream fio = new FileOutputStream("crawler/file.txt");
PrintWriter pr = new PrintWriter(fio,true);
String data = "";
while((data=br.readLine())!=null)
{
pr.println(data);
System.out.println(data);
}
}
}
}
答案 4 :(得分:-2)
这是一个简单的标记替换,没有一个好的正则表达式无法修复。
我推荐使用Perl,LWP :: Simple和一些正则表达式(旋转,剥离设计和菜单,转换为纺织品,然后发布到数据库。)