我希望使用C#以大学项目的方式在PDF
文档中提取表格。我对itextsharp
非常熟悉。
itextsharp
?我可以将PDF
转换为XML / HTML以提取<table>
代码,如果有,我可以使用免费库进行PDF
到HTML转换吗?
或
请给我一个合适的解决方案..
答案 0 :(得分:0)
你能尝试这样的东西并从我从VB.Net转换为C#equiv的这个例子中扩展你需要的东西
public static string GetTextFromPDF(string PdfFileName)
{
iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
dynamic sOut = string.Empty;
for (i = 1; i <= pdfReader.NumberOfPages; i++) {
iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
}
return sOut;
}