最近我用SOLR设置了一个图像。我的目标是在Windows和Linux服务器上索引和提取文件。我可以从多种文件类型中索引和提取数据。这是由SOLR CELL请求处理程序完成的。请参阅下面的post.jar cmd。
j ava -Dauto -Drecursive -jar post.jar Y:\ SimplePostTool version 1.5将文件发布到基本url localhost:8983 / solr / update ..进入自动模式。考虑的文件结尾是xml,json,csv,pdf,doc,docx,ppt,pp tx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log进入递归模式, max depth = 999,delay = 0s 0个文件已编入索引。
是否可以从.sh和.sql等文件类型中索引和提取元数据/内容? 如果可能的话我当然想知道:)
答案 0 :(得分:0)
您希望从.sh文件和.sql文件中提取哪些文件与任何其他通用文件(名称,位置,日期等)不同。
是否要提取.sh中使用的命令名称?您想从.sql中提取表/字段名称吗?我现在不认为它是可能的,但如果有一个文件格式的解析器,它可以作为模块连接到Tika。而Tika就是索尔在幕后使用的。
答案 1 :(得分:0)
mimeMap = new HashMap<>();
mimeMap.put("xml", "text/xml");
mimeMap.put("csv", "text/csv");
mimeMap.put("json", "application/json");
mimeMap.put("pdf", "application/pdf");
mimeMap.put("rtf", "text/rtf");
mimeMap.put("html", "text/html");
mimeMap.put("htm", "text/html");
mimeMap.put("doc", "application/msword");
mimeMap.put("docx", "application/vnd.openxmlformats-officedocument.wordprocessingml.document");
mimeMap.put("ppt", "application/vnd.ms-powerpoint");
mimeMap.put("pptx", "application/vnd.openxmlformats-officedocument.presentationml.presentation");
mimeMap.put("xls", "application/vnd.ms-excel");
mimeMap.put("xlsx", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet");
mimeMap.put("odt", "application/vnd.oasis.opendocument.text");
mimeMap.put("ott", "application/vnd.oasis.opendocument.text");
mimeMap.put("odp", "application/vnd.oasis.opendocument.presentation");
mimeMap.put("otp", "application/vnd.oasis.opendocument.presentation");
mimeMap.put("ods", "application/vnd.oasis.opendocument.spreadsheet");
mimeMap.put("ots", "application/vnd.oasis.opendocument.spreadsheet");
mimeMap.put("txt", "text/plain");
mimeMap.put("log", "text/plain");
mimeMap.put("sh", "text/plain");
mimeMap.put("sql", "text/plain");
我还将sh和sql添加到以下代码中:
private static final String DEFAULT_FILE_TYPES = "xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log";