我正在尝试解析某些文件(.txt,.doc,.pdf等)。
这是我的conf文件。
输入{
stdin {
codec => plain {
charset => "UTF-8"
}
}
文件{
path => ["/home/jk/Jk/doc/*"]
}
}
filter{
grok {
match => ["message" ,"a-zA-Z0-9"]
}
}
output {
file{
path=>"/home/jk/Jk/jk6.txt"
}
}
我得到的输出是这样的:
{ “路径”: “/家/ JK / JK / DOC / Jayakrishnan-Resume.docx”, “@时间戳”: “2017-03-17T17:35:46.228Z”, “@版本”:“1 “ ”宿主“: ”JK“, ”消息“:[” \ u0000的\ u0000的\ u0000的\ u0000的\ u0000的\ u0000的\ u0000的符\ v \ u0000的\ u0000的\ u0000_rels /的.rels \ XAD \ x92MK \ u0003A \˚F\ 86 \ XEF \ XFD \ u0015C \ XEE \ xDDl + \ X88 \ xC8 \ XCE \ XF6 \\ “柏\\” \ XF5 \一个\ X84 \ X99 \ XEC \ XEE \ XD0 \ XCE \ a3我\ XAD \ XFF \ xDEA “” \ u0000的\ u0000的\ u0000的\ u0000的\ u0000的\ u0000的\ u0000的符\ v \ u0000的\ u0000的\ u0000_rels /的.rels \ XAD \ x92MK \ u0003A \˚F\ 86 \ XEF \ XFD \ u0015C \ XEE \ xDDl + \ X88 \ xC8 \ XCE \ XF6 \\ “柏\\” \ XF5 \一个\ X84 \ X99 \ XEC \ XEE \ XD0 \ XCE \ a3我\ XAD \ XFF \ xDEA“]}
{ “路径”: “/首页/ JK / JK / DOC / Jayakrishnan-Resume.docx”, “@时间戳”: “2017-03-17T17:35:46.239Z”, “@版本”: “1”,”主机 “:” JK “ ”消息“:[” \ XBAP \ x8A \xA0Ǽy\ XF3 \ XF0 \ u001C \ xD2m \ XCE \ xFE如果\ xA0N \ x9C \ x8B \x8BAêiAq0Ѻ0jx\ XDB = / \ u001F \\xD3/\\xBAW>\\x90\\xD4J\\x99\\\\*\\xAAބ\\xA2a\\u0012I\\x8F\\x88\\xC5L\\xEC\\xA941q\\xA8\\x9B!fOR\\xC7<b\\\"\\xB3\\xA7\\x91qݶ\\xF7\\x98\\u007F2\\xA0\\x9F1\\xD5\\xD6j\\xC8[\\xBB\\u0002\\xB5\\xFBH\\xFC76z\\u0016\\xB2$\\x84&f^\\xA6\\\\\\xAF\\xB38.\\u0015Nyd\\xD1
\ xA3y \ xA9q \ xF9j4 \ X95 \ FX]
我做错了什么?