从字符串中提取不同语言的2个子字符串

时间:2016-04-28 05:31:18

标签: string rss hebrew

我有一个字符串,其中包含我解析的RSS项目的描述。 该字符串包含描述(希伯来语),图像URL和其他一些我不需要的字符。

我正在寻找一种方法将描述和URL提取为2个新字符串。

就URL而言,我找到了一个适合我的解决方案。 但是,由于父母内部描述部分的位置和长度未知,我有点坚持......

**我有一个想法,并试图弄清楚如何正确编码:

String parent;
for (int i = 0; i < parent.length; i++) {
char currentChar = parent.charAt(i);
// check if the Char is in Hebrew and remove any other Char
}

然而,这个想法是有问题的, 既然除了希伯来语之外, 我还需要保存多语言字符(即数字,句号,逗号,引号等)。

以下是字符串的一些示例: (部分是希伯来语,所以如果不可读的话,我道歉)

"במשטרה חושדים כי פיודור בייז'ניריי הצליח לרצוח ולאנוס ללא חשדות נגדו<p><img src=\"http:\/\/images.nana10.co.il\/upload\/mediastock\/img\/11\/0\/258\/258180.jpg\" alt=\"\" title=\"\"\/><\/p>

<p style=\"direction:rtl; clear:both\">\t\t\t <a href=\"http:\/\/news.walla.co.il\/item\/2956715\"> <img hspace=5 border=0 align=\"right\" src=\"http:\/\/msc.wcdn.co.il\/archive\/2132766-18.jpg\" \/>  <\/a> <BR> \n\t\t\tלוחמי משמר הגבול מצאו במהלך סיור באחת משכונות מזרח ירושלים כלב פצוע שעורר את חשדם. הם פינו את הכלב לטיפול במרפאה וטרינרית שם התברר כי הוא נגנב למטרת שימוש בקרבות כלבים. בעלי הכלב: \"אנחנו עדיין לא מעכלים שהוא חזר אלינו\"<\/p>

"הערב בחדשות: גילויים חדשים סביב מעצרו של מי שבמשטרה מכנים \"הרוצח הסדרתי\"; במרחק נגיעה מחיזבאללה - כתבנו במוצב הרגיש בצפון; ניצחונות סוחפים לטראמפ וקלינטון; בניגוד לחוק: בתי אבות מסרבים לקבל אליהם נשא של נגיף ה- HIV ; חשופים בדרכים: פרצת אבטחה מאפשרת לעקוב אחריכם כשאתם נוהגים עם וויז. כיצד מתגוננים?<p><img src='http:\/\/img.mako.co.il\/2016\/04\/28\/638671_A.jpg'\/><\/p>

גרושתו של פיודור בייז'נרי: \"ישנו באותה מיטה, הוא לא עשה את זה\"

1 个答案:

答案 0 :(得分:0)

更新:所以我发现我只需要从字符串中删除所有HTML组件即可。

只需使用this answer