我想分割html文件(它是Pali-捷克字典),然后在Python中将数据提取到数组或字典中:
术语(粉红色)
<p class="calibre_"><span class="bold"> TERM1 </span>
定义 (黄色)
...TERM1 </span>(→<span class="italic"> TEXT</span>).</p>
<p class="calibre_"><span class="bold">TERM2....
定义文本有时很棘手,并且可以包含多个段落和换行符。因此,我找到了从 term 的结束标记到 new term 的开始标记之间提取文本的最安全的选择。
数据预览:
原始HTML数据:https://pastebin.com/FypTPnLc
我无法成功提取数据。我已经尝试了text.split方法和正则表达式,但是找不到该问题的解决方案。我想问一下从此html提取数据的最佳方法是什么?
答案 0 :(得分:0)
这将提取数据到列表,列表中的每个项目均为[term, definition]
:
data = """
<p class="calibre_"><span class="bold">dibba-čakkhu</span> (dibbacakkhu): ,božský zrak‘ (dosl. ,božské oko‘), je jednou ze šesti vyšších schopností (→ <span class="italic">abhiňňá</span>) a jedním ze tří druhů vědění (→ <span class="italic">tévidždžá</span>).</p>
<p class="calibre_"><span class="bold">dibba-lóka</span> (dibbaloka): nebeský svět; →<span class="italic"> déva</span>.<br class="calibre2"/>
<span class="bold">dibba-sóta</span> (dibbasota): ,božský sluch‘, je jednou z šesti vyšších schopností (→ <span class="italic">abhiňňá</span>). </p>
<p class="calibre_"><span class="bold">dibba-vihára</span> (dibbavihāra): →<span class="italic"> vihára</span>.<br class="calibre2"/>
<span class="bold">disciplína</span> (etika): →<span class="italic"> síla</span>.</p>
<p class="calibre_"><span class="bold">dittha-dhamma-védaníja-kamma</span> (diṭṭhadhammavedanīyakamma): karma, která přináší plody ještě v tomto životě; →<span class="italic"> karma</span>. </p>
<p class="calibre_"><span class="bold">ditthi</span> (diṭṭhi): ,názor‘ či ,přesvědčení‘ (dosl. ,vidění‘, od kořene <span class="italic">dis</span> − ,vidět‘). Když není ve spojení s výrazem <span class="italic">sammá </span>(správný), odkazuje většinou k nesprávnému či neprospěšnému názoru a jen v několika málo případech ke správnému názoru, pochopení či vhledu (například →<span class="italic"> ditthippatta</span>; <span class="italic">ditthi-visuddhi</span> − očištění názoru; <span class="italic">ditthi-sampanna</span> − obdařený vhledem).</p>
<p class="calibre_"> Neprospěšné či nesprávné názory (<span class="italic">ditthi</span> či<span class="italic"> miččhá-ditthi</span>) jsou prohlášeny za zcela zavrženíhodné, neboť jsou zdrojem špatných cílů a jednání a mo<br class="calibre2"/> ditthi ditthi<br class="calibre2"/> hou člověka časem zavést do nejhlubších propastí mravní zkázy, jak se uvádí v A. I, 22: </p>
<p class="calibre_">„Mniši, jsou to především nesprávné názory, kvůli kterým vznikají v takovém rozsahu dosud nevzniklé neprospěšné věci a již vzniklé neprospěšné věci sílí a naplňují se. Jsou to především nesprávné názory, kvůli kterým je v takovém rozsahu zabraňováno vzniku dosud nevzniklých prospěšných věcí a již vzniklé prospěšné věci mizí. Jsou to především nesprávné názory, kvůli kterým lidské bytosti po rozpadu těla, po smrti, nastupují v takovém rozsahu cestu utrpení, cestu do světa bídy a do pekla.“ Dále se uvádí v A. I, 23: „Cokoli člověk s nesprávným názorem dělá či podstupuje nebo ať má jakékoli záměry, cíle, touhy či sklony, všechny tyto věci ho vedou k nežádoucím, nepříjemným a nepříznivým stavům, k bídě a utrpení.“</p>
<p class="calibre_">Z abhidhammy (Dhs.) lze vyvodit, že nesprávné názory, ať vznikají kdekoli, jsou vždy spojeny s chtivostí (→ Tab. I, 22−23, 26−27).<br class="calibre2"/> V suttách je uvedeno mnoho spekulativních názorů a teorií, které vždy ovlivňovaly a stále ovlivňují lidstvo. Mezi nimi je to ale především nesprávné přesvědčení o osobnosti, názor o ,já‘, který lidi vždy a všude zaváděl a pletl nejvíce. Toto přesvědčení o osobnosti (<span class="italic">sakkája-ditthi</span>) či názor o ,já‘ (<span class="italic">atta-ditthi</span>) je dvojího druhu − přesvědčení o věčném trvání a přesvědčení o zániku.<br class="calibre2"/> Názor o věčném trvání čili eternalismus (<span class="italic">sassata-ditthi</span>) je přesvědčením o existenci ,já‘, duše či osobnosti jakožto přetrvávající entity, která existuje nezávisle na tělesných a mentálních procesech utvářejících život a která pokračuje i po smrti. <br class="calibre2"/> Názor o zničení (<span class="italic">uččhéda-ditthi</span>) je na druhé straně přesvědčení o existenci ,já‘ či osobnosti jakožto entity, která je víceméně totožná s oněmi tělesnými a mentálními procesy a která proto zanikne rozpadem při smrti. Dvacet druhů názorů o osobnosti →<span class="italic"> sakkája-ditthi</span>.<br class="calibre2"/> Buddha neučil ani o osobnosti, která přetrvává po smrti, ani o osobnosti, která zanikne smrtí, ale ukazoval, že osobnost, ego, jednotlivec, člověk atd. nejsou nic jiného než pouhé konvenční výrazy (<span class="italic">vóhára-vačana</span>) a že v absolutním smyslu (→<span class="italic"> paramattha-sačča</span>) existuje pouze sebestravující proces tělesných a mentálních jevů, které stále znovu vznikají a hned zase mizí. Další podrobnosti →<span class="italic"> anattá</span>, <span class="italic">khandha</span>, <span class="italic">patičča-samuppáda</span>. <br class="calibre2"/> „Dokonalý je osvobozen od všech názorů (<span class="italic">ditthi-gata</span>), protože prohlédl, co je tělesnost a jak vzniká a zaniká. Prohlédl, co jsou pociťování … vnímání … mentální formace … vědomí … a jak vznikají a zanikají. Proto říkám, že Dokonalý dosáhl úplného osvobození díky ustání, zanechání, vymizení, odmítnutí a zapuzení všech představ a domněnek, všech sklonů k marné slávě ,já‘ a ,mého‘“ (M. 72).</p>
<p class="calibre_"> ditthinissitasíla ditthinissitasíla<br class="calibre2"/> Odmítnutí spekulativních názorů a teorií je ústředním tématem kapitoly <span class="italic">Atthaka-vagga</span> ze <span class="italic">Sutta-nipáty</span>. </p>
<p class="calibre_">Tzv. ,nesprávné názory s nezvratnými následky‘ ( <span class="italic">nijata-miččhá-ditthi</span>), tvořící poslední z deseti neprospěšných způsobů jednání (→<span class="italic"> kamma-patha</span>), jsou tyto tři:</p>
<p class="calibre_">1. Fatalistické ,přesvědčení o bezpříčinnosti‘ existence ( <span class="italic">ahétuka-ditthi</span>) hlásané Buddhovým současníkem, Makkhalim Gósálou, který odmítal veškeré příčiny zkaženosti a čistoty bytostí a tvrdil, že vše je zcela předurčeno osudem.</p>
<p class="calibre_">2. ,Přesvědčení o neúčinnosti jednání‘ ( <span class="italic">akirija-ditthi</span>) hlásané dalším Buddhovým současníkem, Púranou Kassapou, který popíral veškeré karmické účinky dobrého a špatného jednání: „Tomu, kdo zabíjí, krade, loupí atd., se nic zlého nestane. Za štědrost, sebeovládání a pravdivost nelze očekávat žádnou odměnu.“ </p>
<p class="calibre_">3. Nihilismus ( <span class="italic">natthika-ditthi</span>) hlásaný třetím Buddhovým současníkem, Adžitou Késakambalim, který tvrdil, že každé přesvědčení o dobrém jednání a jeho odměně je jen klamem, že po smrti není žádný další život a že se člověk po smrti rozpadne na prvky atd.</p>
<p class="calibre_"> Další podrobnosti o těchto třech názorech viz D. 2; M. 60; komentářový výklad ve Wheel 98/99, str. 23. </p>
<p class="calibre_">Často se také uvádí deset antinomií (= protichůdných názorů; <span class="italic">antagáhiká miččhá-ditthi</span>), například: „svět je konečný“ a „svět je nekonečný“ … „tělo a duše jsou totožné“ a „tělo a duše jsou odlišné“ (například M. 63).</p>
<p class="calibre_">V <span class="italic"> Brahmadžála-suttě</span> (D.1) je roztříděno a popsáno šedesát dva nesprávných názorů, které shrnují všechny možné nesprávné názory a spekulace o člověku a světě. Viz Bhikkhu Bodhi: <span class="italic">The All-Embracing Net of Views</span> (<span class="italic">Brahmadžála-sutta</span> a komentář), BPS. Dále viz D. 15, 23, 24, 28; M. 11−12, 25, 60, 63, 72, 76, 101−102, 110; A. II, 16; A. X, 93; S. XXI, XXIV; Pts.M. (<span class="italic">Ditthi-kathá</span>) atd.</p>
"""
from bs4 import BeautifulSoup
from pprint import pprint
data = data.replace('\xad', '') # remove soft-hyphens
soup = BeautifulSoup(data, 'lxml')
result = []
for span in soup.select('p > span.bold'):
result.append([span.text, span.parent.text.replace(span.text, '').strip()])
for p in span.parent.select('~ p'):
if p.select('span.bold'):
break
result[-1][-1] += '\n' + p.text
pprint(result)
输出:
[['dibba-čakkhu',
'(dibbacakkhu): ,božský zrak‘ (dosl. ,božské oko‘), je jednou ze šesti '
'vyšších schopností (→ abhiňňá) a jedním ze tří druhů vědění (→ tévidždžá).'],
['dibba-lóka',
'(dibbaloka): nebeský svět; → déva.\n'
'dibba-sóta (dibbasota): ,božský sluch‘, je jednou z šesti vyšších '
'schopností (→ abhiňňá).'],
['dibba-sóta',
'dibba-lóka (dibbaloka): nebeský svět; → déva.\n'
' (dibbasota): ,božský sluch‘, je jednou z šesti vyšších schopností (→ '
'abhiňňá).'],
['dibba-vihára', '(dibbavihāra): → vihára.\ndisciplína (etika): → síla.'],
['disciplína', 'dibba-vihára (dibbavihāra): → vihára.\n (etika): → síla.'],
['dittha-dhamma-védaníja-kamma',
'(diṭṭhadhammavedanīyakamma): karma, která přináší plody ještě v tomto '
'životě; → karma.'],
['ditthi',
'(diṭṭhi): ,názor‘ či ,přesvědčení‘ (dosl. ,vidění‘, od kořene dis − '
',vidět‘). Když není ve spojení s výrazem sammá (správný), odkazuje většinou '
'k nesprávnému či neprospěšnému názoru a jen v několika málo případech ke '
'správnému názoru, pochopení či vhledu (například → ppatta; -visuddhi − '
'očištění názoru; -sampanna − obdařený vhledem).\n'
' Neprospěšné či nesprávné názory (ditthi či miččhá-ditthi) jsou prohlášeny '
'za zcela zavrženíhodné, neboť jsou zdrojem špatných cílů a jednání a mo '
'ditthi ditthi hou člověka časem zavést do nejhlubších propastí mravní '
'zkázy, jak se uvádí v A. I, 22: \n'
'„Mniši, jsou to především nesprávné názory, kvůli kterým vznikají v takovém '
'rozsahu dosud nevzniklé neprospěšné věci a již vzniklé neprospěšné věci '
'sílí a naplňují se. Jsou to především nesprávné názory, kvůli kterým je v '
'takovém rozsahu zabraňováno vzniku dosud nevzniklých prospěšných věcí a již '
'vzniklé prospěšné věci mizí. Jsou to především nesprávné názory, kvůli '
'kterým lidské bytosti po rozpadu těla, po smrti, nastupují v takovém '
'rozsahu cestu utrpení, cestu do světa bídy a do pekla.“ Dále se uvádí v A. '
'I, 23: „Cokoli člověk s nesprávným názorem dělá či podstupuje nebo ať má '
'jakékoli záměry, cíle, touhy či sklony, všechny tyto věci ho vedou k '
'nežádoucím, nepříjemným a nepříznivým stavům, k bídě a utrpení.“\n'
'Z abhidhammy (Dhs.) lze vyvodit, že nesprávné názory, ať vznikají kdekoli, '
'jsou vždy spojeny s chtivostí (→ Tab. I, 22−23, 26−27). V suttách je '
'uvedeno mnoho spekulativních názorů a teorií, které vždy ovlivňovaly a '
'stále ovlivňují lidstvo. Mezi nimi je to ale především nesprávné '
'přesvědčení o osobnosti, názor o ,já‘, který lidi vždy a všude zaváděl a '
'pletl nejvíce. Toto přesvědčení o osobnosti (sakkája-ditthi) či názor o '
',já‘ (atta-ditthi) je dvojího druhu − přesvědčení o věčném trvání a '
'přesvědčení o zániku. Názor o věčném trvání čili eternalismus '
'(sassata-ditthi) je přesvědčením o existenci ,já‘, duše či osobnosti '
'jakožto přetrvávající entity, která existuje nezávisle na tělesných a '
'mentálních procesech utvářejících život a která pokračuje i po smrti. '
'Názor o zničení (uččhéda-ditthi) je na druhé straně přesvědčení o existenci '
',já‘ či osobnosti jakožto entity, která je víceméně totožná s oněmi '
'tělesnými a mentálními procesy a která proto zanikne rozpadem při smrti. '
'Dvacet druhů názorů o osobnosti → sakkája-ditthi. Buddha neučil ani o '
'osobnosti, která přetrvává po smrti, ani o osobnosti, která zanikne smrtí, '
'ale ukazoval, že osobnost, ego, jednotlivec, člověk atd. nejsou nic jiného '
'než pouhé konvenční výrazy (vóhára-vačana) a že v absolutním smyslu (→ '
'paramattha-sačča) existuje pouze sebestravující proces tělesných a '
'mentálních jevů, které stále znovu vznikají a hned zase mizí. Další '
'podrobnosti → anattá, khandha, patičča-samuppáda. „Dokonalý je osvobozen '
'od všech názorů (ditthi-gata), protože prohlédl, co je tělesnost a jak '
'vzniká a zaniká. Prohlédl, co jsou pociťování … vnímání … mentální formace '
'… vědomí … a jak vznikají a zanikají. Proto říkám, že Dokonalý dosáhl '
'úplného osvobození díky ustání, zanechání, vymizení, odmítnutí a zapuzení '
'všech představ a domněnek, všech sklonů k marné slávě ,já‘ a ,mého‘“ (M. '
'72).\n'
' ditthinissitasíla ditthinissitasíla Odmítnutí spekulativních názorů a '
'teorií je ústředním tématem kapitoly Atthaka-vagga ze Sutta-nipáty. \n'
'Tzv. ,nesprávné názory s nezvratnými následky‘ ( nijata-miččhá-ditthi), '
'tvořící poslední z deseti neprospěšných způsobů jednání (→ kamma-patha), '
'jsou tyto tři:\n'
'1. Fatalistické ,přesvědčení o bezpříčinnosti‘ existence ( ahétuka-ditthi) '
'hlásané Buddhovým současníkem, Makkhalim Gósálou, který odmítal veškeré '
'příčiny zkaženosti a čistoty bytostí a tvrdil, že vše je zcela předurčeno '
'osudem.\n'
'2. ,Přesvědčení o neúčinnosti jednání‘ ( akirija-ditthi) hlásané dalším '
'Buddhovým současníkem, Púranou Kassapou, který popíral veškeré karmické '
'účinky dobrého a špatného jednání: „Tomu, kdo zabíjí, krade, loupí atd., se '
'nic zlého nestane. Za štědrost, sebeovládání a pravdivost nelze očekávat '
'žádnou odměnu.“ \n'
'3. Nihilismus ( natthika-ditthi) hlásaný třetím Buddhovým současníkem, '
'Adžitou Késakambalim, který tvrdil, že každé přesvědčení o dobrém jednání a '
'jeho odměně je jen klamem, že po smrti není žádný další život a že se '
'člověk po smrti rozpadne na prvky atd.\n'
' Další podrobnosti o těchto třech názorech viz D. 2; M. 60; komentářový '
'výklad ve Wheel 98/99, str. 23. \n'
'Často se také uvádí deset antinomií (= protichůdných názorů; antagáhiká '
'miččhá-ditthi), například: „svět je konečný“ a „svět je nekonečný“ … „tělo '
'a duše jsou totožné“ a „tělo a duše jsou odlišné“ (například M. 63).\n'
'V Brahmadžála-suttě (D.1) je roztříděno a popsáno šedesát dva nesprávných '
'názorů, které shrnují všechny možné nesprávné názory a spekulace o člověku '
'a světě. Viz Bhikkhu Bodhi: The All-Embracing Net of Views '
'(Brahmadžála-sutta a komentář), BPS. Dále viz D. 15, 23, 24, 28; M. 11−12, '
'25, 60, 63, 72, 76, 101−102, 110; A. II, 16; A. X, 93; S. XXI, XXIV; Pts.M. '
'(Ditthi-kathá) atd.']]