Como remover todas as tags html do arquivo xml?

-2
Voto

Quero me livrar de todas as tags html dentro do arquivo xml. Eu conheço todas as tags xml, então uso esta regex (colchetes são "):

Eu quero me livrar de todas as tags html dentro do arquivo xml. Eu conheço todas as tags xml, então uso esta regex (os colchetes são ""):
</?(?!(?:xml|source|vacancies|vacancy|url|mobile-url|creation-date|update-date|salary|currency|category|industry|job-name|employment|schedule|description|duty|term|text|requirement|education|qualification|addresses|address|location|lng|lat|company|name|contact-name|hr-agency|metro|phone|experience|logo|site|email)\b)[a-z](?:[^>\"']|\"[^\"]*\"|'[^']*')*>
</?(?!(?:xml|source|vacancies|vacancy|url|mobile-url|creation-date|update-date|salary|currency|category|industry|job-name|employment|schedule|description|duty|term|text|requirement|education|qualification|addresses|address|location|lng|lat|company|name|contact-name|hr-agency|metro|phone|experience|logo|site|email)\b)[a-z](?:[^>\"']|\"[^\"]*\"|'[^']*')*> \"']| \"[^ \"] * \"|'[^ '] *') *>

O problema é re.sub() não funciona nisso, porém os testadores encontram correspondências.

O problema é que re.sub() re.sub () não funciona nisso, porém os testadores encontram correspondências.
print(len(filetext))
filetext=re.sub(re.compile(r"</?(?!(?:xml|source|vacancies|vacancy|url|mobile-url|creation-date|update-date|salary|currency|category|industry|job-name|employment|schedule|description|duty|term|text|requirement|education|qualification|addresses|address|location|lng|lat|company|name|contact-name|hr-agency|metro|phone|experience|logo|site|email)\b)[a-z](?:[^>\"']|\"[^\"]*\"|'[^']*')*>"),"", filetext)
print(len(filetext))
print(len(filetext)) filetext=re.sub(re.compile(r"</?(?!(?:xml|source|vacancies|vacancy|url|mobile-url|creation-date|update-date|salary|currency|category|industry|job-name|employment|schedule|description|duty|term|text|requirement|education|qualification|addresses|address|location|lng|lat|company|name|contact-name|hr-agency|metro|phone|experience|logo|site|email)\b)[a-z](?:[^>\"']|\"[^\"]*\"|'[^']*')*>"),"", filetext) print(len(filetext)) imprimir (len (filetexto)) filetext=re.sub (re.compile (r"\"']| \"[^ \"] * \"|'[^ '] *') *>"),"", filetext) imprimir (len (filetext))

Isso imprime o seguinte (embora as tags html estejam presentes no arquivo):

Isso imprime o seguinte (embora as tags html estejam presentes no arquivo):
827438987
827438987
827438987 827438987 827438987 827438987

Como posso excluir todas as tags html?

Como posso excluir todas as tags html?

Fonte

python xml regex html

1 Responda
0
Voto

Use BeautifulSoup:

from BeautifulSoup import BeautifulSoup

soup=BeautifulSoup(filetext)
alltext=''.join(soup.findAll(text=True))

Aqui alltext é o seu texto.

Fonte

Você pode interessar

© 2021   OlaMundo.Org