养生 装修 购物 美食 感冒 便秘 营销 加盟 小吃 火锅 管理 创业 搭配 减肥 培训 旅游

python如何处理“&#”开头加数字的html字符

时间:2024-10-03 19:22:36

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

方法/步骤

1、用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,寺橄溟既比如图中所示的这些:&a罪焐芡拂mp;#39118;水大术士

python如何处理“&#”开头加数字的html字符

python如何处理“&#”开头加数字的html字符

2、这些字符需要再次转换才能变回中文内容。

Python2.7版本

1、在python2.7版本中,使用importHTMLParser

python如何处理“&#”开头加数字的html字符

2、定义变量,再定义转换代码。

python如何处理“&#”开头加数字的html字符

3、代码中最重要的是“data_parser=HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。

python如何处理“&#”开头加数字的html字符

4、测试运行,这串字符串正常输出了中文。

python如何处理“&#”开头加数字的html字符

Python3.7+版本

1、在最新python版本中,不能用上面的导入方法。可以用"importh隋茚粟胫tml"或者“fromhtmlimport惺绅寨瞀unescape”。这里使用"importhtml"做测试。

python如何处理“&#”开头加数字的html字符

2、导入html后,直接用".unescape()"来处理字符串。

python如何处理“&#”开头加数字的html字符

3、运行后,正常转换成了中文字符。

python如何处理“&#”开头加数字的html字符

© 一点知识