python如何处理“&#”开头加数字的html字符,比如:风水这类数据。
方法/步骤
1、用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,寺橄溟既比如图中所示的这些:&a罪焐芡拂mp;#39118;水大术士
2、这些字符需要再次转换才能变回中文内容。
Python2.7版本
1、在python2.7版本中,使用importHTMLParser
2、定义变量,再定义转换代码。
3、代码中最重要的是“data_parser=HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。
4、测试运行,这串字符串正常输出了中文。
Python3.7+版本
1、在最新python版本中,不能用上面的导入方法。可以用"importh隋茚粟胫tml"或者“fromhtmlimport惺绅寨瞀unescape”。这里使用"importhtml"做测试。
2、导入html后,直接用".unescape()"来处理字符串。
3、运行后,正常转换成了中文字符。