技术文章

python爬虫换行符问题该怎么处理?

下面我提供两种方法,你可以参考一下,一个是字符串自带的replace替换函数,一个是利用正则表达式进行替换,第一种方法较为简单,第二种方法较为复杂一点,还是以你的这个例子为例,实验环境win7+python2.7+pycharm,主要代码和步骤如下:

方法一:使用replace函数替换<br>标签

1.这里实现起来挺简单的,直接调用replace函数就行,代码如下:

python爬虫

2.程序运行截图如下,可以看的出来,<br>换行标签已被替换掉,已经正确输出了你需要的结果:

python爬虫

方法二:使用正则表达式替换<br>标签

1.这种情况下,主要用到re的subn替换函数,替换掉正则表达式匹配的所有<br>标签,这里的正则表达式比较简单,如果你从来没有接触过正则表达式,建议还是好好学习一下,功能很强大主要代码如下,result为替换后返回的字符串,number为替换的<br>个数:

python爬虫

2.程序运行结果和方法一输出一样,已经成功打印出所需的字符串:

python爬虫

至此,两种方法都介绍完毕,都挺简单的。总的来说,就是字符串的替换,替换掉我们不需要的字符串,代码量其实很少,python已经提供好了对应的函数,我们只需要调用就行,只要你有一定的python基础,多练习练习,调试调试代码,很快就能掌握的,爬虫的时候经常会碰到这些问题,慢慢的你就会处理这些问题了