,Beautiful Soup4是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。,使用pip来安装BeautifulSoup。,另外要安装解析器,下列表格列出一些常用的解析器。,
,运行输出如下图所示,但是发现好像这个网页不止一个a标签跟p标签,是因为它查找的是在所有内容中的第一个符合要求的标签,要想得到所有符合要求的标签,后面会介绍find_all函数。,
,运行输出如下图所示,name输出的是标签的本身,attrs输出的是一个字典的类型,如果我们需要得到某个标签的某个属性可以使用字典一些方法去获取比如get方法,print(soup.p.get("class"))或者直接使用print(soup.p["class"])。,
,运行输出如下图,可以NavigableString类型的string方法轻松获取到了标签里面的内容。,
,运行输出如下图所示:,
,运行输出如下,a 标签里的内容实际上是注释,但是如果利用 .string方法来输出它的内容,发现它已经把注释符号去掉了,所以这可能会给带来不必要的麻烦。,
,运行输出结果如下图所示:,
,运行结果输出如下图所示:,
,运行结果输出如下图所示:,
,运行结果输出如下图所示:,
,运行结果输出如下图所示:,
,find_all(name,attrs,recursive,text,\kwargs)**,find_all()方法用于搜索当前tag的所有tag子节点,并判断是否符合过滤条件。,运行结果如下图所示:,
,运行结果如下图所示:,
,运行结果如下图所示:,
,运行结果如下图所示:,
,输出结果如下图所示:,
,运行结果如下图所示:,
,find(name , attrs , recursive , text , **kwargs ), 它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果。,运行结果如下图所示:,
,运行结果如下图所示:,
,运行结果如下图所示:,
,运行结果如下图所示:,
,运行结果如下图所示:,
,运行结果如下图所示:,
,运行结果如下图所示:,
,运行结果如下图所示:,
,本篇内容比较多,把 Beautiful Soup 的方法进行了大部分整理和总结,但是还不够完整只是列出一些常用的,如果需要完整的可以查看Beautiful Soup 官网的文档,希望对大家有帮助,掌握了 Beautiful Soup,一定会给你在数据爬取带来方便。,本文转载自微信公众号「爱编码的社畜」,可以通过以下二维码关注。转载本文请联系爱编码的社畜公众号。,
© 版权声明
文章版权归作者所有,未经允许请勿转载。