Python中BeautifulSoup4的使用

1.在Beautiful Soup中多值属性的返回类型是list,具有多值的属性有class,rel , rev , accept-charset , headers , accesskey等:

如果某个属性看起来好像有多个值,但在任何版本的HTML定义中都没有被定义为多值属性,那么Beautiful Soup会将这个属性作为字符串返回:

2.一个tag可能有很多个属性. tag <b class="boldest" name="tag_name"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:

也可以直接”点”取属性, 比如: .attrs :

3.如果转换的文档是XML格式,那么tag中不包含多值属性

4.select是标签选择器,查的是标签或CSS,返回的结果是一个list;

find, find_all是过滤器,查的是标签名,正则表达式等,find返回的是一个tag对象, find_all返回的是一个tag组合的list

【文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id4