我们已经了解了HTML/XML 的树状结构,以及各个节点的类型及其属性、方法。简单说,遍历文档树指怎样从文档中的一个节点跳转到/找到另一节点。
本文依然使用以下文档作说明:
|
|
子节点
一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性.
注意: Beautiful Soup中字符串节点不支持这些属性,因为字符串没有子节点
- .find_all(‘’) 查找所有
|
|
- .contents - 以列表输出当前tag 的子节点
- .children - 对tag 的子节点进行循环
- .descendants - 对tag 的所有子孙节点进行递归循环
- .string 输出tag 包含的字符串
- 如果tag 只有一个
NavigableString
类型子节点,那么这个tag可以使用.string
得到子节点 - 如果tag 有多个
NavigableString
类型子节点,.string 会返回None