原文:Web APIs for non-programmers 文章作于2013年,部分链接已失效,这里先不做修改。 什么是API?API 全称为 Application Programming Interface,即应用程序编程接口,理解 API 的重点在于理解什么是Interface 即接口。 接口随处可见,...
BeautifulSoup 将HTML 文档转换成树形结构,每个节点都是Python 可以操作的对象。这些Python 可操作的对象可以归纳为:Tag、NavigableString、BeautifulSoup、Comment。 本文使用以下文档作说明: 12345678910111213html_doc = &...
XPath用于XMLXPath是一门在XML中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性使用路径表达式进行导航。 XML是与HTML类似的可扩展标记语言HTML用于显示数据,焦点是数据的外观; XML用于存储和传输数据,焦点是数据的内容。 XML的特点 XML是纯文本,兼容性强 HTML中...
正则表达式的作用正则表达式用于处理字符串,检测目标字符串与给出的表达式是否一致。 常用的正则表达式 re.py 标准库文档中文版该模块支持正则表达式匹配操作,类似Perl。 查找的模式(Pattern)和字符串(String)可以是统一编码Unicode,也可以是8位bit,不过二者不能混淆,也就是说你不能使用一...
OSI-开发系统互联通信参考模型一、物理层:光纤 二、数据链路层:以太网(ARP协议通过IP地址找到MAC地址,基于MAC地址转发数据帧)交换机 三、网络层:(基于IP地址转发报文)路由器 四、传输层:TCP、UDP 五、会话层 六、表示层 七、应用层:HTTP、FTP URI 与 URLURI(统一资源标识...
爬虫的工作原理一个理想的爬虫也许是这样工作的: 输入一个已知的页面,从这个初始的「种子页面」开始,获取「种子页面」上的链接并存储至「待爬取」列表,按照某种顺序依次爬取「待爬取」列表,将已爬取的链接转至「已爬取」列表…看起来在理想状态下,爬虫似乎可以一直工作,不断发送HTTP请求爬取互联网上的所有页面。 爬虫...
Finder下Cmd+Shift+. 显示隐藏文件、文件夹,再按一次,恢复隐藏 Finder下Cmd+Shift+G 可以前往任何文件夹,包括隐藏文件夹 Ctr+Space Spotlight搜索 Ctr+Cmd+Space 插入特殊表情和符号 长按应用窗口的最大/小化,可以进行分屏 Cmd+i 可以更...
1. Git 是什么可以吃吗?Git 是一个分布式版本控制系统,由Linus Torvalds 创作,他也是Linux 内核的最早作者。Git 的命名很有意思,该词源自英语俚语,意思大约是「混账」,是Linus Torvalds 的自嘲: “I’m an egotistical bastard, and I n...