一、 robots.txt
协议
规定了网站中哪些数据可以被爬虫爬取,哪些数据不可爬(非要爬也行,大不了进 🍊)
(b 站 robots.txt
协议)
二、Web 请求过程
服务器渲染与客户端渲染的区别
服务器渲染 | 服务器将数据与 HTML 整合,统一返回给客户端,源代码中可看见数据(一次请求) |
---|
客户端渲染 | 服务器返回 HTML 骨架,源代码中看不见数据(多次请求返回数据) |
三、请求头与响应头
- 请求头中常见的一些重要内容
User-Agent
:请求载体的身份标识
Referer
:防盗链(请求从哪个页面来的?反爬会用到)
cookie
:本地字符串数据信息(用户登录信息,反爬的 token)
- 响应头中常见的一些重要内容
cookie
:本地字符串数据信息(用户登录信息,反爬的 token)
- 各种莫名其妙的字符串:防止攻击和反爬
四、requests
requests 相对于urllib
简化了许多步骤,使用起来更为方便
五、数据解析与提取
多数情况下,并不需要整个网页的内容,只需要一小部分,因此需要进行数据提取。
-
re
解析
正则表达式解析
-
bs4
解析
-
xpath
解析
xpath 是在 XML 文档中搜索内容的一门语言