Python重点知识总结(含爬虫)

张开发
2026/4/15 1:22:25 15 分钟阅读

分享文章

Python重点知识总结(含爬虫)
一、Python 语言基础语言定位解释型、面向对象、简洁易读适合Web安全、爬虫、自动化只用Python3Python2已停止维护。基础语法注释#单行 / 多行变量直接赋值无需声明类型输出print()输入input()6大数据类型数字、字符串、列表、元组、字典、集合流程控制判断if-elif-else循环for/while中断break跳出continue跳过核心规则用缩进区分代码块不能乱对齐函数用def定义可传参、可返回值类与对象类模板对象实例魔术方法__init__初始化、__del__销毁二、模块、库与 pip 包管理开发必备模块.py文件封装代码方便复用。两种导入方式import requests导入整个库from lxml import etree精准导入部分pip 常用命令安装pip install 库名卸载pip uninstall 库名查看已装pip list国内镜像加速推荐pip install xxx -i https://mirrors.aliyun.com/pypi/simple/批量安装依赖pip install -r requirements.txt三、爬虫开发核心请求 解析1. 核心第三方库requests发送HTTP请求模拟浏览器lxml.etree解析HTMLjson处理JSON接口数据scapy网络数据包操作课程提及2. 请求头 headers反爬关键User-Agent伪装浏览器必加Referer伪造来源Cookie带登录态访问有权限页面3. HTML解析XPath//全局查找[classxxx]按属性匹配[1]取第一个/text()提取文本示例//div[classitem]//span[classtitle][1]/text()4. JSON解析response.json()直接转Python字典用data[key]取值5. 异常处理try-except-pass遇到错误不中断继续执行6. 动态URL拼接模板url http://xxx?id{}填充url.format(i)四、Web安全实战课程重点1. 越权漏洞检测打开Burp Suite配置代理抓包找到用户信息请求包修改id参数查看是否返回其他用户数据水平/垂直越权2. 目录扫描工具 dirsearch作用爆破隐藏目录、敏感文件、源码备份命令dirsearch -u 目标网址重点关注200成功、301/302重定向、403禁止高危文件web.zip、backup、config.php3. 其他安全工具sqlmap自动化SQL注入检测利用Burp Suite抓包、改包、漏洞测试五、完整代码模板1. 豆瓣电影爬虫HTML解析import requests from lxml import etree headers {User-Agent:浏览器UA} url https://movie.douban.com/top250 resp requests.get(url, headersheaders) tree etree.HTML(resp.text) titles tree.xpath(//div[classitem]//span[classtitle][1]/text())2. 用户数据批量爬取JSON越权import requests url_temp http://xxx?id{} headers {User-Agent:..., Cookie:...} users [] for i in range(1,21): try: res requests.get(url_temp.format(i), headersheaders) data res.json() if data.get(ok): users.append(data) except: pass六、课程整体总结Python优势代码简洁、库丰富大幅提升安全/爬虫效率爬虫 请求 解析 循环 异常处理安全核心抓包改参测越权、目录扫描找备份、工具自动化挖漏洞必备技能requests、XPath、JSON、try-except、dirsearch、Burp Suite

更多文章