Python数据分析实战

张开发

• 2026/4/11 5:44:33 • 15 分钟阅读

分享文章

Python数据分析实战后端转 Rust 的萌新ID 第一程序员——名字大人很菜暂时。正在跟所有权和生命周期死磕日常记录 Rust 学习路上的踩坑经验和啊哈时刻代码片段保证能跑。保持学习保持输出。欢迎大佬们轻喷也欢迎同好一起进步。前言最近在学习数据科学的过程中我开始接触 Python 数据分析。作为一个从后端转 Rust 的萌新我认为数据分析是 Python 的一个重要应用领域它可以帮助我们从数据中提取有价值的信息。Python 拥有丰富的数据分析库如 Pandas、NumPy、Matplotlib 等这些库使得数据分析变得更加简单和高效。今天我就来分享一下 Python 数据分析的实战经验希望能帮到和我一样的萌新们。环境搭建首先我们需要搭建 Python 数据分析的环境。推荐使用 Anaconda 来管理 Python 环境因为它包含了许多常用的数据分析库。1. 安装 Anaconda可以从 Anaconda 官网下载并安装 Anaconda。2. 创建虚拟环境使用 Anaconda 创建一个专门用于数据分析的虚拟环境conda create -n>pip install pandas numpy matplotlib seaborn scikit-learn jupyter数据获取在进行数据分析之前我们需要获取数据。数据可以来自多个渠道如 CSV 文件、数据库、API 等。1. 从 CSV 文件读取数据import pandas as pd # 读取 CSV 文件 df pd.read_csv(data.csv) # 查看数据的前几行 print(df.head()) # 查看数据的基本信息 print(df.info()) # 查看数据的统计信息 print(df.describe())2. 从数据库读取数据import pandas as pd import sqlite3 # 连接到数据库 conn sqlite3.connect(database.db) # 读取数据 df pd.read_sql(SELECT * FROM table, conn) # 关闭连接 conn.close()3. 从 API 获取数据import pandas as pd import requests # 发送请求 response requests.get(https://api.example.com/data) # 解析数据 data response.json() # 转换为 DataFrame df pd.DataFrame(data)数据清洗数据清洗是数据分析的重要步骤它可以确保数据的质量和一致性。1. 处理缺失值import pandas as pd # 读取数据 df pd.read_csv(data.csv) # 检查缺失值 print(df.isnull().sum()) # 删除包含缺失值的行 df df.dropna() # 填充缺失值 df df.fillna(0) # 用 0 填充 # 用均值填充缺失值 df[column] df[column].fillna(df[column].mean())2. 处理重复值import pandas as pd # 读取数据 df pd.read_csv(data.csv) # 检查重复值 print(df.duplicated().sum()) # 删除重复值 df df.drop_duplicates()3. 处理异常值import pandas as pd import numpy as np # 读取数据 df pd.read_csv(data.csv) # 使用 IQR 方法检测异常值 Q1 df[column].quantile(0.25) Q3 df[column].quantile(0.75) IQR Q3 - Q1 # 定义异常值的边界 lower_bound Q1 - 1.5 * IQR upper_bound Q3 1.5 * IQR # 过滤异常值 df df[(df[column] lower_bound) (df[column] upper_bound)]数据探索数据探索是数据分析的重要步骤它可以帮助我们了解数据的分布和特征。1. 基本统计分析import pandas as pd # 读取数据 df pd.read_csv(data.csv) # 查看数据的基本统计信息 print(df.describe()) # 查看分类变量的分布 print(df[category].value_counts()) # 查看相关系数 print(df.corr())2. 数据可视化import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 设置中文显示 plt.rcParams[font.sans-serif] [SimHei] plt.rcParams[axes.unicode_minus] False # 读取数据 df pd.read_csv(data.csv) # 直方图 plt.figure(figsize(10, 6)) sns.histplot(df[value], bins30) plt.title(值的分布) plt.xlabel(值) plt.ylabel(频率) plt.show() # 散点图 plt.figure(figsize(10, 6)) sns.scatterplot(xx, yy, datadf) plt.title(x 和 y 的关系) plt.xlabel(x) plt.ylabel(y) plt.show() # 箱线图 plt.figure(figsize(10, 6)) sns.boxplot(xcategory, yvalue, datadf) plt.title(不同类别的值分布) plt.xlabel(类别) plt.ylabel(值) plt.show() # 热力图 plt.figure(figsize(10, 8)) sns.heatmap(df.corr(), annotTrue, cmapcoolwarm) plt.title(相关系数热力图) plt.show()数据处理数据处理是数据分析的重要步骤它可以帮助我们转换和整合数据为后续的分析做准备。1. 数据转换import pandas as pd # 读取数据 df pd.read_csv(data.csv) # 转换数据类型 df[date] pd.to_datetime(df[date]) df[value] df[value].astype(float) # 重命名列 df df.rename(columns{old_name: new_name}) # 添加新列 df[new_column] df[column1] df[column2] # 应用函数 df[new_column] df[column].apply(lambda x: x * 2)2. 数据分组和聚合import pandas as pd # 读取数据 df pd.read_csv(data.csv) # 分组统计 grouped df.groupby(category) print(grouped[value].mean()) print(grouped[value].sum()) print(grouped[value].count()) # 多维度分组 grouped df.groupby([category, subcategory]) print(grouped[value].mean()) # 聚合多个统计量 grouped df.groupby(category).agg({ value: [mean, sum, count], other_column: [max, min] }) print(grouped)3. 数据合并import pandas as pd # 读取数据 df1 pd.read_csv(data1.csv) df2 pd.read_csv(data2.csv) # 合并数据 merged_df pd.merge(df1, df2, onid, howinner) # 连接数据 concatenated_df pd.concat([df1, df2])实战案例销售数据分析让我们通过一个实战案例来了解 Python 数据分析的完整流程。我们将分析一家电商平台的销售数据找出销售趋势和产品表现。1. 数据获取import pandas as pd # 读取销售数据 sales_data pd.read_csv(sales.csv) # 查看数据的基本信息 print(sales_data.info()) print(sales_data.head())2. 数据清洗import pandas as pd # 读取销售数据 sales_data pd.read_csv(sales.csv) # 处理缺失值 sales_data sales_data.dropna() # 处理重复值 sales_data sales_data.drop_duplicates() # 转换数据类型 sales_data[order_date] pd.to_datetime(sales_data[order_date]) sales_data[sales] sales_data[sales].astype(float) sales_data[quantity] sales_data[quantity].astype(int) # 检查数据 print(sales_data.info())3. 数据探索import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 设置中文显示 plt.rcParams[font.sans-serif] [SimHei] plt.rcParams[axes.unicode_minus] False # 读取销售数据 sales_data pd.read_csv(sales.csv) sales_data[order_date] pd.to_datetime(sales_data[order_date]) # 销售趋势分析 sales_data[month] sales_data[order_date].dt.to_period(M) monthly_sales sales_data.groupby(month)[sales].sum() plt.figure(figsize(12, 6)) monthly_sales.plot(kindline) plt.title(月度销售趋势) plt.xlabel(月份) plt.ylabel(销售额) plt.grid(True) plt.show() # 产品销售分析 product_sales sales_data.groupby(product_id)[sales].sum().sort_values(ascendingFalse) plt.figure(figsize(12, 6)) product_sales.head(10).plot(kindbar) plt.title(Top 10 产品销售额) plt.xlabel(产品 ID) plt.ylabel(销售额) plt.xticks(rotation45) plt.show() # 地区销售分析 region_sales sales_data.groupby(region)[sales].sum().sort_values(ascendingFalse) plt.figure(figsize(12, 6)) region_sales.plot(kindpie, autopct%1.1f%%) plt.title(地区销售分布) plt.ylabel() plt.show() # 客户购买行为分析 customer_sales sales_data.groupby(customer_id)[sales].sum().sort_values(ascendingFalse) plt.figure(figsize(12, 6)) sns.histplot(customer_sales, bins50) plt.title(客户购买金额分布) plt.xlabel(购买金额) plt.ylabel(客户数量) plt.show()4. 数据处理和分析import pandas as pd # 读取销售数据 sales_data pd.read_csv(sales.csv) sales_data[order_date] pd.to_datetime(sales_data[order_date]) # 计算每个产品的平均单价 sales_data[unit_price] sales_data[sales] / sales_data[quantity] # 分析每个产品的销售情况 product_analysis sales_data.groupby(product_id).agg({ sales: sum, quantity: sum, unit_price: mean, order_id: nunique }).rename(columns{order_id: order_count}) # 计算每个产品的销售频率 product_analysis[sales_frequency] product_analysis[order_count] / product_analysis[quantity] # 分析每个地区的销售情况 region_analysis sales_data.groupby(region).agg({ sales: sum, quantity: sum, order_id: nunique, customer_id: nunique }).rename(columns{order_id: order_count, customer_id: customer_count}) # 计算每个地区的平均订单金额 region_analysis[avg_order_value] region_analysis[sales] / region_analysis[order_count] # 分析每个客户的购买情况 customer_analysis sales_data.groupby(customer_id).agg({ sales: sum, quantity: sum, order_id: nunique }).rename(columns{order_id: order_count}) # 计算每个客户的平均订单金额 customer_analysis[avg_order_value] customer_analysis[sales] / customer_analysis[order_count] # 查看结果 print(product_analysis.head()) print(region_analysis.head()) print(customer_analysis.head())5. 结果可视化import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 设置中文显示 plt.rcParams[font.sans-serif] [SimHei] plt.rcParams[axes.unicode_minus] False # 读取销售数据 sales_data pd.read_csv(sales.csv) sales_data[order_date] pd.to_datetime(sales_data[order_date]) # 销售趋势分析 sales_data[month] sales_data[order_date].dt.to_period(M) monthly_sales sales_data.groupby(month)[sales].sum() plt.figure(figsize(12, 6)) monthly_sales.plot(kindline) plt.title(月度销售趋势) plt.xlabel(月份) plt.ylabel(销售额) plt.grid(True) plt.savefig(monthly_sales.png) plt.show() # 产品销售分析 product_sales sales_data.groupby(product_id)[sales].sum().sort_values(ascendingFalse) plt.figure(figsize(12, 6)) product_sales.head(10).plot(kindbar) plt.title(Top 10 产品销售额) plt.xlabel(产品 ID) plt.ylabel(销售额) plt.xticks(rotation45) plt.savefig(top_10_products.png) plt.show() # 地区销售分析 region_sales sales_data.groupby(region)[sales].sum().sort_values(ascendingFalse) plt.figure(figsize(12, 6)) region_sales.plot(kindpie, autopct%1.1f%%) plt.title(地区销售分布) plt.ylabel() plt.savefig(region_sales.png) plt.show() # 客户购买行为分析 customer_sales sales_data.groupby(customer_id)[sales].sum().sort_values(ascendingFalse) plt.figure(figsize(12, 6)) sns.histplot(customer_sales, bins50) plt.title(客户购买金额分布) plt.xlabel(购买金额) plt.ylabel(客户数量) plt.savefig(customer_sales_distribution.png) plt.show()最佳实践1. 代码组织使用函数将重复的代码封装成函数提高代码的可重用性使用模块化将代码分成多个模块提高代码的可维护性使用注释添加注释提高代码的可读性使用版本控制使用 Git 等版本控制工具管理代码的变更2. 数据处理使用 PandasPandas 是 Python 中最强大的数据分析库它提供了丰富的数据处理功能使用向量化操作尽量使用 Pandas 和 NumPy 的向量化操作避免使用循环提高代码的执行效率使用缓存对于计算密集型的操作使用缓存来避免重复计算使用并行处理对于大规模数据使用并行处理来提高计算速度3. 数据可视化选择合适的图表根据数据的类型和分析的目的选择合适的图表类型保持图表简洁避免在图表中添加过多的元素保持图表的简洁和清晰使用颜色使用合适的颜色来增强图表的可读性添加标题和标签添加清晰的标题和标签使图表更容易理解4. 性能优化使用合适的数据类型选择合适的数据类型减少内存的使用使用索引使用索引来提高数据查询的速度使用分块处理对于大规模数据使用分块处理来避免内存不足使用惰性计算对于不需要立即计算的操作使用惰性计算来提高性能5. 结果展示使用 Jupyter NotebookJupyter Notebook 是一个很好的工具它可以将代码、图表和文字结合在一起便于展示分析结果使用 Markdown使用 Markdown 来格式化文字提高文档的可读性使用表格对于结构化的数据使用表格来展示使用可视化工具使用 Tableau、Power BI 等可视化工具来创建交互式的仪表盘常见问题与解决方案1. 内存不足问题处理大规模数据时出现内存不足的错误。解决方案使用分块处理pd.read_csv(data.csv, chunksize10000)使用更高效的数据类型df[column] df[column].astype(category)使用内存映射pd.read_csv(data.csv, memory_mapTrue)使用 DaskDask 是一个用于并行计算的库它可以处理大规模数据2. 代码执行速度慢问题代码执行速度慢特别是处理大规模数据时。解决方案使用向量化操作避免使用循环使用 Pandas 和 NumPy 的向量化操作使用 Cython 或 Numba对于计算密集型的操作使用 Cython 或 Numba 来提高执行速度使用并行处理使用multiprocessing或concurrent.futures来并行处理数据使用更高效的算法选择更高效的算法来处理数据3. 数据质量问题问题数据质量差包含缺失值、重复值、异常值等。解决方案数据清洗处理缺失值、重复值、异常值等数据验证在数据获取阶段就进行数据验证确保数据的质量数据监控建立数据监控机制及时发现和解决数据质量问题数据治理建立数据治理体系确保数据的一致性和准确性4. 可视化效果差问题可视化效果差图表难以理解。解决方案选择合适的图表类型根据数据的类型和分析的目的选择合适的图表类型优化图表设计调整图表的大小、颜色、字体等提高图表的可读性添加注释和标签添加清晰的注释和标签使图表更容易理解使用交互式图表使用 Plotly、Bokeh 等库创建交互式图表5. 结果不可重现问题分析结果不可重现每次运行代码得到不同的结果。解决方案设置随机种子对于涉及随机过程的操作设置随机种子使用版本控制使用 Git 等版本控制工具管理代码和数据的变更记录环境信息记录 Python 版本、库版本等环境信息使用容器使用 Docker 等容器技术确保环境的一致性总结Python 数据分析是一个强大的工具它可以帮助我们从数据中提取有价值的信息为业务决策提供支持。通过本文的学习我们了解了 Python 数据分析的基本流程、实战案例、最佳实践和常见问题与解决方案。作为一个从后端转 Rust 的萌新我认为学习 Python 数据分析是非常有价值的。它不仅可以帮助我们更好地理解数据还可以为我们的项目提供数据支持。在进行 Python 数据分析时我们应该注重数据质量、代码效率、可视化效果和结果的可重现性确保分析结果的准确性和可靠性。保持学习保持输出今天的 Python 数据分析实战文章就到这里希望对大家有所帮助。欢迎在评论区分享你的经验和问题我们一起进步参考资料Pandas 官方文档NumPy 官方文档Matplotlib 官方文档Seaborn 官方文档scikit-learn 官方文档Python 数据分析实战后端转 Rust 的萌新ID 第一程序员——名字大人很菜暂时。正在跟所有权和生命周期死磕日常记录 Rust 学习路上的踩坑经验和啊哈时刻代码片段保证能跑。保持学习保持输出。欢迎大佬们轻喷也欢迎同好一起进步。

Python数据分析实战

最新文章

NotaGen AI音乐生成：5分钟快速部署，零基础创作古典音乐

计算机毕业设计：Python全国气象数据采集与预报平台 Django框架线性回归数据分析大数据机器学习大模型气象数据（建议收藏）✅

Ubuntu服务器部署Graphormer生产环境全记录

Flash浏览器终极指南：一键解决Flash内容播放难题，免费重温经典游戏

投资者情绪指数（ISI与CICSI）二十年趋势解析：从数据到市场洞察

C#属性：从基础到高级应用

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

【2026生存预警】AI原生研发不是技术升级，而是组织免疫系统重建：3个被忽视的失效信号

机器学习实战：随机森林算法在金融风控中的应用与调优

IC617 Virtuoso环境配置与SMIC18MMRF工艺库加载全流程解析

Qwen3-ASR-1.7B部署详解：双服务架构，同时支持Web界面和API调用

Qwen2.5-VL-7B-Instruct功能全解析：从图片描述到物体定位，一篇文章讲清楚

三分钟读懂 GEO：下一代搜索优化到底是什么

生态环评实战指南：遥感解译、生物多样性建模与景观格局分析技术全流程

Chord视频理解工具实战：用Python爬虫自动采集视频，实现批量时空定位与描述

零基础玩转Ostrakon-VL-8B：手把手教你搭建零售场景多模态助手

CSS Grid布局如何实现网格项目的自动增长_设置grid-auto-flow- row

一道基础计算题卡在分，求助判题规则问题写

从微带到共面波导：WiFi射频传输线设计的PCB实战解析

Python数据分析实战

最新文章

NotaGen AI音乐生成：5分钟快速部署，零基础创作古典音乐

计算机毕业设计：Python全国气象数据采集与预报平台 Django框架 线性回归 数据分析 大数据 机器学习 大模型 气象数据（建议收藏）✅

Ubuntu服务器部署Graphormer生产环境全记录

Flash浏览器终极指南：一键解决Flash内容播放难题，免费重温经典游戏

投资者情绪指数（ISI与CICSI）二十年趋势解析：从数据到市场洞察

C#属性：从基础到高级应用

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

计算机毕业设计：Python全国气象数据采集与预报平台 Django框架线性回归数据分析大数据机器学习大模型气象数据（建议收藏）✅