web前端
html
css
js
jQuery
web后端
python django
mysql数据库
redis数据库
数据分析
数据爬取
反爬虫技术
伪造头...
数据清洗
pandas
正则表达式
数据可视化
echarts
项目一《禁毒数据分析》
1、爬取人民检察院案件信息公开网
a、在爬取过程中遇到了反爬虫
b、通过伪造头、无头浏览器、以及控制爬取频率等反反爬虫机制成功爬取吸毒人员数据
c、数据为每个吸毒人员的起诉书内容
d、存入mysql数据库
2、数据清洗
a、python对mysql数据库调用读出每一篇起诉书内容
b、用python的pandas和正则表达式提取出吸毒人员的姓名(名被隐藏)、身份证号(只有开头6位和结尾4位)、年龄、职业、性别、学历、是否贩毒、吸毒地点、吸毒抓获时间、吸食毒品种类、毒品单价、毒品重量、通讯方式(是否使用手机)、是否复吸(是否有吸毒史)、常驻地址等信息
c、去重后存入mysql
3、数据分析
a、pandas数据groupby数据分组以及count统计
b、matplotlib绘制柱状图、散点图、饼图
c、通过数据分析得到以下结论
吸毒人员的男女占比,以及在每个城市的男女占比
吸毒人员的学历情况分布,大部分是初中学历(具体数据不便公布)
吸毒人员职业情况的分布,大部分是无职业无经济来源,因此有很大部分是以贩养吸(具体数据不便公布)
吸毒地点的分布情况,以及不同地区的吸毒地点分布情况,常出现在个人的租赁单间以及旅行社
不同地区的吸毒抓获时间以及吸毒人数的趋势分布,能看出不同地区对吸毒人员布控的程度,以及治理的情况
不同地区的毒品单价分布
不同地区的复吸率的统计
4、数据可视化
a、搭建web页面,调用可视化工具echarts搭建出精美的数据可视化页面