1.Python中8种数据类型的精通使用
2.Python匿名函数、列表推导式、装饰器的熟练使用
3.Python中re、requests、beautifulSoup等库的熟练使用
4.Python爬虫框架Scrapy的熟练使用
5.Python爬虫伪装中代理IP、UserAgent的熟练使用
6.Python与scrapyt-redis分布式爬虫的基本使用
7.Python操作Mysql数据库增删改查
8.Python操作MongoDB数据库增删改查
9.Python建立数据库连接池提高效率
10.团队协作开发工具git的熟练使用
11.熟悉Linux日常工作环境,熟练掌握常用命令和调优监控手段
12.python机器学习库scikit-learn库的熟练使用
13.python科学计算库numpy、scipy和数据分析库pandas的熟练使用
1,百度贴吧数据抓取
2,腾讯招聘数据抓取分析
3,豆瓣电影,猫眼电影数据抓取
4,京东商城,小米应用商店数据获取
5,有道翻译破解
6,波士顿房价预测
7,图像识别水果分类
8,文本处理新闻分类
角色 | 职位 |
负责人 | 数据分析 |
队员 | 产品经理 |
队员 | 前端工程师 |
队员 | 后端工程师 |
动态加载数据抓取的特点是:在网页源码中没有具体数据,只有在滚动鼠标或其他动作时才能加载数据。豆瓣电影案例就是一个动态加载数据抓取的案例。进入豆瓣电影-->排行榜-->剧情的url中抓取电影名称,主演,评分等数据。
有道翻译破解案例的实现步骤: 1、浏览器F12开启网络抓包,Network-All,页面翻译单词后找Form表单数据 2、在页面中多翻译几个单词,观察Form表单数据变化(有数据是加密字符串) 3、刷新有道翻译页面,抓取并分析JS代码(本地JS加密) 4、找到JS加密算法
有道翻译破解案例的实现步骤: 1、浏览器F12开启网络抓包,Network-All,页面翻译单词后找Form表单数据 2、在页面中多翻译几个单词,观察Form表单数据变化(有数据是加密字符串) 3、刷新有道翻译页面,抓取并分析JS代码(本地JS加密) 4、找到JS加密算法