1、熟练掌握python语言开发
2、精通python面向对象开发
3、熟悉Linux系统的常用操作
4、遵守PEP8b代码规范
5、熟练使用requests,urllib,urllib2
6、熟练使用数据解析方法:xpath、bs4、re
7、熟练使用scrapy框架,selenium自动化
熟悉使用数据库 Mysql、Mongodb、Redi
APP抖音数据
项目描述:爬取抖音视频和音乐
本职工作:负责爬取视频和音乐
项目技术:fiddler抓包工具、安卓模拟器 os、json、requests
项目问题:
1、获取不到对应的json包 解决方案:在fiddler4的脚本里写自动获取对应的json包的脚本
2、获取不到其他视频json包 解决方案: 在模拟器中设置记忆功能 模拟人的操作一直翻页 一直获取视频的json包
团队协作:数据采集1人
团队规模:总参与1人,总开发15天
游戏信息数据
项目描述:爬取人气排行榜前100数据信息
本职工作:使用多线程生产者消费者模式爬取数据
项目技术:requests、threading、etree、re、Queue、json、pymysql
项目问题:1、请求下来的源代码字符集错误 解决发案:用encoding=utf-8解码
2、在爬取过程中 人气排行榜100中有 一个为广告没有游戏信息 解决方案:
用错误处理来跳过
团队协作:数据采集1人、MySQL数据1人、
团队规模:总参与2人,总开发14天
使用python抓取疫情数据,然后使用numpy对数据进行处理,最后使用pyecharts库实现数据可视化。
使用python语言中的OpenCV2模块对图像进行识别和numpy模块对数据进行计算,最终实现车牌识别。