熟练掌握python语言和mysql的使用
精通网页抓取原理及技术,精通正则表达式和xpath,从结构化的和非结构化的数据中获取信息,会numpy、pandas;
掌握常用的爬虫框架,例如requests,bs4,selenium,scrapy,appinum等,具有基本的反爬措施,例如ip反爬、js反爬,会js反编译
1.基于Selenium的12306自动刷票软件
2.基于Scrapy爬取伯乐在线网站存入mysql数据库
3.基于GradientBoosting模型的厦门市房价预测系统
数据处理软件,检查分隔之后的第二列数据中的数据格式,其中包含大小写字母和数字的保留,其他的另外导出 最终效果处理1000万数据只需要十秒钟
检查选定列的数据,检查其是否都是数字或者数字中包含字母 根据筛选出来的数据进行分类处理 运用了多线程和异步处理 处理一个G大小的文本,只需要半分钟左右