编程语言:日常应用Python,了解C/C++/java/JS等其他语言
数据库:MySQL熟练应用,也使用过redis/mongodb非关系型数据库
爬虫:熟练运用Python网络爬虫,熟悉requests,了解scrapy,PySpider等框架,抓取过微博、百度贴吧、知乎等网站内容
机器学习算法:掌握逻辑回归,随机森林,SVM等常用机器学习算法
报表自动化:利用爬虫抓取数据,写入数据库,定时维护,给自己和其他同事提供数据支持;使用python进行数据读取、运算、写入和格式调整,最终保存到Excel,完成日报表、周报表、月报表的自动化产出
数据平台:由于部门工作需要,搭建了一个小型的在线数据平台,实现了订单查看,业绩统计,图表展示等功能
基于关键词搜索结果的微博爬虫,主要按天抓取了博主昵称、博主主页、微博内容、微博地址、发布时间、发布来源、转发、评论、赞9项。
爬取贴吧特定贴子下的回复和楼中楼的回复,记录发帖人id,昵称,内容,楼层,时间,放在sheet2,sheet1做个汇总表,统计内部人员发帖和其他人员发帖,用id区分