2、精通Python开发语言。
3、熟练掌握一种开源爬虫框架,如scrapy、webmagic,有研发爬虫框架经验者优先。
4、 熟悉Appium、Selenium等技术
5、善于独立分析并解决核心问题,如JavaScript反爬、爬虫策略、防屏蔽规则、验证码识别技术等
6、熟悉mysql
采集:
1. 采集直播平台新主播开播数据(抖音.陌陌.火山.全民K歌.全民小视频.腾讯Now.西瓜视频)每五分钟采集一次.
2. 采集抖音短视频(点赞数.粉丝数.评论内容/评论数.转发数)
3. 分类出每日每周每月热门视频及用户
4. 采集内容为(直播间ID.直播间人气.主播时长.主播礼物值)
5. 采集到以上内容后存入数据库自定义清理采集数据清理时间
6. 按开播时间.主播礼物值.主播时长.直播间人气由低到高的排序
7. Web后台管理端分配员工账号
8.Web展示上述采集到的数据便于员工查看分析
提示:
1.从排序先后建立后台提醒功能.例如礼物值100以下的后台弹出提醒为红色/语音.礼物100以上的弹出提醒为黄色/语音.礼物值1000以上的为绿色/语音.
监测:
1. 在Web平台检测指定ID主播是否开播。
2. 自定义添加监测抖音号粉丝增长,作品点赞.作品评论数/评论内容,转发量(以图表形式展现)
3. 监测数据存入单独的数据库
4. 生成自定义时间监测报表
如下两个参考站:
http://dy.myleguan.com/#/member/myAccount
https://mcn.suantao.com/#/anchor/anchorList