熟悉 mysql , redis , Mongodb
熟悉使用Linux
熟练编写 爬虫程序
日均数据量100w+
熟练多线程,多进程
熟练使用scrapy
熟练 爬虫 能解决 反爬虫 ip封禁 headers规则 ajax动态加载 验证码
熟练使用 正则 ,xpath,bs4解析模块
熟练使用网络请求库 requests urllib urllib2
使用 crontab 做定时任务
数据 清洗 无重复 不会漏数据
分布式 淘宝 (店铺,宝贝,评论,关键字,排行) 爬虫
微信公众号(券商中国)
caipan文书网(所有文书)
新浪财经(股票,基金)
58同城 个人房源
雪球 --- 配资
亚马逊
京东
今日头条
拉勾网
新浪环球市场
腾讯新闻
苏宁
陆金所基金
证监会行政处罚数据:链接,标题,内容,文号,时间 全国中小企业股转动态数据:类型,标题,时间,访问次数,内容,pdf链接(可直接跳转下载),子标题,链接
微信公众号数据抓取:发布日期,标题,作者,内容,链接 可抓取网站海量图片,数据,地址 可以多种形式交付:Exl mysql csv