1. 熟悉搜索引擎和网络爬虫相关技术,有爬虫系统开发经验;
2. 熟练掌握网页抓取原理及技术,熟悉网页解析过程,具备数据的过滤、清洗经验,具有matplotlib、pyechart数据可视化经验;
3. 熟悉分布式爬虫应用和调度策略,掌握各类网站的反爬机制和验证码机制;
4. 熟悉TCP/IP协议及HTTP协议,了解基本的前端技术,HTML、CSS、JS、Ajax等;
5. 熟练使用mysql,mongodb, redis等数据库,熟悉mysql的各种存储引擎,熟悉索引工作原理。
6.熟悉网络编程。会使用抓包软件。
项目太多了,网站反爬机制也不一样,说不出有什么出彩的。记得有一个视频网站(记不清是哪个了),不能审查元素(会弹出一个提示尊重版权之类的页面),但是可以看源代码。后来看源码加Fiddler找的视频的url。
监控贵金属价格:监控贵金属价格,设置监控的贵金属品种,设置获取价格时间间隔,设置买入卖出线,过线语音提醒。 爬取会员歌曲:爬取音乐网站会员歌曲。
监控贵金属价格:监控贵金属价格,设置监控贵金属品种,设置获取时间价格,设置交易提醒线,语音提醒。 爬取会员歌曲:爬取音乐网站会员歌曲。