1.熟悉Linux操作系统,熟练使用Python语言编程。
2.熟悉关系型数据库MySQL,熟练使用Mongodb与Redis非关系型数据库。
3.了解HTML,JavaScript,JQuery等前端网页开发所用技术。
4.熟悉HTTP/HTTPS协议。
5.熟悉Python多线程,多进程爬虫,熟练使用Python requests网络爬虫模块。
6.熟练使用lxml、re、json模块进行网站数据抓取。
7.熟练使用git以及Fiddler,Charles,Mitmproxy等抓包工具。
8.熟练使用Selenium+PhantomJS实施对动态HTML的数据抓取。
9.熟练使用Python爬虫中的Scrapy框架以及Xpath语法,Scrapy-Redis的分布式组件。
1.天猫、淘宝、京东、苏宁等电商网站商品数据抓取。
2.汽车类论坛数据抓取(如汽车之家论坛,易车论坛,爱卡论坛等)。
3.微信公众号数据抓取。
4.新闻类网站数据抓取(如今日头条,搜狐,腾讯,网易等)。
5.视频类网站数据抓取(优酷,腾讯,B站等)。
主要按客户需求,通过关键词搜索,将对应的商品信息抓取下来,详细信息有抓取淘宝、天猫网站上商品详情的数据以及用户对商品的评论数据。
主要是根据客户需求,按照关键词搜索,将对应的商品信息抓取下来,详细的数据主要是京东、苏宁网站上商品的详情数据以及用户对商品的评价数据。