掌握网页抓取原理,并熟悉常见的爬虫反爬虫策略
熟练使用正则表达式,XPath,BeautifulSoup,Jsonpath
熟练使用打码平台及常见验证码
掌握动态User-Agent,ip模拟访问
掌握基于cookie的网站登录原理实现模拟用户登录
熟练使用MySQL数据库基本语句及多表查询
熟悉selenium模拟浏览器自动爬取
电商数据地爬取
该项目主要针对京东,淘宝,网易等大型购物网站提供数据,抓取商品的名称,价格,品牌,销量,颜色,浏览量等内容,将数据转换成相应的格式
该项目实现了对新浪财经网上股票行情中沪A股票行情信息的爬取,并且实现了数据的翻页以及以Excel表的格式保存数据,还对数据进行按涨跌幅从高到低的顺序保存
该项目实现了对王者荣耀官网中英雄图片和对应的英雄名字的爬取,通过pyquery模块解析数据,最后以二进制的形式将图片写入名为images的文件夹中。