主要学习python,并且精通python爬虫,对requests库,json和xpath熟悉掌握。对常见的反爬js能够处理,动态cookie问题能够解决,seleium处理验证码问题精通。对scrapy框架和scrapy-redis有着熟练的掌握。对于数据库mysql,redis,mongoDB的增删改查基本操作熟练掌握。对于前段html,css以及js都有一定的了解。
广东省公共资源信息抓取。主要爬取广东省公共资源的招投标公告,写一个爬虫程序每天进行自动抓取存入数据库中。这个网站比较特殊,每次进入都会有验证码,我采用的方式是seleium对接打码平台处理验证码问题,获取cookie 然后再利用request进行信息抓取
主要爬取广东省公共资源的招投标公告,写一个爬虫程序每天进行自动抓取存入数据库中。这个网站比较特殊,每次进入都会有验证码,我采用的方式是seleium对接打码平台处理验证码问题,获取cookie 然后再利用request进行信息抓取
主要对于喀斯玛商城药品信息的抓取,要求是4个分类(科研仪器、药品信息等),需要抓取的是标题、供应商名称、所在地、供应商联系方式。每个要求抓取100页信息,总共抓取了10000多条关于药品和科研仪器的信息。主要写爬虫程序进行抓取,这个网站需要进行登录抓取,反爬要求不高 主要分类要