本人在原公司担任爬虫开发工程师,主要工作内容是根据需求对抓取的网站进行分析与设计爬虫流程,从结构化与非结构化的数据里提取有效信息;主要掌握python的语言开发,熟练使用requests、熟练使用数据解析方法:xpath、re
拉勾网的数据抓取:首先要分析网站真实的request地址和内容,然后用scrapy_redis爬取,因为该框架实现url和数据去重、持久化,通过md5实现网页的去重和更新;使用代理ip解决封ip的操作;数据在json字符串中,转换成python字典提取数据;最后把数据保存到mysql中;
美团抓取:用 Scrapy 框架,在中间键里写了代理、header 等,防止爬虫中断,由于部分网
页采取了动态网页 js 加载,因此采用了 Pyppeteer 进行了对动态 html 的处理。 根据网页数据
在 items.py 中建模。定义爬虫行为,编写对应 spider 文件,模拟登陆使用验证码识别。利用
xpath 对数据进行抽取。编写中间件模拟客户端访问
我在本案例中是自己做的,因为比较简单,所以也是自己做的-,没有同其他同事一起合作,虽然这个项目用了我很长时间完成的,但是也是自己比较有成就感的
这个比上一个做的时间长一点儿,因为自己在这上面也是很难找到突破点,然后向前辈学习了一下,自己慢慢琢磨出来的,因为也是项目比较小,自己就做了。
这个比上一个做的时间长一点儿,因为自己在这上面也是很难找到突破点,然后向前辈学习了一下,自己慢慢琢磨出来的,因为也是项目比较小,自己就做了。