精通python语言,2年以上的网络爬虫经验!
了解各类web前段技术!
熟悉正则表达式及xpath,能从个种结构化及非结构的数据中获取信息!
可熟练应用scrapy框架,requests及各类库!
在我一开始工作的时候,感觉公司的爬虫还是很高大上的,看起来挺复杂的。不过现在看来,也就一般了。设计思想还可以,但易用性不佳。很多可以自动化解决的问题,居然一直都是以人工的方式处理的。举个例子,有一次,我们公司的运维要检查爬虫抓取的数据是否完整。于是他按照惯例到客户的网站上,从不同的栏目里复制几条数据的 url。然后再将这几条 url 一条一条的复制到爬虫控制台的搜索框中,看看能不能查找这条 url 的采集记录。这个过程相对来说还是比较繁琐的,特别检查多个网站数据的数据采集情况时,尤为的繁琐,效率十分低下。所以后来我实在看不下去了,就写了一个 chrome 插件,并在爬虫后台开放一组接口。这样利用插件批量将页面中的 url 发送给后台,后台检测完后,再将结果返回给 chrome 插件。插件根据检测结果,把未爬虫采集的数据标题标红,并加上删除线。这样哪些数据未被采集,一目了然,再也不用手动检查了,效率也大大的提高了。