目前掌握python、html、css、javascript编程语言,熟练的语言为python。熟悉linux语法,会基础的shell编程。熟悉pandas、numpy、matplotlib进行数据分析、处理与画图。掌握scapy、django框架。
项目:前程无忧爬虫与分析。描述:没有使用Scrapy框架进行爬取,但是总体来说用面向对象思维进行编写。该网页的数据放在<script>元素里,再对里面的数据结构进行分析,发现是JSON数据类型。先用正则匹配出来转化为Python对象。并使用了队列,第一个队列存储每一页匹配出来的JSON数据,第二个队列存储解析出来的每一项招聘的详情页URL。在对数据获取的时候发现薪资是一个字符串为“1.5万-2.5万/月”,考虑对后面数据分析有影响,我对该数据进行处理定义了一个函数,转化为“max_money=25000,min_money=15000”。使用队列可以方便在后面要进行大量数据爬取开多线程,分布式爬取。