对于本科期间学过的数据结构和算法、C语言、前端、Python、SQL、计算机网络这些较为熟悉,熟悉计算机和操作系统的底层原理。目前专攻Python,两年Python爬虫经验,熟练使用Linux系统和Mysql数据库,熟悉HTML、CSS、JS,熟悉爬虫需要使用的各种库,熟悉scrapy框架,能够熟练分析出爬虫目标网站的逻辑。熟悉各种排序算法。
主要做的爬虫相关项目较多,其中有:
1、爬取房天下并入Mysql数据库。采用多线程方式爬取房天下房源信息并入mysql数据库,爬取指定城市的全部租房房源信息,包括标题名称、地址、价位、房东联系方式、所属小区,房源详细介绍等等,类似的项目还写过很多。
2、爬取京东商品信息存入Mysql数据库并生成统计图进行可视化展示。根据客户要求,使用Python的bs4、requests等爬取某东商城的手机信息,包括但不限于品牌、销量、价格、评论量、评论等等,爬取的同时存入Mysql数据库中,并且可以安装分类、销量、价格等等生成统计图。
3、爬取东方财富网的股票信息。用到的两个网站分别东方财富网和老虎社区,为先从东方财富网获取股票列表,列表包含所有的股票名称和代码。然后再根据股票代码从老虎社区获取到个股的价格信息。
4、车牌号识别系统。利用Python和机器学习框架TensoFlow实现对车辆车牌号的自动识别,在运行程序后选择一张图片,程序会自动识别图片中的车牌号和车牌号中的字符,准确率90%左右,几乎可以识别全部的蓝色底的车牌号。
爬虫项目还写过很多,其实爬取每个网站用到的技术都差不多,关键在于能否准确分析出页面的结构逻辑还有应对反爬虫。
用到的两个网站分别东方财富网和老虎社区,先从东方财富网获取股票列表,列表包含所有的股票名称和代码。然后再根据股票代码从老虎社区获取到个股的价格信息。
Python采用多线程方式爬取房天下房源信息并入mysql数据库,爬取指定城市的全部租房房源信息,包括标题名称、地址、价位、房东联系方式、所属小区,房源详细介绍等等,类似的项目还写过很多。
根据客户要求,使用Python的bs4、requests等爬取某东商城的手机信息,包括但不限于品牌、销量、价格、评论量、评论等等,爬取的同时存入Mysql数据库中。
利用Python爬虫爬取网上免费公开的上千条题目以及答案,并存入Mysql数据库,网站前端采用Vue框架开发,后端用了PHP,打开网站后在搜索框输入要查询的题目信息,可立马展现出包含输入关键字的数据。