猿急送>

广州Python兼职程序员

ID：164332

Louis🏸

python工程师

公司信息：
没有

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
广州
全区

技术能力

1利用python.根据需要爬取数据进行需求分析，遇到防爬从的网站，则运用防爬虫的手段。
2.利用python通过request,scrapy,xpath,re等技术手段编写爬虫程序进行内容抓取。
3.利用flume对数据进行数据收集和储存，最后上传到hdfs服务器上。
4.对抓取到的数据进行数据清洗过滤，方便后面使用。
5利用sqoop上传到mysql的数据库上。
6.web前端数据可视化，搭建本地服务器，对数据进行可视化处理，饼状图，柱状图等等。

项目经验

爬取招聘网信息，旅游网信息网，游戏皮肤信息等等，对于你想要的信息都可以爬取出来
微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。

把爬出来的数据可以传进mysql数据库最后可以进行数据化分析最后制作成可视图。
1.全国上市汽车公司的注册地，上市日期，总利润，净利润，业务类型，最后依次可视化了每个业务类型有多少家公司，
注册地分布在哪个地区，还有前六名公司的净利润图。

2. 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet ，采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封。

3.知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo

4. Bilibili用户爬虫。总数据数：20119918，抓取字段：用户id，昵称，性别，头像，等级，经验值，粉丝数，生日，地址，注册时间，签名，等级与经验值等。抓取之后生成B站用户数据报告。
5.新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。