ID:185972

一真

python开发工程师

  • 公司信息:
  • 广州易察市场研究有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 其他
  • 全区
  • 湛江市遂溪县

技术能力

1.熟悉python数据采集与爬取,解析处理,入库等
2.熟悉scrapy爬虫框架,selenium/pyppeteer等
3.熟练使用XPath,json,正则表达式等提取数据,了解pandas,numpy,matplotlib
4.熟悉常见反爬,有字体破解/代理池/验证码等经验
5.了解多线程,熟悉使用MySQL数据库
6.熟悉pyqt5的界面开发,pyqt软件等定制
7.掌握web开发框架(django),了解flask框架和linux基本操作
8.熟悉web前端知识,HTML,css等,了解JavaScript,Ajax等 ,前端和后端的交互

项目经验

项目1:
项目名称: 天猫淘宝图片采集小工具(pyqt软件定制)
项目技能:django + mysql + pyqt5 + 微信开放平台 +阿布云代理ip + 2012 window server 服务器等
项目描述:定制一个天猫淘宝的图片采集工具,需要微信扫描登陆和分享的功能,界面需美化并需要展示图片等数据
开发过程:
1.使用pyqt包携带的designer.exe设计pyqt软件的界面,有启动爬虫,登陆,分享等功能
2.客户申请微信开放平台的账号和创建网站app,获得appid等信息,便于之后的登陆功能开发
3.设计和编写爬虫,淘宝详情页的数据可以直接在淘宝网站爬取,买家秀和评论等需要调用99api的接口
4.由于爬取过程中容易被淘宝/天猫网站封ip,所以为了保障爬取的数据的质量而采用了阿布云代理ip
5.爬虫和pyqt界面结合,使用Qthread解决软件界面动态显示数据时卡死问题,美化pyqt界面
6.客户购买服务器,并申请域名,在客户的服务器上配置环境,安装mysql,配置python环境等
7.使用django来写后台,在get请求中携带一个参数区分登陆和分享功能的数信息据处理和存储
8.打包软件,在服务器部署后台,并测试登陆分享等功能及分享功能的权限等,保留充值功能在第二期


项目2:
项目名称: 爱将二期web网站开放(web开发)
项目技能: django +mysql+ elasticsearch + js + css + html + linux服务器 + nginx等
项目描述:爱将网站是关于法律的网站,该网站网页是app版,有英文版和法释版,法律数据是通过爬虫爬取下来的
开发过程:
1.由于爬下来的数据是无规则的,必须先使用后台app的功能去修改爬下来的数据,才能正常在展示app上面展示
2.后台app读取存储在elasticsearch 数据库里的数据,js实现动态增删数据的操作,保存发布按钮的功能实现等
3.修改的数据做上的标记保存到elasticsearch,便于区分已修改和未修改,后台需要用admin账号登录才能访问
4.展示app分为十多个网页,主要有首页,详情页,搜索页,法律版和英文版等,大部分都有加载更多功能
5.加载更多功能使用js的Ajax传参,后台编写elasticsearch 相应的查询语句,并构建相应部分的html
6.在linux服务器部署项目,将debug给为False,启动elasticsearch 和nginx等进程,后期维护


项目3:
项目名称: 美团500万数据爬取 (数据的爬取)
项目技能:Mysql +scrapy + 阿布云代理ip
项目描述:根据16个关键词,爬取全国的店铺信息,并做统计,将出现次数最多的前30个店铺名字在企查查上搜索
开发过程:
1. 根据客户要求,设置mysql数据表的字段,由于数据量较多,需要先分析美团网站网页结构等,便于编写爬虫
2.创建scrapy项目,设置好中间件和管道存储,item等,开始编写爬虫文件
3.现将每个关键词的所有详情页链接给下载下来,分好类,再请求详情页链接,这样便于区别爬过与未爬过的数据
4.Mysql表分有未爬表和已爬表,这样便于中途爬取断开时可以从断开的地方继续爬,不会重复爬取数据
5.请求详情页,获取店铺名,地址,营业时间,联系方式等数据,存入mysql的已爬表,过程需要阿布云代理ip
6.500万左右数据和统计后的数据交给客户


项目4:
项目名称: 亚马逊九个国家监控软件(pyqt软件定制)
项目描述:定制一个能批量导入链接后抓取九个国家数据的软件,要求a&q那些分表保存,并获取最新3页数据
项目技能: pyqt5 + vpn等


项目5:
项目名称: 西瓜视频数据采集小工具(pyqt定制 + 服务器版)
项目描述:定制一个能批量导入链接后抓取各个栏目发布的所有视频,并生成Excel,还要生成今日昨日和播放量差值的Excel

案例展示

  • 天猫淘宝图片采集小工具

    天猫淘宝图片采集小工具

    该作品是用python的第三方库pyqt5写得一个爬虫小工具,主要用来爬取淘宝上某商品的详情信息及详情图,主图,颜色分类等图片。 该作品分为客户端和服务端,服务端主要用来保存用户微信扫码登陆的信息及权限。客户端主要用来登陆,分享二维码,和数据的抓取。

  • 爱将二期web网站开放(web开发)

    爱将二期web网站开放(web开发)

    该网站是用python的一个web框架django来编写的一个法律查询网站, mysql作为数据存储的数据库,elasticsearch作为法律法文搜寻的数据库。 该网站分为后台的修改文章app和前端的展示app,由于法律数据是从各个网站上爬取的,所以数据结构杂

  • 西瓜视频数据采集小工具

    西瓜视频数据采集小工具

    该作品是一个爬取西瓜视频网站上,某个栏目或者多个栏目的视频数据,分别有软件版和服务器版 该作品右边是爬取数据的功能,左边是将爬取的数据生成走势图的功能,一键生成功能是服务器版本的爬取 该作品最终会生成总览各个栏目的所有视频信息,和总播放量,和

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服