从事编程工作3年,接触过perl、python、R、java、C++,JS等编程语言;mysql、mongodb等数据库
其中主要擅长的工作是使用python程序进行网站和app的数据采集。曾经使用的工具有:request、scarapy框架、selenium等获取数据,使用mysql、mongodb、redis进行数据的存储。
项目一:马蜂窝游记播完采取
需求:根据关键字,搜索马蜂窝2020年来相关的游记相关信息:
获取的游记信息必须包含以下信息:作者、时间、具体的内容、先关的评论内容;
数据交付:将获取的游记内容保存起来,按照时间归类,每个月一个目录,相关的游记文本保存到时间目录下;
采用scrapy框架,结合request进行数据的获取和保存
项目二:医药产品数据采集
需求:
抓取指定网站的网页附件pdf文件,并将附件下载,然后对pdf文件进行内容的识别,获取文件中的指定文职的表格数据,并将表格数据按照指定的方式保存下来。
开发:
因为网站特殊性,采用selenium方式模拟人工操作进行数据的获取。
表格数据比较无规律,需要一个一个的进行查看,编写对应的函数进行数据识别和保存。
项目三:
自动化注册bibi的账号,然后自动化进行答题,将账号的等级升级到lv2.
操作的方式为:
使用python的selenium功能,进行账号的注册,中间模拟人工的点击操作、获取验证码,填写验证后进行注册。
注册后,进入答题模式,因为答题是选择题,比较简单,随机选择知道题目正确后通过。
等分数到答指定分数后退出。
根据用户指定的网址登录,逐步打开指定的网址,找到下载链接位置和下载文件的所有操作方式,并记录每个操作方式的网页位置信息 采用selenium技术,模拟人工操作,进行文件的下载。 打开下载的pdf文件,查看文件特点和表格形式,采用pdfplumber进行内容和表格的数据识别(表
自动化注册bibi的账号,然后自动化进行答题,将账号的等级升级到lv2. 操作的方式为: 使用python的selenium功能,进行账号的注册,中间模拟人工的点击操作、获取验证码,填写验证后进行注册。 注册后,进入答题模式,因为答题是选择题,比较简单,随机选择知道题目正确