熟悉服务端语言java,常用spring,mybatis框架。
熟悉Python语言,有一定的爬虫经验和技术,常用的爬虫框架,reqeusts,scrapy,selenium,xpath等。
常用的python数据分析工具,会利用爬虫得到的数据,做相应的数据分析和处理,数据展示等。
1:网站模拟登录获取相关搜索信息
利用python语言模拟登录网站,搜索相关关键字信息,获取得到的搜索结果,提取其中相关信息,存入到excel文件中。
先进入首页,提取到登陆框,登陆并填入验证码,登陆成功存储cookie,利用得到的cookie登陆。
搜索关键字,将搜索结果页面分析提取数据,存入excel中。
2:爬取电子书籍TTP
从第一PPT网站分享的PPT中,爬取初中数学的所有教学PPT课件用于个人研习。从主页获取各年级的地址,进入后获取到每个章节的下载页面地址,根据存储好的所有的下载页面地址,进入下载页面获取到真实下载地址,依次开始下载并存储。
3:搜索跳转网站自动化工具
软件大既运行目的:
模仿自己在百度/谷歌输入指定关键字后,由第一页开始爬虫寻找目标网址,找到目标网址后随机页内浏览数次后清理Cookies 关闭,循环做这个步骤
功能要求:
1. 支持宽带拨号
2. 支持间隔搜索”指定” 次数拨号新IP
3. 支持Google谷歌 / Baidu百度搜索器引擎
4. 支持关键词列表轮流搜索
5. 支持外部浏览器
6. 支持循环搜索
7. 支持循环搜索后清理Cookie缓存
8. 支持实时显示软件运行记录状况
利用python语言模拟登录网站,搜索相关关键字信息,获取得到的搜索结果,提取其中相关信息,存入到excel文件中。 先进入首页,提取到登陆框,登陆并填入验证码,登陆成功存储cookie,利用得到的cookie登陆。 搜索关键字,将搜索结果页面分析提取数据,存入excel中。
从第一PPT网站分享的PPT中,爬取初中数学的所有教学PPT课件用于个人研习。从主页获取各年级的地址,进入后获取到每个章节的下载页面地址,根据存储好的所有的下载页面地址,进入下载页面获取到真实下载地址,依次开始下载并存储。
软件大既运行目的: 模仿自己在百度/谷歌输入指定关键字后,由第一页开始爬虫寻找目标网址,找到目标网址后随机页内浏览数次后清理Cookies 关闭,循环做这个步骤 功能要求: 1. 支持宽带拨号 2. 支持间隔搜索”指定” 次数拨号新IP 3. 支持Google谷歌