开发语言:python(2 年 /熟练) / 前端( html/css/js )
框架或类:Django/Scrapy/Re/Beautifulsoup/Numpy(了解学习中)/Pandas (了解学习中)
前端类库:Jquery/Bootstrap (熟练)
数据库等:Mysql (熟练)
版本管理:Git / Svn ()
开发系统: Win/Ubuntu
开发工具:VSCode(主)/ Pycharm / Vim
责任描述:
编写爬虫程序,想出反反爬策略,数据清洗,分表存储,维护代理ip
项目简介:
爬取豆瓣,猫眼电影信息
遇到问题及解决方案如下:
1, 数据量较少,用requests爬取
2, 需要的数据通过抓包返回json数据
3, 转字典提取想要的数据
4. 保存MongoDB和CSV
5. 使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
角色 | 职位 |
负责人 | python爬虫 VC |
队员 | 安卓工程师 |
https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist-90d.xml 此网页使用的是xml格式,属于货币转化率的页面,大致一看就可发现当前货币种类为欧元即"EUR",数据不是很大,我们直接采用req
小说出处 http://www.quanshuwang.com/book/44/44683 经过分析该网页就可以轻松的用requests库和正则表达式提取小说的各章节连接及标题,然后根据链接提取章节的文本内容,替换无用字符
python3.8利用BeautifulSoup模块提取豆瓣网排名前250电影的名称和年份分别保存到2个列表中,然后打印出来