1、熟练运用标准 SQL 语句,熟悉SQLSERVER,mysql数据库
2、熟悉linux操作系统,熟练掌握shell,python脚本编程
3、熟悉正则表达式、json、xml、BeautifulSoup,requests解析数据
4、了解html+css+javascript
5、了解Docker 容器的部署使用
6、了解Git的操作命令
豆瓣TOP250
项目环境:windows+ Python3.8.2 ; IDE: Pycharm.
项目描述:
主要目标是利用python爬取豆瓣电影Top 250信息。这些信息主要包括排名、片名、评分、上映时间、主演等信息。爬取的网址url是https://movie.douban.com/top250,当爬取到想要的信息以后,就可以对其解析,然后利用正则表达式提取想要的信息。爬取后的结果会保存在csv文件里面。然后利用词云去展示获取的片名,利用PIL(图片处理)来把需要的图片当作遮罩来生成想要的图片。
项目职责:
1、负责爬取网页,将爬取的网页内容保存到sqlite数据库中
2、从数据库中准备需要用到的片名
3、利用PIL把需要的图片作为遮罩,把图片转成数组进行图片绘制
4、输出词云图片到文件