python爬虫:requests、re、bs4、lxml、scrapy、scrapy_redis、selenium和pyppeteer等自动化爬取、滑块各种验证码、简单的js逆向;
flask开发网页;
数据库:mysql、mongodb、redis;
编程语言:python、C++;
爬取大众点评地址、电话和评分等数据;
flask开发后台管理网站;
华为税控项目;
有丰富的公开网站的数据爬取经验,能处理简单的反爬策略。
批量采集大众点评网站的地址、电话号码和评分等数据; 使用requests、re、lxml、bs4、scrapy、selenium等爬取技术。
(1)在房源数据爬虫程序中主要采用的是宽度优先遍历策略,首先将每一页上的所有二手房源记录的网址信息爬取,接着逐次取出每套二手房详细信息所在的网址并访问该网址,爬取其中所需的房源信息。 (2)大数据预处理与分析主要使用pandas、sklearn等。 (3)通过数据可视化,制作
(1)在房源数据爬虫程序中主要采用的是宽度优先遍历策略,首先将每一页上的所有二手房源记录的网址信息爬取,接着逐次取出每套二手房详细信息所在的网址并访问该网址,爬取其中所需的房源信息。 (2)大数据预处理与分析主要使用pandas、sklearn等。 (3)通过数据可视化,制作