我是一名初级程序员,目前在学习python以及一些其他的技术,目前我会一些数据爬虫和Web开发。我为人开朗,做事认真负
责,待人真诚。熟悉软件验证的一般理论和方法,较丰富的功能测试和性能测试经验,良好的独立分析,故障排查和解决问题的能
力,并能关注细节。熟悉网络协议,如TCP/IP,HTTP/HTTPS,FTP,DHCP,DNS,SSH,VNC.
分布式爬虫爬取信息
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网。