Python编写一些小程序,可以爬虫,熟悉HTML,了解网页的结构,内容等。
有着清晰的思路:
使用http库向目标站点发起请求,即发送一个Request
获取响应内容,如果服务器能正常响应,则会得到一个Response,Response包含:html,json,图片,视频等
解析内容:解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等,解析json数据:json模块,解析二进制数据:以wb的方式写入文件
保存数据:数据库(MySQL,Mongdb、Redis);文件
爬取过58转转,将转转下的北京二手市场的平板电脑数据爬取,包括标题,分类,价格,区域,浏览量等。爬取不少于十页。爬取dgtle科技网站的动态信息自己小猪短租的租房信息等等。