山西农业大学 软件工程 在读大二 主修大数据与云计算
熟练python爬虫和数据采集 数据清洗 数据可视化
我是一个认真工作,认真钻研,勇于创新的人.能熟练运用电脑,掌握务必的office办公软件,与老师与同学持续着紧密的关
系,乐于帮忙同学解决学习与生活.上的麻烦,善于总结归纳,善于沟通,有良好的敬业作风和团队合作精神.已熟悉与掌握本
专业的相关知识,在大学年间学会刻苦耐劳,努力钻研,学以致用,这就是我们所追寻的宝藏.
豆 瓣 电 影 Top250 数 据 采 集
(基 于 Scrapy )
爬虫框架Scrapy比较好用,默认多线程,各模块分离。Scrapy解析网页Xpath,比BeautifulSoup易读性强。
点击左侧【+ 新建】,选择【自定义任务】,进入网址输入界面,输入网址后点击
直接点击每个字段的位置,然后在提示框中选择提取该链接的文本或者提取该链接的地址等选项即可。
三、采集互联网中列表数据:
第一步,在网页中选中列表的第一行或第一项,这个列表项的范围要尽可能包含要采集的全部字段。
第二步,点击选中子元素,那么这个列表项中具体的字段就被选中了。
第三步:点击选中全部,这样,全部的列表项和列表中的各个字段就都被选中了。第四步:点击采集数据,可以看到,通过以上步骤,右侧流程图这里已经创建出一个循环步骤。
四、采集互联网中表格数据:
第一步、先选中页面上一个列表的一个单元格,再点击提示提示框中的扩大选区按钮或者TR按钮,将选中的范围扩大到一行
第二步、点击【选中子元素】;如果没有子元素,继续点击另一行的一个单元格,在操作提示框继续点击【TR】。注意,有些网站选中整行可能不是【TR】,可能是【DIV】等其他标签。这个没关系,只要能选中整行就可以。
第三步、点击【选中全部】;第四步、点击【采集以下数据】;