熟悉linux shell编程;熟悉Linux系统各类服务环境的搭建;
精通python语言编程;
数据采集和数据分析方向,掌握爬虫工作原理和反爬虫机制(Selenium,PhantomJS,Tesseract),scrapy框架和scrapy-redis分布式框架;
熟悉mysql、mogodb等数据库操作;
了解基本数据结构及算法;
了解FTP、UDP服务器基础知识;
了解TCP/IP网络通信过程;
了解numpy、pandas、sklearn等数据挖掘库;
爬取过的50余个小语种,数据清洗、切分后,作语料库语料;爬过的语种:阿尔巴尼亚,美语,马拉地语,旁遮普语,卡纳达语,马拉雅拉语,乌尔都语,印地语,比尔哈语,欧利亚语,泰米尔语等等;(包括新闻,论坛,旅游酒店等网站,每种语言至少2G文本,累计爬取网站500余个)
爬取过八千万条电商数据,进行机器学习打分分析;
爬取过的国内外知名网站:站长之家、天猫、京东、百度贴吧、当当、唯品会、北京法院审判信息网等等;