Python-掌握数据采集及HTML解析、整理,分析,入库。常用第三方库有 requests, BeautifulSoup, selenium, flask, pandas, numpy, re, xpath
SQL-熟悉增删查改,关联统计,采集建库,用户管理
Excel-熟悉函数公式,数据透视,VBA
分析各类网站/APP结构(html, ajax),评估数据采集可行性,设计采集、解析处理、入库方案,开发Python爬虫并定期迭代更新;
结合第三方车型库与公司基础车型库,对比各字段取值差异,利用Python对Excel数据进行清洗、文本切割、转化,初步实现多个车型库间的匹配;
豆瓣ISBN号采集书籍标签信息;
彩票、股票、足球、篮球、天气、公交信息数据采集;
文章文本分词、词频统计、词云制作;