一、需求描述
类别:数据的采集和分析
进度:项目已开发大部分(采集和提取规则已完成部分),数据库Mongodb,web端node.js(已基本开发完成),需要根据现有代码优化规则并完成后续工作
功能:采集专业人士相关信息,以”人”为单位,人数在30万人左右,采集后的信息提取、分析后(a)根据评分规则,为”人”进行评分; (b)信息将在网站页面上展示
1. 数据库查看和展示功能
(a) 数据库内容通过web端展示并可用于人工删选、添加内容 — 已基本开发完成
(b) 评分和提取的内容将用于在网站页面进行展示
2. 数据采集
(a) 在规定网站进行数据的定向采集 (网站数在60+) — 已部分完成
(b) 根据提供的关键词(项目过程中可能根据搜索结果调整),在百度搜索引擎按关键字搜索后,根据截取规则(项目过程中可能根据搜索结果调整)截取搜索结果中包含关键字的文本内容,并存入数据库
3. 数据分析
(a) 开发提取规则(类似于类语义分析),将从百度截取的字段中提取评分所需的具体内容
(b) 定向采集回来的信息和百度提取的信息将按照评分规则的算法完成评分(评分标准有9个维度) — 评分规则已部分开发完成,需要根据精准度进行优化
4. 完成数据库API接口部署并需完成与网站的对接
三、人才描述
1. 精通数据爬取和分析,有独立和作为项目主要成员完成过数据分析的项目
2. 熟悉python,Mongodb、node.js,可以针对现有代码进行完善
3. 逻辑分析能力强,愿意配合并主动提供数据采集、提取、分析的优化方案
3. 一天至少保证4小时工作时间,自由职业者优先考虑
四、合作方式
开发方式:远程
开发周期:30天之内