大数据工作流调度平台是一个 Python功能 模块,可以构建复杂的批量作业管道。处理依赖决议、工作流管理、可视化展示等等,内建 Hadoop 支持。
大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python等。
这些任务需要不同的运行环境,并且除了定时运行,各种类型之间的任务存在依赖关系。
大数据工作流调度平台支持以上脚本并提供调度依赖管理,脚本管理,定时任务等功能