大数据实验室流程指引
大数据实验室流程指引
本操作指引作为大数据实验室的辅助手册,包含大数据实验室操作指南、数据申请流程与工具选型指引三部分。文末附上各类附件。
大数据实验室流程指南
用户根据需求可分为一级操作间与二级操作间。一级操作间与二级操作间的区分在于一级操作间可直连数据中心,对所有数据具有较高的访问权限,可以进行自由度比较大的数据创新与实验。二级操作间将采用虚拟桌面的的方式进行操作,用户可实验本地数据但是如果要访问数据中心的数据则需要走数据申请流程(见下文)。
目前二级操作间尚在开发中。
一级操作间申请流程
目前一级操作间已在信息中心搭建。未来可能开放区局一级操作间申请。大数据实验室工作组将针对区局申请进行评估。
一级操作间申请流程。
文末附上申请一级操作间模板。
二级操作间申请流程
二级操作间指代使用虚拟桌面环境访问大数据实验室。相关人员需根据模板提交人员配置文件给大数据实验室相关人员审核。
文末附上申请二级操作间模板。
注意是未来可能开放。
数据申请流程
用户在大数据实验室上可以实验的数据分三种。
- 用户携带的本地数据,如csv,如excel等。
- 其他用户分享,上传至数据实验上的数据
- 用户结合
数据资产目录
与自身需求向数据中心提出的数据。
用户自行上传至大数据实验室上的数据,我们统称该数据为
挥发性数据
。挥发性数据
不会长期存储。用户通过数据中心申请的数据,将进过评估,数据脱敏等相关流程下发数据。目前数据资产目录
尚在开发中,建议用户采用第一、二种数据源。
下图是数据申请流程的流程图。
文末附上申请数据申请流程模板。
数据存放规则
大数据实验可以分享上传本地数据,但是由于存放存储有限,因此需要规定一次性上传文件大小与存储周期时长。
文件格式 | 一次性存储大小 | 每次上传最大个数 | 每次上传间隔时间 | 存储周期 |
---|---|---|---|---|
txt, csv, excel | 0<文件<50MB | 10 | 2天 | 3周 |
txt, csv, excel | 50<文件<100MB | 5 | 2天 | 2周 |
zip, rar, tar, xz | 0<文件<100MB | 5 | 2天 | 2周 |
jpg, JPEG, png | 0<文件<20MB | 50 | 1天 | 4周 |
由于大数据实验服务器上存储空间有限,因此以后我们还会规定每个用户可以做多存放多少个数据在大数据实验室上。初步规定每个用户只能存放至多10个.
工具选型指引
大数据实验室大致可分为数据可视化与数据挖掘。数据可视化部分基于Tableau
、PowerBI
做图形化展示。数据挖掘部分基于Sophon
做算法挖掘。部分工具需经过大数据实验室认证通过后方可开放使用。
下图是工具选型的指引。
下面是分享的流程。
由于
Sophon
尚在完善中,建议初期使用Tableau
,PowerBI
作为数据分析、可视化展示及分享的工具。
附件区
此附件区提供各种申请流程的具体模板。
一级操作间模板
用户提出电脑配置等信息,大数据实验室工作组审核同意后协助安装。
二级操作间模板
用户提供相关人员配置,大数据实验室工作组审核同意后协助安装。
数据申请流程模板
用户先根据数据资产目录选择有兴趣的数据。再提交至大数据实验室,大数据实验室根据需求将筛选后的数据存放在公用的大数据实验室数据库内,供用户使用。