大数据实验室流程指引

本操作指引作为大数据实验室的辅助手册,包含大数据实验室操作指南、数据申请流程与工具选型指引三部分。文末附上各类附件。

大数据实验室流程指南

用户根据需求可分为一级操作间与二级操作间。一级操作间与二级操作间的区分在于一级操作间可直连数据中心,对所有数据具有较高的访问权限,可以进行自由度比较大的数据创新与实验。二级操作间将采用虚拟桌面的的方式进行操作,用户可实验本地数据但是如果要访问数据中心的数据则需要走数据申请流程(见下文)。

目前二级操作间尚在开发中。

一级操作间申请流程

目前一级操作间已在信息中心搭建。未来可能开放区局一级操作间申请。大数据实验室工作组将针对区局申请进行评估。

一级操作间申请流程。

graph LR; A[用户提出一级操作间申请]-->B{大数据实验室工作组评估}; B--批准-->C[区局自行准备机器环境]; B--退回完善-->D[工作组给出修改建议]; D-->E[区局完善后再次提交]; E-->B;

文末附上申请一级操作间模板

二级操作间申请流程

二级操作间指代使用虚拟桌面环境访问大数据实验室。相关人员需根据模板提交人员配置文件给大数据实验室相关人员审核。

文末附上申请二级操作间模板

注意是未来可能开放。

数据申请流程

用户在大数据实验室上可以实验的数据分三种。

  1. 用户携带的本地数据,如csv,如excel等。
  2. 其他用户分享,上传至数据实验上的数据
  3. 用户结合数据资产目录与自身需求向数据中心提出的数据。

用户自行上传至大数据实验室上的数据,我们统称该数据为挥发性数据挥发性数据不会长期存储。用户通过数据中心申请的数据,将进过评估,数据脱敏等相关流程下发数据。目前数据资产目录尚在开发中,建议用户采用第一、二种数据源。

下图是数据申请流程的流程图。

graph LR; A[用户提出数据需求]-->B{本地/服务器/数据中心}; B--本地-->C[直接使用工具进行实验]; B--服务器-->E[可上传本地数据或直接使用]; B--数据中心-->D[走数据中心申请];

文末附上申请数据申请流程模板

数据存放规则

大数据实验可以分享上传本地数据,但是由于存放存储有限,因此需要规定一次性上传文件大小与存储周期时长。

文件格式 一次性存储大小 每次上传最大个数 每次上传间隔时间 存储周期
txt, csv, excel 0<文件<50MB 10 2天 3周
txt, csv, excel 50<文件<100MB 5 2天 2周
zip, rar, tar, xz 0<文件<100MB 5 2天 2周
jpg, JPEG, png 0<文件<20MB 50 1天 4周

由于大数据实验服务器上存储空间有限,因此以后我们还会规定每个用户可以做多存放多少个数据在大数据实验室上。初步规定每个用户只能存放至多10个.

工具选型指引

大数据实验室大致可分为数据可视化与数据挖掘。数据可视化部分基于TableauPowerBI做图形化展示。数据挖掘部分基于Sophon做算法挖掘。部分工具需经过大数据实验室认证通过后方可开放使用。

下图是工具选型的指引。

graph TD A[用户提出需求]-->O[大数据实验室数据创新分享平台] subgraph 工具选型 O-->B{需求} O-->P{大数据实验室认证考试} P--资质>=中级-->D B--数据可视化-->C[Tableau,PowerBI Desktop] B--数据挖掘-->D[Sophon] C-->E{是否需要分享成果} subgraph Tableau或PowerBI的成果 E--是-->F[服务器版本的Tableau或PowerBI] E--否-->J[个人实验用] end D-->Q{是否涉及代码} subgraph Sophon的成果 Q--是-->W[Sophon Notebook] Q--否-->K[Sophon 图像化流程图] end end

下面是分享的流程。

graph LR A[Tableau或PowerBI的成果]-->O[大数据实验室数据创新分享平台] B[Sophon的成果]-->O O-.->K[工具选型] K-.->O style A fill:#ffff99,stroke:#333,stroke-width:4px style B fill:#ffff99,stroke:#333,stroke-width:4px

由于Sophon尚在完善中,建议初期使用Tableau, PowerBI作为数据分析、可视化展示及分享的工具。

附件区

此附件区提供各种申请流程的具体模板。

一级操作间模板

用户提出电脑配置等信息,大数据实验室工作组审核同意后协助安装。

二级操作间模板

用户提供相关人员配置,大数据实验室工作组审核同意后协助安装。

数据申请流程模板

用户先根据数据资产目录选择有兴趣的数据。再提交至大数据实验室,大数据实验室根据需求将筛选后的数据存放在公用的大数据实验室数据库内,供用户使用。