1.4.4 工程化思维
工业大数据分析项目是工程项目,需要在严谨与实用之间均衡。需要注意几个工程性原则。
1.实用主义与全局视野
尽可能抓住主要矛盾和核心要素,不要过分纠结细节,形成相对精准的直觉判断力,对工作的侧重点有一个合理的安排。在建模时,在保证基本面的情况下,尽量用简单的模型,特别是可解释性强、可操作性强的模型。为了细微的性能提升,采用高复杂度的模型不是一个好习惯。尽量利用领域专家的先验信息,而不是从零开始挖掘。
在数据分析中,注意迭代速度,通过迭代,将领域专家、业务负责人紧密融入项目中。特别是第一次数据探索的时候,对于数据质量问题,做到清楚基本面,不要在细节上花太多时间(例如,缺失数据用非常严谨的态度去修正)。第一次探索要的是快速掌握基本面,找出具体问题请教领域专家,在模型可能精度和适用范围的研判基础上,与业务负责人开始探讨,这样数据分析师也可能更深入地了解领域,同时让各方都有个正确的期望。在迭代中,不断提高数据处理和模型的严谨程度。
2.系统化思维与主动思考
分析课题不是封闭的考题,数据分析师要有主动思考的习惯,不要盲信他人圈定的范围,使用数据集的维度可以扩充,甚至要解决的问题也是可以重新定义的。
对业务问题最好有个层次化的分解(可以在推进过程中不断优化),放在业务上下文去思考,这样容易建立起项目团队的共同的理解,数据分析师不要变成被动响应需求的“报表师”。另外,要注意文档的逻辑性,总结文档是一段工作的归纳,不是数据探索过程的流水账。
3.大胆尝试,小心求证
保持必要的好奇心,把所有的想法和假设都记录下来并进行检验,这样才可能在现有领域专家工作成果的基础上更进一步。对于分析结果,坚持因果逻辑检验,避免辛普森悖论、幸存者偏差、赌徒谬论等统计陷阱[40] 。
同时,对于数据分析模型和结果保持严谨态度,尽可能去实际生产环境中验证,发现潜在的风险,清晰阐述模型的适用范畴。对于应用效果,要客观审视提升的原因,避免夸大数据分析的作用。