上QQ阅读APP看书,第一时间看更新
1.2.2 用法——如何回头看模型
在很多情况下,当数据科学家花费大量时间和精力构建出模型后,兴高采烈地试图交给业务人员进行使用时,往往会遇到一个有趣的情况:业务人员听不懂你对高深算法的解释,甚至不在乎你对数据的各种费心处理,他们只关心实际的问题,如模型到底效果如何?
在很多情况下,模型构建完成后需要对模型进行验证。比如训练时采用截止到3月的数据,而模型部署是在7月,所以需要数据科学家验证截止到6月的情况下,模型的实际效果能达到什么程度。这时,我们除了需要通过新数据计算模型性能指标(如提升度、准确性、稳定性等)外,还需要计算模型实际业务结果会是怎么样,能带来多少收益或能避免多少损失(如图1-5所示)。
图1-5 以简单明了的方式来讨论模型使用的预期价值
数据科学家除了要对模型性能指标熟稔于心外,还需要能够表达清楚模型真正的实际价值。所以,在第一步模型构建完成后,应用两套指标来衡量是比较可取的做法——模型性能指标是从数学角度说明模型优劣;业务指标是从模型应用的业务结果来评价其价值。
在现实中,人们往往不好准确把握模型的真实业务价值,在实际应用后通过数据统计才能有结论。但是这一点都不妨碍模型部署前的估算:按照目前模型的性能指标,估计在第一次给定客户数的情况能有多少人购买,大致的营业额会是多少。采用估算还是采用事后统计,都是用以说明模型业务价值的手段,可以灵活应用。数据科学家要像重视模型性能指标的计算一样重视模型所带来的业务指标的计算。
总体来讲,数据科学家不能将自己的工作范围只框定在纯粹建模,需要“抬头看”和“睁眼看”业务价值。