机器学习:软件工程方法与实现
上QQ阅读APP看书,第一时间看更新

4.1.9 模型部署

是否对模型评分进一步分段处理,是否结合其他模型或策略进行综合评判,这些都可以影响到具体的上线方式。除此之外,线上比对分析、灰度上线等也需要引起足够重视。上线时需要确保模型开发环境和线上环境一致,例如查看主要包的版本是否一致、特征处理结果是否一致、同一批数据的预测结果在开发和线上两个环境中是否一致、统计指标是否一致(AUC、KS)等,例如可使用如下的方法进行校验:


# 查看包版本
print(your_package.__version__)
# df为pandas.DataFrame,online_score 表示线上得分,dev_score表示开发环境得分
assert sum(df['online_score']==df['dev_score']) == df.shape[0]

总之,环境一致的要求需要在部署之前确认。另外,第2章给出了一种环境一致性的方案,读者可以进行参考。第15章将讲述模型部署的技术方案与实现。