1.1 什么是预测_Python预测之美：数据分析与算法实战（双色）-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.1　什么是预测

在生活中经常会用到预测，比如明天是否会下雨、某旅游景点是否会爆棚、交通是否通畅等。预测的方法也因人而异，有人会根据经验来推断；有人会更相信感觉，说不出原因，就靠直觉给出估计结果；还有的人会占卜，类似于抛硬币的方式，通过随机结果来做出估计；也有人会访问亲朋好友，根据他们各自的预测结果，综合分析，得出最终预测结果。这些预测方法，可谓是仁者见仁、智者见智。纵观人类历史的发展，出现过一些典型的用于预测的手段，比如占卜术，古人也曾制造出厉害的预测仪器，一直到近代，才出现较为科学的预测方法。

1.1.1　占卜术

在世界历史的长河中，占卜术的出现并不是偶然。面对变幻莫测的大自然，古人心里没底，犹豫、焦虑，甚至恐惧。为了从自身以外获得更多的信息，从而减少不确定性，他们从身边的现象中探索，比如通过遇到什么样的动物、听见什么样的声音，以及遇到动物的数量、声音的次数，乃至事物的颜色等，来推断将要发生事情的吉凶祸福，他们认为在事情发生之前，可以通过这些方式得知事物发生的征兆。所以，占卜的“占”表示观察，观察身边的事物，而“卜”表示推测，根据现象对未知事物进行推测。从古至今出现过的占卜术非常多，比较久远的要数龟壳占卜了，至少在龙山文化时期已经出现骨卜方式，而在殷商时期，已经广泛使用炭火烧烤龟甲，通过裂纹来预测国事、战事、天气、灾难等（见图1-1-1）。

图1-1-1　成都金沙遗址出土的卜甲

可以看到，占卜的预测方法是缺少科学依据的，预测结果也非常依赖于做出预测的人，不同的人由于经验积累和理解方式的差异，也可能得出完全不同的结果。当然，如果我们对古人的做法不那么消极，则完全可以发挥想象。比如，通过观察身边事物的状态，在愿力特别强的情况下，会不会通过四维时空将未来可能发生的事情在当下的三维世界进行投影呢？因此，这样一联想，古人的做法也可能不是完全瞎扯。虽然我们没有办法去考究古人做法的科学性，但这却为现在的科学预测提供了一些参考，比如，我们要使用跨界的更多维度的数据来做预测，就要善于使用关联的思路，寻找更多的分析维度。好在现在我们的很多信息可以数字化，即便是针对海量数据，也具有成熟的处理办法。

1.1.2　神秘的地动仪

东汉时期，全国地震比较频繁，给百姓带来了很大的灾难，当时有个叫张衡的人，经过多年研究，发明了候风地动仪。由于历史久远，现在能找到的资料仅一百多字，连候风地动仪的样子，也是专家基于这些文字和自己的研究构想出来的（见图1-1-2）。《后汉书·张衡传》关于地动仪的记载如下：

1 阳嘉元年，复造候风地动仪。以精铜铸成，员径八尺，合盖隆起，形似酒尊，饰以篆文山龟鸟兽之形。

2 中有都柱，傍行八道，施关发机。外有八龙，首衔铜丸，下有蟾蜍，张口承之。

3 其牙机巧制，皆隐在尊中，覆盖周密无际。如有地动，尊则振龙，机发吐丸，而蟾蜍衔之。

4 振声激扬，伺者因此觉知。虽一龙发机，而七首不动，寻其方面，乃知震之所在。

图1-1-2　地动仪构想图

这段文字的大概意思是，地动仪一共有8个方位，和易经八卦的方位数量相同，每个方位上都做了一个龙头，其正下方有一只蟾蜍。当发生地震时，对应方向的龙口就会松口，其所含的龙珠就会掉在其下蟾蜍的口中。地动仪就是根据此原理来推测地震发生的方向的。

然而，地动仪并不能预测地震何时何地会发生，充其量是震后对地震方位的判断。但即便是这个功能，用现在的科学仍然难以甚至无法去解释它。地震在远处发生了，为何身边的地动仪会有影响，甚至会自动吐出龙珠，根本毫不相关啊。说到这里，我们来看一下“铜山西崩，洛钟东应”的典故。据说在西汉时期，皇宫未央宫前殿的钟无故自鸣，三天三夜不停止。汉武帝召问王朔，王朔说可能有兵争。武帝不信就问东方朔。东方朔说铜是山的儿子，山是铜之母，钟响就是山崩的感应。三天后，南郡太守上书说山崩了二十多里。

1 此义易明，铜山西崩，洛钟东应，不以远而阴也。　清·纪昀《阅微草堂笔记》卷十三

有趣的是，张衡（公元78—公元139年，东汉）和东方朔（公元前154年—公元前93年，西汉）所处的朝代非常接近。根据这个设想，制造地动仪的材料，应该要从全国各地去收集，才能实现推测地震方位的功能。比如，地动仪东边方位的龙珠应该使用山东矿山的铜来制造，西边方位的龙珠应该使用蜀地的矿石来制造。这其实就是量子纠缠的效应。

那什么是量子纠缠呢？我们不打算从物理和数学的角度大篇幅阐述量子纠缠的概念，感兴趣的读者可以通过网站或书籍来学习，这里只进行一些简要介绍。量子纠缠是一种超距作用，并不需要任何介质，将发生量子纠缠的两样东西放到任意远，它们仍然会相互影响。这里说的任意远，可以远到上亿光年甚至更多，在这种距离条件下，通过光速也很难即时地在两样东西间发生作用，然而量子纠缠会使其中一样东西在因被操控而发生改变时，另一样东西即时地发生相应改变（见图1-1-3）。

图1-1-3　量子纠缠示意图

2017年6月16日，量子科学实验卫星墨子号首先成功实现，两个量子纠缠光子被分发到相距超过1200千米的距离后，仍可继续保持其量子纠缠的状态。2018年4月25日，芬兰阿尔托大学应用物理系教授Mika Sillanp领导的一个研究团队完成了一项看似不可能完成的实验。Sillanp教授将两个硅芯片上的金属铝片制成的振动鼓膜，通过某种科学手段实现了微观量子世界中才能出现的量子纠缠。两个鼓膜的直径达15微米，这几乎接近于人类头发的直径，两个鼓膜在人眼的观测下都是清晰可见的。Sillanp教授宏观物质的量子纠缠实验引起了全世界物理学家的关注。在这项新研究中，物理学家成功地把两种几乎肉眼可见的不同运动物体转变为纠缠的量子态，它们可以通过超距作用互相感受。如此看来，宏观物质发生量子纠缠也不是不可能的。

基于量子纠缠的解释，地动仪能够测出地震发生的方位，也就不足为奇了。但是，由于现在能找到的记录很少，因此古人是如何制造出来的，已无从考证，甚至有人对此表示质疑，也无可厚非。地动仪就像一个幽灵一样，让人捉摸不透，到目前为止还是一个神秘的存在。

1.1.3　科学预测

科学预测讲究用科学的方法来做预测，要有理可循，有据可依。通常需要根据预测对象的内外部的各种信息、情报以及数据，使用科学的方法和技术，包括判断、推理和模型，对预测对象的趋势发展和变化规律进行预测，从而了解该对象的未来信息，进而评估其发展变化对未来的影响，必要时提出有针对性的方案，提前部署。

那什么是预测呢？“预”就是预先、事先，“测”就是度量、推测。预测通常被理解为对某些事物进行事先推测的过程。由于预测具有提前预知事物发展动向的能力，因此科学的预测是很多决策、计划的前提和保证。预测涉及很多行业和领域，并衍生出很多预测专题，除了常见的经济预测、股票市场预测、气象预测，还有人口预测、上网流量预测、产品销量预测、市场需求预测、流行病预测、价格预测等。

预测的定义有很多种，一般认为，预测是从事物发展的历史和现状着手，使用事物的基础信息和统计数据，在严格的理论基础上，对事物的历史发展过程进行深刻的定性分析和严密的定量计算，以了解和认识事物的发展变化规律，进一步对事物未来的发展做出科学推测的过程。本书给出预测的定义为：

1 所谓预测，是指基于对事物历史发展规律的了解和当前状态的把握，进一步使用科学的理论、方法和技术

2 对事物未来发展的走势或状态做出估计、判断的过程

1．预测的特点

（1）短期可预测

预测是通过事物的过去及现在推测未来，未来的时间可长可短。如果时间太长，由于存在很多不确定因素的干扰，长期预测结果的可信度相对较低，短期预测的结果往往更加可信。

（2）预测随机事物

随机事物具有不确定性，这才决定了预测的价值。实现预测，要从随机的变化规律中，找出相对固定的模式，或局部，或整体。

（3）预测需要数据

实现预测，要通过各种方法收集与预测对象相关的数据，包括历史的、当前的及未来的信息（比如日期、季节、天气预报、业务数据等）。将这些信息进行融合、清洗和加工。

（4）结果仅供参考

由于预测的是随机事物，其发展包含很多不确定性，因此预测结果本来就是不确定的，预测值与真实结果多少会存在误差。

2．预测的分类

预测可以按不同的维度进行分类，下面阐述常见的预测分类方法。

（1）按范围分类

预测按范围大小，可分为宏观预测和微观预测两类。宏观预测是指为整体的未来发展进行的各种预测，主要考虑预测对象相关指标之间的关系及变化规律。如国民经济预测、教育发展预测、生态破坏预测等。微观预测是指对具体单位或业务的发展前景进行的各种预测，也是研究预测对象相关指标之间的关系及变化规律，如对某产品的产量、销量、利润、费用、价格等的预测。

（2）按时间长短分类

预测按时间长短不同，可分为短期预测、中期预测和长期预测。因预测对象性质的不同，对短期、中期、长期的划分也不同。对于国民经济预测、技术预测，5年以下为短期预测，5~15年为中期预测，15年以上为长期预测。对于工业经营预测，3年以下为短期预测，3~8年为中期预测，8年以上为长期预测。对于市场预测，半年以下为短期预测，0.5~1年为中期预测，1年以上为长期预测。总体来讲，对短期预测结果的精度要求比较高，而对长期预测结果的精度要求比较低。

（3）按有无假设条件分类

按预测对象有无假设条件，可分为条件预测和无条件预测。条件预测一般以一定的决策方案或其他假设条件为前提；无条件预测则不附带任何条件。

（4）按预测结果的要求分类

预测按照其对结果的要求不同，可分为定性预测、定量预测和定时预测。定性预测是指预测者根据一定的理论方法和经验，在调查研究的基础上，进一步对其发展趋势做出判断，用于预测事物的发展趋势或可能性，如通过研究最新政策和分析某基金的历史资料，判断该基金未来半年将呈增长趋势发展，即属于定性预测的范围。通常可使用的数据很少。定性预测一般应用于新产品、新科技的预测，它涉及直觉和经验层面。定量预测是指在收集了预测对象的基础资料和统计数据的基础上，通过运用统计学方法或建立数学模型来求出预测值的过程，如根据某款游戏过去两年的统计数据，建立时间序列模型，对未来三个月的收入进行预测，即属于定量预测的范围。定时预测是预测对象未来出现的时间，比如预测地震的发生等。

（5）按趋势是否确定分类

如果事物的发展趋势是确定的，那么预测就是确定性预测，一般为短期预测；如果事物的发展趋势是不确定的，那么预测就是随机性预测，一般为长期预测。

（6）按预测依据分类

如果使用事物前后时期的资料进行预测，那么这种预测叫作动态预测；如果使用相关关系进行间接预测，那么这种预测叫作静态预测。

1.1.4　预测的原则

科学的预测是在一定原则的指导下，按一定步骤有组织地进行。预测一般应遵循以下原则。

（1）目的性原则

目的性原则就是在进行预测时，要关注预测功能的受用者及其对预测结果的要求，只有在充分了解受用者的需求及要求的情况下，正确地开展预测，才能避免产生盲目性。比如开展短期负荷预测，就要提前与用户进行沟通，了解当前现状及其要达到的目标（如每天上午8点之前发布预测结果，要求精度不低于90%），保证预测工作有明确的目的性。

（2）连贯性原则

连贯性表示连续的情况或状态，连贯性原则主要包括两点：一是指时间上的连贯性，也就是说预测对象较长一段时间内所表现出来的规律特征相对稳定；二是指结构上的连贯性，即预测系统的结构在较长一段时间内相对稳定，预测模型涉及的对象及相互关系相对稳定，模型中各变量的相互关系在历史资料中表现得相对稳定。连贯性原则在进行预测时非常重要，它保证了预测对象的规律在预测时间内仍然适用，这很关键。如果在样本期内，预测对象的变化规律发生巨大变化，那么必然会破坏这种连贯性，对有效预测造成困难。

（3）关联性原则

关联性原则强调在预测时从相关事物出发去分析影响因素，主要包括中心化关联和类比性关联。以预测对象为中心，去寻找与预测对象相互影响的事物，可能涉及政治、社会、技术、经济等多个方面，这就是中心化关联。比如对旅游景点的人流量进行预测，以景点的人流量为中心，从此出发，可以找到很多影响景点人流量的事物，比如天气情况、节假日情况、交通情况等，基于此考虑，可从诸多的影响因素中找出合适的因素用于预测建模。如果考虑与预测对象相似的事物，从其发展规律中找出有助于预测对象进行预测的因素或信息，就是类比性关联。比如对某产品的用户流失情况进行预测，从用户生命周期分析中可知，凡是使用该产品的用户大致都经过导入期、成长期、成熟期、衰退期。这一过程对所有用户而言都是相似的。分析以前成熟期的用户流失的因素，有助于预测未来用户的流失情况。不管是中心化关联还是类比性关联，都需要预测人员具有丰富的知识和经验，进行多向性思考和分析。

（4）近大远小原则

近大远小指的是离预测时间越近信息就越重要，离预测时间越远信息就越不重要。这也很好理解，我们知道预测对象的规律越接近预测时间，可信度越高，以前的旧规律不见得适合拿过来用于预测。所以在进行预测时，不能太关注模型的拟合程度，模型的拟合度高，也不一定适合用于预测；反之，我们更应该关注，模型是否在近期的历史数据上表现良好，这种方法可以用来选择合适的预测模型。同样，在建模求解参数时，也应该加大近期样本的权重，对离预测时间较远的样本，可以适当减少建模的权重，这样得到的模型更能体现预测模型在近期数据变化规律上表现的优势。模型的评价亦是如此，预测模型在接近预测日的样本表现得好，预测模型才算有效，如果有预测模型在历史数据上表现良好，在近期的样本上表现不好，那么这样的模型只能说在历史数据中拟合得很好，不能说是用于预测的较好模型。总之，近大远小的原则，有助于我们在预测时选择样本、选取模型、求解参数和评价预测效果。

（5）概率性原则

概率是对随机事件发生的可能性的度量。由于绝大多数预测是针对随机事物的，所以预测得准与不准，也会以概率的形式体现出来。需要注意的是，概率只是一种可能性，一般用0~1的实数表示。概率为0是不可能发生的事情，概率为1是确定性事件，一定会发生。概率为0~1的，值越大可能性越大，值越小可能性越小。即便概率为0.9，事件也可能不会发生，因为只是概率，不是确定性事件，所以是正常的；但如果持续100次有50次都没有发生，那就是概率计算有问题。如果概率为0.001的事件发生了，则叫作小概率事件，是很难遇见的，应该特别引起重视。所以，认清预测的结果带有概率性是很关键的。若预测结果是类别（结果只有几个选项，如是与否、命中与不命中等），那概率表示预测到正确选项的可能性程度；若预测结果是连续的实值，那概率可以表示预测到实值所在区间的可能性程度。

（6）反馈原则

反馈指返回到起始位置并产生影响。反馈的作用在于发现问题，对问题进行修正、对系统进行优化等。在预测的过程中，如果预测偏差很大，超出了之前设定的范围，那么需要反馈回来做一些调整，简单一点就是调整一些参数，复杂一点可能要更新整个模型。预测反馈的最大作用在于它实现了整个预测过程的不断优化与动态化，保证了预测工作的可持续进行。

（7）及时性原则

预测是与时间紧密关联的一项工作。预测的结果应该快速地被用于决策，否则，时机一过，就失去了预测的价值。这一点在地震预测中就能明显地看出来，能够迅速、及时地提供预测结果是预测工作的基本要求。

（8）经济性原则

开展预测工作，需要一定的硬件、人力、时间、财力等资源，所以预测本来是讲求投资回报率的。经济性原则就是要在保证预测结果精度的前提下，合理地安排、布置，选择合适的建模方法和工具，以最低的费用和最短的时间，获得预期的预测结果。一定不要过度追求精确性而无故地耗费成本。

以上8条基本原则刻画了预测工作的全过程。首先要明确预测的目的，接着采用关联性原则来建立好的分析方法和预测思路，在保持一定连贯性的前提下应用远大近小的原则，建立起预测模型。然后，对预测结果做出概率性预测，对预测偏差较大的动态地反馈回来，并结合模型的实际情况做出调整和修正，使模型更优。当然，提供预测结果必须及时，预测工作的开展也必须控制在一定成本之内。这样，整个预测便建立在坚实的理论基础之上了。

1.1 什么是预测

1.1.1 占卜术

1.1.2 神秘的地动仪

1.1.3 科学预测

1.1.4 预测的原则

1.1　什么是预测

1.1.1　占卜术

1.1.2　神秘的地动仪

1.1.3　科学预测

1.1.4　预测的原则