1.1.2 数据的属性
网络空间的数据具备一些特有的属性[6]。
• 物理属性:是指数据在存储介质中以二进制串的形式存在。数据的物理存在占据了存储介质的物理空间,是数据真实存在的表现,并且是可度量、可处理的。数据的物理存在使数据可以直接被用于制作数据副本、进行数据传输,也可以通过特殊的方法直接从物理存在勘探数据、破解数据。
• 存在属性:是指数据以人类可感知(通常为可见、可听)的形式存在。在网络空间中,物理存在的数据可以通过I/O设备以某种形式(如显示、声音)展现出来,被人所感知、所认识。人们通过I/O设备感知到的数据才能被认为是存在的数据,否则只能猜测其存在或不存在。
• 信息属性:一个数据是否有含义,含义是什么,这是数据的信息属性。通常,数据通过解释之后就会具有含义(即解释清楚数据表示什么),数据的含义就是信息;也有一些数据是没有含义的,例如,一个随意输入的字符串“20 xsaff产7s9f9dsf7w2”就没有含义,但它是数据。
• 时间属性:时间是自然界中的一个基本要素,其使自然界万物朝着一个不可逆的方向发展前进,让人类能够区分过去和未来。数据界没有时间的概念,数据的存在没有过去和未来。将一个数据项item在t1、t2、t33个时刻分别赋予值100、200、100,则t1和t3时刻item 的值是相同的,于是可以说在t3时刻,item回到t1时刻的样子。这是数据界与自然界的最大区别。在自然界,任何事物在任何两个时刻都是不同的。如果数据要被用来表示自然界一个随时间变化的事物,对应于自然界的时间概念,那么需要给数据加盖时间戳,例如时间戳“2009年9月1日9时17分38秒”。事实上,在数据界,数据没有寿命的概念。虽然数据的载体会老化,但数据不会老化,可以通过更换存放数据的载体来保证数据一直被存储在网络空间中。
图1-1中4个列分别代表4个数据集,它们以(0,1)二进制代码的形式存放在存储设备中,占用物理存储空间,体现了数据的物理属性。这4个数据集通过I/O设备分别以表格、文字、图等形式被看见,使人们知道在存储空间存在着4个数据集,体现了数据的存在属性。通过对这4个数据集进行读取和解析来获取信息,但信息的获取受知识体系、技术水平等因素影响,读取和解析出来的信息会不尽相同,这体现了数据的信息属性。
• 第一个数据集(第一列)。可以看到存在属性和信息属性是相同的,信息较容易获取。
• 第二个数据集(第二列)。看到的存在属性是“铷惈佺ぜ届嘟轲鉯bú偠孒,卧只楆誐亻门啲暧,讠上藦騩漴拝,让兲驶发槑~”,其信息属性是“如果全世界都可以不要了,我只要我们的爱,让魔鬼崇拜,让天使发呆~”,这类数据集信息的获取需要具备相应的知识体系。
• 第三个数据集(第三列)。存在属性是一个图,看不出是什么内容,需要通过技术进行处理,经过处理后读取出的信息属性是一头大象,这类数据集信息的获取需要通过技术手段,技术手段越高,获取的信息可能就越多。
• 第四个数据集(第四列)。看到的存在属性是一堆无序的字符,无论通过知识体系还是技术手段都读取不了任何内容,因为它是一堆乱码,不具有任何含义,不代表任何信息。
图1-1 4个数据集的属性