4.3 一元非线性回归
在分析测试中,有一些自变量和因变量的关系并不是线性关系,而是某种非线性的关系。例如,原照相式的原子发射光谱分析,照相底版上谱线的黑度与其元素含量是对数关系。电位分析法中,离子对的氧化态和还原态活度比与其电极电位关系的能斯特(Nernst)方程亦是半对数关系。溶液的pH值与氢离子活度(浓度)是负对数关系。放射性测量中放射性强度与衰变时间的关系,在化学反应中反应速率与反应活化能的关系,不是直线而是指数关系。在许多情况下,非线性关系可通过适当的变量变换转化成线性关系,就可以用上述线性回归来处理,使复杂的非线性关系变换为简单的线性关系。
现将几种非线性关系的转化简述如下:
(1)半对数关系
(4-54)
令X=lgx,则半对数方程就变成线性方程:
(2)指数关系1
(4-55)
取对数
令Y=lny,a'=lna,则指数方程就变成线性方程:
(3)指数关系2
(4-56)
取对数
令Y=lny,a'=lna,X=1/x,则指数方程就变成线性方程:
(4)幂函数
(4-57)
取对数
令Y=lgy,X=lgx,a'=lga,则幂函数方程就变成线性方程:
(5)双曲线关系
(4-58)
令,,则双曲线方程就变成线性方程:
(6)S形函数关系
(4-59)
或
令,,则S形函数就变成线性方程:
表4-12列出了常见非线性关系函数及其曲线形状和线性化关系变换方式。
表4-12 常见非线性关系函数及其曲线形状和线性化关系变换方式
【例4-7】 为确定ICP-AES法测定低合金钢和铸铁中的镁分析方法的重复性限和再现性限,有14个实验室对6个样品同时进行协同试验。经统计,6个样品的镁含量m与实验室间再现性限R的关系为:
m 0.1063 0.00372 0.1534 0.03222 0.06183 0.01617
R 0.00795 0.00130 0.00713 0.00277 0.00590 0.00235
已知m与R存在幂函数关系,求其回归方程。
解 m与R间的幂函数关系为:
将其转换为对数关系:
此对数关系即为一元一次线性方程,将m和R取对数,如表4-13所示。
表4-13 m与R的对数关系
将lgR对lgm回归计算得,a'=-1.6804,b=0.5127,相关系数r=0.9702,m与R的对数关系为:
用幂函数表示,将a'换算为a,a=0.02086,
在试验研究中,根据自变量和因变量关系的散点分布图,可以拟合出它们的回归方程。对不同的散点分布图,有时可能拟合出多个回归方程,此时可根据回归方程的变动性的标准差确定最合适的回归方程。
对非线性回归方程,方程变动性的标准差为:
(4-60)
式中,Yi为按非线性回归方程计算的回归值;yi为测量值。
【例4-8】 转炉出钢时所用的钢包,由于钢水对耐火材料的侵蚀,钢包的容积不断增大。通过试验数据,希望找出钢包使用次数与其容积增大间的关系。积累的试验数据如表4-14所示。
表4-14 钢包容积试验数据
解 将试验数据点标在散点图(图4-7)上,可以看到,开始侵蚀的速度较快,然后逐渐减慢。显然,钢包侵蚀后的容积不会无限增加,它有一条平行于x轴的渐近线。试验人员所关心的问题是哪一个回归曲线更能真实反映使用次数和侵蚀量的关系。按散点分布(图4-7),表4-12中的双曲线函数和指数函数2的曲线图与散点分布类似。
图4-7 钢包容积增大散点图
设自变量试验次数为x,因变量侵蚀后容积增大为y,以下分别按两个函数式进行回归。
(1)双曲线函数回归 双曲线表达式为,令Y=1/y,X=1/x,则双曲线方程就变成线性方程Y=a+bX,将x、y值变换为X=1/x和Y=1/y,其数值列于表4-15中。
表4-15 双曲线函数回归变换数据
计算线性方程Y=a+bX参数,得a=0.08222、b=0.1315和r=0.9684,回归方程为:
即,,或表示为。
(2)指数函数回归 指数函数表达式为y=aeb/x,取对数,令Y=lny,X=1/x,a'=lna,则Y=a'+bX。将x、y值转换为X和Y,其数值列于表4-16中。
表4-16 指数线函数回归变换数据
计算其线性方程Y=a'+bX参数,得a'=2.458、b=-1.11和r=-0.9792,回归方程为:
为比较两回归方程的适用性,表4-17分别列出了两个回归方程的测量值yi、回归值和钢包容积增大的标准差se。
表4-17 两种回归方式的测量值和回归值对照表
比较表列数据,双曲线方程的回归值开始一段比测量值偏低,后一段又偏高,而指数方程的回归值与测量值之差基本上是正负交替出现,回归值与测量值吻合得较好。指数方程剩余标准差s2小于双曲线方程剩余标准差s1。统计数据表明,指数拟合的回归方程较好地描述了试验结果。
在试验研究数据处理时,选择合适的回归方程是很重要的,选择回归方程类型不合适,拟合效果就不理想。在理论根据不足或缺乏实践经验情况下,通常采用比较不同拟合曲线来选择合适的回归方程的方法。