一、直線回歸方程的意義 計算出相關(guān)系數(shù)后,如果r顯著,且又需要進一步了解兩變量中一個變量依另一個變量而變動的規(guī)律時,則可進行回歸分析。 “回歸”是個借用已久因而相沿成習(xí)的名稱。若某一變量(y)隨另一變量(x)的變動而變動,則稱x為自變量,y為應(yīng)變量。這種關(guān)系在數(shù)學(xué)上被稱為y是x的函數(shù),但在醫(yī)學(xué)領(lǐng)域里,自變量與應(yīng)變量的關(guān)系和數(shù)學(xué)上的函數(shù)關(guān)系有所不同。例如成年人年齡和血壓的關(guān)系,通過大量調(diào)查,看出平均收縮壓隨年齡的增長而增高,并且呈直線趨,但各點并非恰好都在直線上。為強調(diào)這一區(qū)別,統(tǒng)計上稱這是血壓在年齡上的回歸。 直線回歸分析的任務(wù)就是建立一個描述應(yīng)變量依自變量而變化的直線方程,并要求各點與該直線縱向距離的平方和為最小。按這個要求計算回歸方程的方法稱為最小平方法或最小二乘法。所建立的方程是一個二元一次方程式,其標(biāo)準(zhǔn)形式是:
=a+bx(9.5)式(9.4)
為由x推算得來的y值,即y的估計值:a稱為截距,它是當(dāng)x=0時的
值,即回歸直線與縱軸的交點:b稱為 回歸系數(shù),它是回歸直線的斜率,其含意是當(dāng)x每增加一個單位時,
相應(yīng)增(或減)b個單位。當(dāng)a與b求得后,直線回歸方程就確定了。 二、直線回歸方程的計算法 仍以表9.1資料為例,根據(jù)前面的相關(guān)分析以及醫(yī)學(xué)上有關(guān)凝血的機理,可知凝血時間依凝血酶濃度而異,且有密切的關(guān)系。因此可進一步作由凝血酶濃度(x)推算凝血時間(y)的回歸方程。求直線回歸方程的步驟如下:1.列回歸計算表(見表9.1),計算∑x、∑y、∑x2、∑y2、∑xy。2.計算x、y、∑(x-x)2、∑(x-x)(y-y)x=∑x/n=15.1/15=1.01y=∑y/n=222/15=14.80∑(x-x)2=∑x2-(∑x)2/n=0.2093∑(x-x)(y-y)=∑xy-∑x·∑y/n=-1.7800 3.計算回歸系數(shù)b和截距a。b和a兩值計算公式均是根據(jù)最小二乘法的原理推算出來的,其公式如下:
(9.5)a=y-bx (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.3895 4.列出回歸方程,繪制回歸直線,將求得的b和a的值代入到式(9.4),即得所求的回歸方程:
=23.3895-8.504x在凝血酶濃度的實測范圍內(nèi),即x=0.8到x=1.2之間,任選兩個x值(一般選相距較遠且直角坐標(biāo)系上容易讀出者),代入此回歸方程,即得相應(yīng)的兩個
值。例如:取 x1=0.8,則
1=23.3895-8.5045×0.8=16.59,x2=1.2 則
2=23.3895-8.5045×1.2=13.18。 連接(0.8、16.59)和(1.2 、13.18)兩點所得直線,即為由凝血酶濃度推算凝血時間的回歸直線( 見圖9.9)。須注意回歸直線必通過(χ,y )點,并穿過觀察點群,直線上下各有一些點散布著,否則計算有誤。 三、直線回歸方程的假設(shè)檢驗 (一)樣本回歸系數(shù)的假設(shè)檢驗 根據(jù)例9.1資料求得的是樣本回歸系數(shù)b,有抽樣誤差的,需作假設(shè)檢驗,檢驗其是否是從回歸系數(shù)為0的假設(shè)總體(即β=0)中隨機抽得的,也就是檢驗b與0的差別有無顯著性。如果差別有顯著性,可認(rèn)為x與y間有直線回歸存在。樣本回歸系數(shù)的假設(shè)檢驗亦用t檢驗。 h0:β=0 即y的變化與x無關(guān); h1:β≠0。 計算公式為:
(9.7) 分母sb是樣本回歸系數(shù)b的標(biāo)準(zhǔn)誤,計算公式為:
(9.8) 分子sy.x為各觀察值y距回歸線的標(biāo)準(zhǔn)差,即當(dāng)x的影響被扣去以后y方面的變異,可按下式計算:
(9.9)