科學分析中的解釋變數和回應變數

Jul 28, 2023

稻果學院, "科學分析中的解釋變數和回應變數." Enago英論閣部落格：論文撰寫與科學研究發表支援. December 23, 2022. https://www.enago.com/academy/tw/explanatory-and-response-variables-in-statistics/.

Copy

無論對於概率性還是非概率性的問題，所有的科學分析在探索未知的過程中通常都需要建立參數之間的某種因果關係，即某個參數的變化導致另一個參數發生變化。這種參數（parameter）又稱變數（variable）。本文簡述試驗設計中的變數關係。

對於數學函數y=f(x)，x稱為引數或獨立引數（independent variable），y稱為因變數（dependent variable），這是因為x值的變化通過某種函數關係導致y的值發生變化。實際上，在自然科學和社會科學領域，大量的因果關係並不能用函數形式或某種數學顯式形式表現出來，但在變數之間確實是仍然存在關聯的。引數又稱為解釋變數（explanatory variable）或預測變數（predictor variable）。因變數又稱為回應變數（response variable）或結果變數（outcome variable）。所謂的解釋變數，其含義為該變數的值的變化能夠“解釋”回應變數的值發生的變化。表達解釋變數與回應變數之間關係的最簡單方式是採用散點圖（scatter plot），將解釋變數放在橫軸（x軸），而將回應變數放在縱軸（y軸），觀察資料點的分佈是否呈現某種明顯的規律或相關性。

人們之所以經常採用“解釋變數”而非“獨立引數”來稱呼引數的原因是雖然有些引數是獨立的，但有些引數是非獨立的（即存在某種依變關係）。例如，漢堡包和可樂的攝入量作為兩個引數，都可以影響體重，但是漢堡包和可樂之間在某些研究情況下是存在一定的依變關係而並不完全獨立無關的。例如，購買了漢堡包的人習慣於再購買一瓶可樂。如果研究的目標參數（因變數）是體重，那麼漢堡包和可樂的攝入量都是引數。在這種情況下，將漢堡包和可樂都稱為解釋變數比稱為獨立引數要更加合理和準確。但是，如果研究的目標參數改為可樂，那麼問題的構造可以改變為：漢堡包是引數，而可樂是因變數。簡而言之，解釋變數是原因，回應變數是結果。

與解釋變數之間的非獨立關係（即依變關係）所不同的另一種關係是解釋變數之間的相互作用（interaction）。如果回應變數相對於第一個解釋變數的變化程度取決於第二個解釋變數的取值，那麼就稱這兩個解釋變數之間存在相互作用。反之，如果無論第二個解釋變數的取值如何，回應變數相對於第一個解釋變數的變化程度都是一樣的，那麼就稱這兩個解釋變數之間不存在相互作用。例如，某種化肥和某種添加劑都對農作物的產量有影響，而化肥和添加劑是互相獨立的解釋變數；當添加劑的用量是1千克時，將化肥的用量從10千克增加到20千克，導致農作物產量從1噸增加到1.2噸，即增加了0.2噸。然而，當添加劑的用量是2千克時，將化肥的用量仍然從10千克增加到20千克，卻導致農作物產量從1.1噸猛增到1.7噸，即增加了0.6噸。這時，化肥用量和添加劑用量就稱為具有相互作用。

研究這類參數之間依變關係的學科稱為試驗設計（Design of Experiments，簡稱DoE）。在試驗設計中，解釋變數被稱為因子（factor），而回應變數被簡單地稱為回應（response）。試驗設計包括單因子問題、多因子問題、單回應問題、多回應問題等。變數按照是否具有隨機性質分為確定性（deterministic）變數和概率性（probabilistic）變數。確定性因子的離散取值稱為水準值（level）。

如果因子與回應之間能夠用具有物理意義的數學關係來描述，就稱這種關係為物理模型，例如立方體的體積等於底面積乘以高度。如果因子與回應之間的關係極為複雜，以至於不能用具有物理意義的數學模型來描述，那麼就需要採用資料擬合（又稱回歸）的方式建立某種關聯，例如顯式的多項式擬合模型或隱式的神經網路模型。多項式擬合模型稱為擬合器（emulator）或回應曲面模型（response surface model）。

試驗設計包括全析因設計和部分析因設計。物理模型的建立是不需要試驗設計的，因為物理模型是基於因子與回應之間的理論關係推導出來的。然而，回應曲面模型需要依靠試驗設計來建立。當因子的數量為2或3，而且當因子的水準值是2或3時，由於因子的全部取值組合情形的數目不大，可以使用全析因設計。以3水準和3因子為例，因子記為x₁、x₂、x₃，水準值假設為-1、0、1，那麼因子的全部取值組合數目是27，即3´3´3=27，這就是全析因設計。實際上，在這27個因子取值組合中，有些組合可以舍去，從而不太影響因子對回應之作用的資訊完整度，而試驗次數則能夠大幅度減少，例如從27次減少到13次，這就稱為部分析因設計。部分析因設計的優勢在因子或水準值數量眾多的情況下變得非常明顯和必要。常用的部分析因設計方法包括正交設計、傳統設計、均勻設計、拉丁超立方（Latin Hypercube）設計。在評價多項式回應曲面模型的準確度和模型的每一項的重要性時，可以採用相關係數檢驗、方差分析、殘差分析等方法。

利用因子和回應的資料建立起回應曲面模型後，可以通過計算來觀察和預測因子對回應的影響趨勢，而且通常需要尋優，即尋找在因子取值是多少時，回應參數的值達到最大或最小。因此，試驗設計往往與優化聯繫在一起。在優化問題中，存在兩類回應變數，一類稱為目標回應，另一類稱為約束回應。很多優化問題是帶有等式或不等式約束條件的單目標優化或多目標優化問題。

綜上所述，解釋變數和回應變數分別對應試驗設計中的因子和回應。回應曲面方法（Response Surface Method，簡稱RSM）是處理這些變數之間關係的主流分析方法。

英論閣提供統計分析服務，以嚴謹的統計分析方法，分析您的實驗數據和研究方法，並以清晰、可信的方式組織並呈現資料，以驗證和量化您的科研發現。在研究過程中，無論您遇到樣本量問題、數據解釋上的困難、又或是無法清晰闡述您的研究，我們都可以為您提供最需要的幫助。