變量值:統計學術語-中文百科頻道

定義

變量的具體表現，就是可變數量标志或統計指标的不同取值，稱為變量值（即标志值）。一個變量可以取多個變量值，二者不能混淆。例如，工資這個變量，可具體表現為2840元、3780元、4900元、5680元等多個變量值。

性質

取值範圍

變量的取值既可以是數值，也可以是表達屬性的字符。成年人年齡這個變量，既可以用“老、中、青”來作為變量值，也可以用具體的年齡來取值。性别則隻能取男或女，既沒有第三個選擇，也不能用數值來取代，除非事先約定用“0”表示男，以“1”表示女。在利用一些統計軟件(如SPSS)對變量進行編碼時，這也是一種常見的策略。

顧名思義，變量的含義即在于其取值的不确定性，也即變量值一般是處在某個範圍之間的，這個範圍在統計上稱為全距(Range)。在一項具體的研究實踐中，必須弄清楚變量取值的變異範圍，并采取适當的策略來加以處理。

在社會科學研究中，很多變量值自身所具有的敏感性、隐秘性、含混性和抽象性特點，使得研究者難以了解變量的全貌，即變量的變異範圍。例如，在關于“城市居民社會地位與旅遊消費行為的關系”研究課題中，必然會涉及“居民收入”這個變量。然而，這是一個很敏感、隐秘的變量，幾乎不可能确切知道城市居民的實際收入的上下限到底是多少。高收人家庭可能日入鬥金、年收人數以億汁，低收入者也可能人不敷出。好在我們的研究更關注“大衆旅遊”的情況，因此，對于極端的收入水平可以不予考慮。在這種情況下，家庭月收人在1000～50000元範圍内的城市居民，應該占據我們研究課題分析單位的絕大部分。

當要測量的變量是接近于同情心、偏見、愉悅、态度之類的抽象概念時，變量的取值問題更需要加以注意，以免出現偏于一端、失之武斷的缺欠。比如，你如果是在2001年前後調查安徽世界文化遺産地宏村村民對旅遊開發的态度，可以讓村民就你所列舉的關于這個“态度”變量表達“非常贊同”或“不感興趣”兩個選項中的一個，以此作為判斷民意的依據。那麼，你很可能由于這種“變量值”範圍限定的不合理性，使得你并沒有取得全部的态度類型。因為，在那一段時期，宏村村民不僅不是不感興趣的問題，而且還可能強烈反對山。合适的取值範圍應該從非常贊同到沒有意見，直至非常反對。

有些變量的取值範圍是固定的(如性别)，也有一些變量的取值範圍雖然不能準确限定，但卻可以預估其範圍(如身高、年齡、收入、職業、受教育程度、家庭人口數等)，還有一些變量的取值範圍根本無法事先預計(如遊覽時間、休閑偏好、購物支出和閱讀興趣等)，甚至有一些變量的取值具有無限的可能性(如某一平方千米範圍每一點的地下水位，由于“點”的無限可能性，因此相應的地下水位也會有無限個數值)。

分組

很多情況下，需要對取值範圍差異很大的變量進行分組。如果所劃分的組别由單一數值或字符來表示，此種分組為單項式分組。将性别分為男性和女性兩個組，将某旅遊地的家庭旅館按照擁有客房間數分成5、10、12、15、27四個組，都屬于單項式分組。這種分組方式适合于變量為離散變量且變量值變異範圍很小的情況。否則，就需要采用組距式分組。

組距式分組的組數多少與全距(R=最大變量值一最小變量值)的大小和設定組距的寬窄有關。在變量值的全距一定的前提下，組數越多，組距自然越窄。而這種分組策略的結果是保留了較多的資料細節，卻以損失變量數列的概括性為代價。相反，組數越少，組距就會越寬，變量數列越概要，損失的原始信息也越多。在确定組數與組距時，就需要在這兩種情況中進行權衡。

一般地，組數的多少會與原始數據的多少有些關系。原始數據很多時，可以多分幾組，相反，就可以少分幾組。需要提醒的是，過少的分組決策有可能使原始資料的分布模式徹底被抽象掉，從而使分組失去意義。

通常，當組數确定時，可以根據組距=全距／組數的公式計算組距的大緻寬度；或者相反，當已經決定要用多寬的組距時，也可以反過來求可以劃分的組數。

當采用不等組距分組時，上述公式就不适用了。不等組距用于變量值的分布極不均衡的場合。當試圖描述總體分布的實際模式時，不等組距常常會掩飾這種模式，因此要特别注意。下文提到的“開口組”也是不等組距的一種形式。