定義
變量的具體表現,就是可變數量标志或統計指标的不同取值,稱為變量值(即标志值)。一個變量可以取多個變量值,二者不能混淆。例如,工資這個變量,可具體表現為2840元、3780元、4900元、5680元等多個變量值。
性質
取值範圍
變量的取值既可以是數值,也可以是表達屬性的字符。成年人年齡這個變量,既可以用“老、中、青”來作為變量值,也可以用具體的年齡來取值。性别則隻能取男或女,既沒有第三個選擇,也不能用數值來取代,除非事先約定用“0”表示男,以“1”表示女。在利用一些統計軟件(如SPSS)對變量進行編碼時,這也是一種常見的策略。
顧名思義,變量的含義即在于其取值的不确定性,也即變量值一般是處在某個範圍之間的,這個範圍在統計上稱為全距(Range)。在一項具體的研究實踐中,必須弄清楚變量取值的變異範圍,并采取适當的策略來加以處理。
在社會科學研究中,很多變量值自身所具有的敏感性、隐秘性、含混性和抽象性特點,使得研究者難以了解變量的全貌,即變量的變異範圍。例如,在關于“城市居民社會地位與旅遊消費行為的關系”研究課題中,必然會涉及“居民收入”這個變量。然而,這是一個很敏感、隐秘的變量,幾乎不可能确切知道城市居民的實際收入的上下限到底是多少。高收人家庭可能日入鬥金、年收人數以億汁,低收入者也可能人不敷出。好在我們的研究更關注“大衆旅遊”的情況,因此,對于極端的收入水平可以不予考慮。在這種情況下,家庭月收人在1000~50000元範圍内的城市居民,應該占據我們研究課題分析單位的絕大部分。
當要測量的變量是接近于同情心、偏見、愉悅、态度之類的抽象概念時,變量的取值問題更需要加以注意,以免出現偏于一端、失之武斷的缺欠。比如,你如果是在2001年前後調查安徽世界文化遺産地宏村村民對旅遊開發的态度,可以讓村民就你所列舉的關于這個“态度”變量表達“非常贊同”或“不感興趣”兩個選項中的一個,以此作為判斷民意的依據。那麼,你很可能由于這種“變量值”範圍限定的不合理性,使得你并沒有取得全部的态度類型。因為,在那一段時期,宏村村民不僅不是不感興趣的問題,而且還可能強烈反對山。合适的取值範圍應該從非常贊同到沒有意見,直至非常反對。
有些變量的取值範圍是固定的(如性别),也有一些變量的取值範圍雖然不能準确限定,但卻可以預估其範圍(如身高、年齡、收入、職業、受教育程度、家庭人口數等),還有一些變量的取值範圍根本無法事先預計(如遊覽時間、休閑偏好、購物支出和閱讀興趣等),甚至有一些變量的取值具有無限的可能性(如某一平方千米範圍每一點的地下水位,由于“點”的無限可能性,因此相應的地下水位也會有無限個數值)。
分組
很多情況下,需要對取值範圍差異很大的變量進行分組。如果所劃分的組别由單一數值或字符來表示,此種分組為單項式分組。将性别分為男性和女性兩個組,将某旅遊地的家庭旅館按照擁有客房間數分成5、10、12、15、27四個組,都屬于單項式分組。這種分組方式适合于變量為離散變量且變量值變異範圍很小的情況。否則,就需要采用組距式分組。
組距式分組的組數多少與全距(R=最大變量值一最小變量值)的大小和設定組距的寬窄有關。在變量值的全距一定的前提下,組數越多,組距自然越窄。而這種分組策略的結果是保留了較多的資料細節,卻以損失變量數列的概括性為代價。相反,組數越少,組距就會越寬,變量數列越概要,損失的原始信息也越多。在确定組數與組距時,就需要在這兩種情況中進行權衡。
一般地,組數的多少會與原始數據的多少有些關系。原始數據很多時,可以多分幾組,相反,就可以少分幾組。需要提醒的是,過少的分組決策有可能使原始資料的分布模式徹底被抽象掉,從而使分組失去意義。
通常,當組數确定時,可以根據組距=全距/組數的公式計算組距的大緻寬度;或者相反,當已經決定要用多寬的組距時,也可以反過來求可以劃分的組數。
當采用不等組距分組時,上述公式就不适用了。不等組距用于變量值的分布極不均衡的場合。當試圖描述總體分布的實際模式時,不等組距常常會掩飾這種模式,因此要特别注意。下文提到的“開口組”也是不等組距的一種形式。
方法
1、借用已有數據
例如,各類年鑒上的數據。如,中國統計年鑒、中國城市統計年鑒、中國金融統計年鑒、中國建築業統計年鑒、省統計年鑒。如果不清楚有哪些年鑒,可以先查看《中國年鑒概覽》,然後查找有關年鑒。該概覽還提供了被檢索的次數情況,可供引用者參考。
使用年鑒中的數據,要注意不同年鑒中的數據可能不一緻的問題。出許多人的意料,同一個變量在不同年鑒中的數據常常是不一緻的。形成差異的主要原因是變量的内涵的差異。所以,在使用年鑒數據前,一定要仔細閱讀年鑒的說明,弄清楚變量的定義。
已有數據,也包括他人文獻中的數據。引自他人文獻中的數據,要注意作者的嚴肅性與權威性,不可“以訛傳訛”。
2、自己測量
自己測量變量值,是包括管理科學在内的社會科學研究的最重要的基本能力之一。沒有這個能力,一般很難進入創造性的研究,特别是有獨創性的研究。
僅僅依靠年鑒上的數據和别人的數據,采用别人沒有想到的處理數據的方法,研究出與衆不同的結果是很難的。
特點
不同的變量的變量值的特點各不相同:離散變量的變量值可一一列舉;連續變量的變量值則不能一一列舉,隻能用區間表示;确定性變量的變量值有明确的變化方向;随機變量的變量值則有一定的随機性。
關系
變異是統計研究的前提條件,變量和變量值是在變異的前提下表現為可變的數量标志和數量标志值。所以說,變量和變量值都存在于變異之中,它們的關系是互相依存的。
變異
标志在同一總體不同個體之間的差别是變異。變異的普遍存在是統計核算的前提條件.
标志按個體表現不同,分為不變标志、變異标志,同一總體中的每個個體都具有不變标志和變異标志。
标志按性質不同,分為品質标志和數量标志,變異标志也分為品質變異标志和數量變異标志。如,性别與年齡。
把總體、個體和标志三個概念聯系起來,總體的特征概況為:
(1)同質性
(2)大量性
(3)差異性
變量
變量:數量變異标志。
變量值:數量變異标志的表現形式的具體的數值。
變量又分為連續變量、離散變量
連續變量,如,年齡,身高,體重等,兩個變量值之間有無數的分割。
離散變量,如,職工人數,企業個數等。變量值隻能取整數。



















