什么是數理統計?融躍小編就為您詳細介紹一下統計的目的、總體和樣本以及四種度量尺度。
1、統計的目的
統計能為我們做什么?對一般人而言,統計就是收集數據,讓我們知道總體狀況是怎么樣的;這完全正確,但這僅僅是統計的一部分而已。統計更重要的意義在于數據分析,數據分析的目的是作出判斷和預測。
描述性統計(descriptive statistics)是對數據的性質的描述。例如我們后面要學到的均值,描述了數據的中心趨勢;而方差則描述了數據的離散程度。
推斷性統計(inferential statistics)是用來作判斷和預測的。例如我們后面要學到的假設檢驗,就是用來作判斷的;我們在二級定量方法中還要學回歸分析和時間序列分析,其就是用來作預測的。
2、總體和樣本
總體(population)是我們所要研究的所有個體的集合。例如我們想要研究中國人的身高狀況,那么所有中國人的身高的集合就是我們的總體。樣本(sample)是從總體當中抽取出來的一個子集。例如抽取100個中國人,分別量了他們的身高,那么這100個身高的集合就是一個樣本。這個樣本的樣本量(sample size)為100。
我們研究一個總體,通常不是想要了解每一個個體的情況,而是想要知道某些總體參數(population parameter)。例如研究中國人的身高狀況,并不是想要知道每一個中國人的身高是多少,而僅僅想知道中國人的平均身高而已(這樣就可以與10年前的平均身高作比較)。總體參數是總體中個體數值的函數,例如總體均值、總體方差等等。在上例中,我們想了解總體均值,就是所有中國人身高加起來除以總人口等于幾。
但是由于種種原因,我們通常不能得到總體中所有個體的數值,我們只能抽取一個樣本,來計算樣本統計量(sample statistic)。樣本統計量是樣本中個體數值的函數,例如樣本均值、樣本方差等等。例如我抽取了100個中國人,分別量了他們的身高,計算了他們的平均身高,用來估計中國人總體的平均身高。
關于抽樣和估計的具體內容,我們會在后面的章節詳細闡述。在這里,你需要記住:總體對應總體參數,樣本對應樣本統計量。
3、四種度量尺度
統計研究的對象是數據。數據的度量尺度(measurement scales)有強有弱,但不外乎以下4種:
1.名義尺度(nominal scales)。名義尺度數據雖然看上去是數值型數據,但其實是文本型數據。比如我們把男性記為1,把女性記為0。又比如我用2表示“中國股票”,4表示“美國股票”。名義尺度數據不能比較大小,也不能作四則運算。
2.排序尺度(ordinal scales)。排序尺度數據的大小代表某種順序。例如某次歌唱比賽,排出前8名,那么這個名次數據(1~8)就是排序尺度數據。排序尺度數據只能比較大小,不能作四則運算。例如我可以說第2名比第3名唱得好,但我不能說第2名和第3名的差距就是第3名和第4名的差距。
3.間隔尺度(interval scales)。間隔尺度比排序尺度更進一步,它使得數據之間間隔相等。這樣,間隔尺度數據不僅能比較大小,還能作加減運算,但不能作乘除運算。溫度(攝氏度)是間隔尺度的最好例子,例如上海20度,北京10度,那么我可以說上海溫度比北京高10度,但我不能說上海的溫度是北京的兩倍。
4.比例尺度(ratio scales)。比例尺度比間隔尺度更進一步,它增加了一個絕對零點。這樣,比例尺度數據不僅能比較大小,能作加減運算,還能作乘除運算。大多數數據都是比例尺度的,例如人的身高、債券的價格、公司的銷售額等。
以上4種度量尺度是按照由弱到強的順序排列的。