星期五, 12月 05, 2008

國中數學:長條圖、直方圖、折線圖

老早就想寫這篇文章,但裡頭想爭辯的卻又是蒜皮小事,怕別人笑我,所以遲遲沒動筆。然而每天看那麼多報告,報告裡那麼多畸形怪狀的圖表,我實在忍不住想跳出來講講國中數學。是的,就是長條圖、直方圖和折線圖。

研究報告裡最常見的圖表就屬上述三種和圓餅圖(pie chart),但圓餅圖大家比較不容易畫錯,所以就略過不提。首先,長條圖(bar chart)和直方圖(histogram)是不同的。長條圖的每一根柱子之間是分開的,而直方圖則是相連。其差別在於,直方圖的「X軸」是用來描述continuous variable,如身高,當你想統計一群人身高的「分配」時,你可以取10公分為一組,畫成次數分配圖,就能知道這一群人身高的分配;而長條圖是用來描述discrete variable,若我想知道各縣市的人均所得,就可以用長條圖來表示。由於直方圖需要是連續變數,因此像nominal variable(性別、縣市)或ordinal variable(名次)就無法適用;反之interval variable(溫度)和ratio variable(長度、重量)則通常不適合畫成長條圖。

折線圖也適用於連續變數,但它和直方圖最大的差異在於:折線圖的Y軸也要是連續變數,直方圖則不必然(如上例,人是非連續變數);此外折線圖主要用來描述該變數的「趨勢」(因為線條容易導引人的注意力到其趨勢上),直方圖則偏向於看分配(由於下方塗黑,容易讓人注意其整塊面積的形狀)。但常常兩者的分界並不明顯,譬如我想看過去30年每年總人口的level,Y軸是非連續變數,照理說應該用直方圖表示,但其實我想看的是人口成長的趨勢,且其跳動單位-人相對於總人口來說非常小,可視為連續,因此用折線圖來表示或許更好。

也許有人會問:誰規定折線圖一定得用在連續變數呢?沒有誰規定。但幾何中(沒有斷掉的)直線或曲線原本就蘊含連續的意思,當你把昨天跟今天的收盤價在X-Y座標圖中連起來,即是在表達「股價從昨天收盤以每一極小的步伐等速上漲或下跌至今日股價」這件事,所謂「極小」是指小到不能再小但其絕對值還是大於零那麼小。「長條」就沒有隱含這樣的意思,昨天的高度跟今天的高度是分開的,它只在表達「昨天的收盤是那樣,今天的收盤是這樣」。

所以如果你用折線圖畫「每天上市股票中漲停的家數」就很怪了,因為當漲停家數從10家提高到20家,理論上它並不是以極小的步伐從10跑到20,而是一家一家增上去的。沒錯,畫出來大家還是看得懂,但用直方圖或長條圖來表達應會更適切。

此外,長條圖和直方圖的分界有時也沒那麼明確。時間是連續變數,但時間性資料(日/週/月/季/年)往往看起來是間斷的,所以通常像「每日成交量」、「每月營收」、「每季EPS」等研究報告中常用的圖表都畫成長條圖,以方便區分時間間隔。

總歸來說,上述三圖之間的灰色地帶主要來自於:1. 理論上是連續變數,但實際上卻常以間斷變數表達;2. 理論上是間斷變數,但由於每一跳動單位相對於總樣本數來說相當微小,以致於幾無異於連續變數。雖然如此吹毛求疵的探求沒多大意義,尤其當中又有許多模糊的空間,但使用者對於工具總是得瞭解其本質才可能做最好的使用,這在工具繁多的今日已不受重視,故也只能在早期大師的作品裡頭去尋了。

沒有留言: