星期一, 3月 09, 2009

難 題

記得研究所修時間序列的第一次作業,是老師用某ARMA model跑出500個值,叫我們去猜(是ARMA多少)。說是猜,其實是要我們運用所學的估計檢定方法判斷出最可能的答案,但事後證明那的確無異於猜。

答案是沒有截距項的AR1,學過時間序列的人都知道,那是最最簡單的model,但幾乎沒有人猜對,老師事前就講了:別以為很容易,根據歷史經驗猜對的人總沒幾個。但結果出來還是引來一聲驚呼。其原因在於,我們不斷拿各種模型去match樣本,拼命想找出配適度最大、解釋力最高的模型,當然這個模型是條件在既有500個樣本下的最佳解答,但充其量也只是身為正確答案的可能性比較高而已。因此如果用配適度最大的錯誤模型去預測下500個數值,就知道預言會失準了。

然而在解答尚未公佈前我們所能做的,也不過是猜「最可能」。反倒是那些猜中的人,他們毫無道理捨棄最可能的選項,只能算是運氣好。若猜個千五百回,勝負必然將回歸機率分配。

這份作業的啟示意義直到多年後我才明白。尤其在我所處的行業,無時無刻不在預測未來的經濟景氣、獲利數字和股價走勢,預測的方法儘管千千百百種,你都可以想成是一個個猜測模型,但我們不知道估計檢定方法不知道機率分配,而背後的老師永遠也不會公佈答案,甚至他從未許諾我們真正存在一「某個模型」。於是我們在集體接受某種暗示下,開始了一項永無止盡的作業。

具體一點說吧,謝林在《微觀動機與宏觀行為》的開場白中,引了這麼一件事。他某次應邀去演講,聽眾不少,卻全擠在後頭,前面數排空蕩蕩的沒有人坐。於是他想:這到底是什麼原因造成的?可能是聽眾「不想坐在前面幾排」,或他們「想坐在別人後面」,或他們只是「想靠別人的位子近一點」,或每個人「都想盡量看到整個會場」,或大多數人「已經養成自己的就坐習慣」,或他們「習慣從後排往前坐」……

可能性還可以無限展開,只要你夠創意。每個「」裡都是一條規則,你可以逐一驗證下去,然後發現有一大把規則都足以造成上述的後果。但是真正的原因也許只是其中的一項,或數種因素交合。簡單說,A可以導致B發生,B卻不一定是A造成的。回到猜模型作業,我們永遠可以猜出一缸子模型(A)解釋過去(B),但過去和未來卻未必然是其中的任何一個。

拿預測股價來說,由於股價隨機性太強不容易預測,於是有人想到:若能找到另一個變數A跟股價的相關性很高,但相對穩定且容易預測,那我們就可以間接透過A達到預測股價的目的。於是預測股價變成預測A及其與股價的關係。

最直觀的做法是拿A與股價畫成線圖,一比,果然很match。但兩者的關係是什麼呢?甲說:「當A超過15或低於0的時候股價會反轉」;乙:「A每兩年一個cycle」;丙:「A連續兩期上升或下降表示股價反轉」;丁:「當A累計上升或下降超過15即反轉」……和謝林的例子一樣,只要你夠創意永遠可以找出無限多種規則。這些規則自然都能解釋歷史數據,因此去跑回測,出來的結果一定很好,卻不一定真能預見未來。

這實在是一件很麻煩的事,尤其預測本身具有小樣本的特性。即使你猜對了模型,也只能保證若預測得次數夠多,就會是贏家。但現實上你通常只有幾次機會,結果猜錯模型的人矇到了,而你卻敗給了noise。更慘的是事後以貝氏機率來說,你對的機率還比人家低,於是所有人包括你也一定懷疑模型的正確性,最後正確的模型(如果有的話)也很可能被忽視棄置。

儘管如此,在有效預測驚人報酬的蠱惑下,仍然有無數人前仆後繼的猜猜猜呢!

沒有留言: