關(guān)聯(lián)規則在股票分析及預測中的應用論文

時(shí)間:2022-07-03 13:13:08 股票 我要投稿
  • 相關(guān)推薦

關(guān)聯(lián)規則在股票分析及預測中的應用論文

  摘要:證券市場(chǎng)中的漲跌起伏往往是瞬息萬(wàn)變的,盡管如此,它還是存在著(zhù)一定的規律:在某一段時(shí)間中,如果A股票出現上漲趨勢,則B股票必然會(huì )隨之上漲;如果A股票在tl時(shí)刻出現上漲趨勢,B股票在t2時(shí)(t2>tl)刻出現上漲趨勢,則C股票必然會(huì )在t3(t3>t2)時(shí)刻上漲。前一條規律能夠用來(lái)對股票之間的相互關(guān)系進(jìn)行分析,后一條規律能夠用來(lái)對股票的漲跌進(jìn)行預測,這些規律在投資者的實(shí)際決策過(guò)程中有著(zhù)重要的參考價(jià)值和指導作用。

關(guān)聯(lián)規則在股票分析及預測中的應用論文

  關(guān)鍵詞:數據關(guān)聯(lián)規則股票分析預測

  1、選取數據

  如果上市公司所經(jīng)營(yíng)的業(yè)務(wù)是相同或相近的,則在一段時(shí)間內股票價(jià)格的走勢就會(huì )呈現出相似性;在一定時(shí)間內,屬于同一個(gè)區域的上市公司也會(huì )受到區域經(jīng)濟政策的直接影響,也會(huì )呈現出大體相同的變化形勢;如果上市公司之間具有關(guān)聯(lián)交易,相互持股、控股,則它們之間也會(huì )產(chǎn)生某種相互作用[37]。上述規則能夠通過(guò)關(guān)聯(lián)規則分析來(lái)發(fā)現,然而更重要的是發(fā)現另一種表面上沒(méi)有很強的相關(guān)性、但實(shí)際的股票價(jià)格卻具有很大關(guān)聯(lián)的規則。

  設股票行情數據D={X1,X2,…,Xi,…,Xn。},其中Xi(1本文選取的研究對象是滬深300指數成分股,樣本時(shí)間是從2010年9月2日到2011年9月1日一年的數據。本文選取滬深300指數成分股為研究對象的主要原因具體如下:滬深300指數包含了各個(gè)行業(yè)的股票,并且覆蓋了滬深兩市60%以上的市值,將各個(gè)行業(yè)中規模較大,流動(dòng)性較好的股票都包含在內;滬深300指數成分股包含了滬深股市中上市1個(gè)季度以上,而且不包含ST和*ST的股票,公司的經(jīng)營(yíng)情況一直很好,在一年內沒(méi)有發(fā)生過(guò)較重大的違法情況,股票價(jià)格也沒(méi)有明顯的異常波動(dòng)等因素;滬深300指數從2006年編制以來(lái),一直都是衡量上海和深圳股票市場(chǎng)的重要指標。綜合上述分析可知,滬深300指數成分股能很好反映出上海和深圳證券市場(chǎng)的總體特征,具有很強的代表性。

  選取樣本時(shí)間從2010年9月2日到2011年9月1日這段時(shí)間的主要原因是:在這段時(shí)間中,大盤(pán)經(jīng)歷了上漲波段和下跌波段,滬深300指數最低到1598,最高達3256,而且上漲時(shí)間和下跌時(shí)間大致相同。本文數據均來(lái)源于CASMAR數據庫,著(zhù)重考慮股票價(jià)格變化之間存在的關(guān)聯(lián)關(guān)系,由于一天中股票價(jià)格有很多種,本文主要考慮的是收盤(pán)價(jià)。因此原始數據包含日期、股票代碼、收盤(pán)價(jià)三個(gè)變量,經(jīng)過(guò)處理數據中共有71268條記錄。

  2、數據預處理

  數據預處理是指在主要的處理以前對數據進(jìn)行的一些處理。在我們實(shí)際生活的世界中,數據大多數都是不完整并且不一致的,根本沒(méi)有辦法直接使用數據挖掘方法,或者會(huì )導致挖掘的結果不能讓人滿(mǎn)意。為了能夠有效的將數據挖掘的質(zhì)量提高,數據預處理技術(shù)便在這種形勢下產(chǎn)生了。數據預處理的方法有很多,具體包括:數據清理,數據集成,數據歸約,數據變換等[38]。在對數據進(jìn)行挖掘之前,使用這些數據處理技術(shù),能夠在很大程度上提高數據挖掘模式的質(zhì)量,并且有效的減少挖掘所使用的時(shí)間。我們所要研究的是在一段時(shí)間內,股票價(jià)格變動(dòng)之間存在的關(guān)聯(lián)關(guān)系,因此只需對那些對投資有參考價(jià)值的數據進(jìn)行研究。在投資過(guò)程中,關(guān)系到投資者收益的重要指標是收益率,在數據挖掘中所選用的是每天的漲跌幅。首先以收盤(pán)價(jià)為依據,將每日的漲跌幅計算出來(lái),日漲跌幅就是當日收盤(pán)價(jià)和上一個(gè)交易日收盤(pán)價(jià)之差與上一個(gè)交易日收盤(pán)價(jià)之比。計算公式如下:

  在分析過(guò)程中我們所感興趣的是那些每天的漲跌幅大于一定幅度的股票,因為在股票市場(chǎng)中,大多數股票會(huì )隨著(zhù)大盤(pán)指數的漲跌而不斷發(fā)生變化,多數股票都會(huì )在大盤(pán)指數漲跌幅進(jìn)行上下波動(dòng),所以只有漲跌幅超過(guò)一定范圍的股票才具有研究意義。因此我們在進(jìn)行分析之前,引入最小日漲跌幅Min-UpRat。最小日漲跌幅的值是以具體的股票行情為依據并由用戶(hù)確定的,本文選取Min-UpRat為3%,這主要是從以下幾個(gè)方面考慮:現階段,中國的證券市場(chǎng)還處于發(fā)展階段,尚不成熟。股票在牛市中會(huì )存在隨大盤(pán)指數普遍上漲的情況,因此只有對那些漲勢較為劇烈的股票進(jìn)行分析研究才會(huì )有實(shí)際意義。大部分股票在熊市中會(huì )出現普遍下跌的情況,出現上漲形勢的股票只有極少的一部分,漲勢能達到3%漲幅的股票更是少之又少。

  在樣本中添加一個(gè)新的變量,極為win,當日漲跌幅大于最小日漲跌幅min-UpRat時(shí),win就記為1,日漲跌幅小于或等于最小日漲跌幅min-UpRat時(shí),win就記為0。在原始數據中,交易日期均為10個(gè)字符的字符型變量,共有244天。眾所周知,在進(jìn)行數據挖掘時(shí),字符長(cháng)度較大會(huì )占用大量的內存,因此應該盡量用簡(jiǎn)短的數據型變量來(lái)對其進(jìn)行替換。所以為了節省空間進(jìn)而提高運行的效率,我們重新對交易時(shí)間變量進(jìn)行編碼,用1,2,…,244來(lái)標記。將股票代碼均變?yōu)?位字符的字符型數據,共有300只股票,分別用1,2,…,300標識。在進(jìn)行關(guān)聯(lián)規則挖掘時(shí),直接處理對象是股票和日期的新編碼,間接處理對象是股票代碼和交易日期,這樣便可有效減少內存的占用,有利于提高挖掘效率。選取的原始數據有字符型證券代碼,字符型交易日期,數值型收盤(pán)價(jià),最后對對原始數據進(jìn)行變換和預處理,然后計算出每個(gè)交易日各只股票的漲跌幅,保留win等于1(也就是日漲跌幅大于3%)的記錄,最終整理得出關(guān)聯(lián)規則模型預處理后的數據。

  3、數據探索

  一般情況下,在進(jìn)行數據挖掘之前可以先對數據進(jìn)行初步探索,用描述性統計方法對數據進(jìn)行初步的分析,從而對滬深300指數的一些基本性質(zhì)進(jìn)行簡(jiǎn)單的了解。通過(guò)整理可以看出,從2010年9月2日到2011年9月l日這一年時(shí)間內,滬深300指數從2689.5下跌到了1599.6,而后又上升到3279.5。雖然股票指數有某種程度的變化和波動(dòng),但是總體變化趨勢是先下跌而后上漲。這種情況表明,在這一年中由于受到全球經(jīng)濟的影響,股票市場(chǎng)先逐漸下降,隨著(zhù)中國各項經(jīng)濟政策的一系列措施的實(shí)施,中國證券市場(chǎng)又出現了回升的趨勢。

  參考文獻:

  [1]劉瀅.數據挖掘在股票預測中的應用[D].長(cháng)春理工大學(xué).2010.

  [2]楊希.基于數據挖掘的股票預測研究[D].長(cháng)春理工大學(xué).2008.

【關(guān)聯(lián)規則在股票分析及預測中的應用論文】相關(guān)文章:

股票中的波段及其應用介紹07-04

條碼技術(shù)在物流管理中的應用分析論文07-04

怎樣分析股票突破行情中的買(mǎi)點(diǎn)07-04

自動(dòng)識別技術(shù)在物流管理中的應用分析論文07-04

電子技術(shù)在電力能源計量管理中的應用分析論文07-04

新時(shí)期企業(yè)管理中的激勵機制應用分析論文07-04

基于乘用車(chē)消費中的股票財富效論文07-03

股票頂部技術(shù)分析07-04

股票的投資策略分析05-16

漲停股票的選擇分析07-04

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆