§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1702201716053600
DOI 10.6846/TKU.2017.00558
論文名稱(中文) 使用文字探勘結合多元有順序類別支持向量機預測股價漲跌趨勢之應用
論文名稱(英文) Text Mining Techniques incorporating Ordinal Multi-class Support Vector Machine on Stock Price Movement Prediction
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 1
出版年 106
研究生(中文) 黃筑均
研究生(英文) Jhu-Jyun Huang
學號 604650233
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-01-10
論文頁數 71頁
口試委員 指導教授 - 林志娟(117604@gms.tku.edu.tw)
委員 - 林志鴻(lin9015@mail.tku.edu.tw)
委員 - 張慶暉(chchang@mail.mcu.edu.tw)
關鍵字(中) 文字探勘
多元支持向量機
文件分類
股價預測
關鍵字(英) Text Mining
Multi-class Support Vector Machines
Document categorization
Stock Price Prediction
第三語言關鍵字
學科別分類
中文摘要
股市為反映國家經濟的一項指標,投資者最終希望的就是能從中獲取最大的報酬,傳統股價趨勢預測考量的五大層面為市場面、基本面、技術面、籌碼面以及財務面,近年來由於網路科技及社群網路的大眾化,投資人對於接收股市投資的行為訊息相較以往更為便利以及快速,而這些新聞以及社群網路文章中與未來股市新聞漲跌的相關關鍵詞也將會成為影響投資者未來的買賣策略的一個面向。本研究主要以新聞文章萃取出之關鍵詞結合傳統的技術指標作為分析資料,建立模型時以兩種不同的多元支持向量機建立股價漲跌趨勢的預測模型,研究發現多元有順序類別支持向量機模型(OMSVM)在所有模型中預測表現最好。
英文摘要
Stock market is an indicator to reflect the national economy. The ultimate goals of investors mostly are maximizing the returns. The forecast of stock price consists of five methods which are market analysis, fundamental analysis, technical analysis, chip analysis and financial analysis. Compared to the past, the investors receive information of stock market not only faster but also more convenient due to the popularization of interconnection networks and social networks. These terms of financial news articles on the network which are relevant to the trend of stock price have become a new implication. It would directly or indirectly affect investor’s trading decisions.This study used text mining techniques to extract the terms and combine the technical indicators. Two Multi-class Support Vector Machines (SVM) techniques are incorporated to analyze the stock news, build a forecasting model of stock price trend. It is found that OMSVM, which could handle multiple ordinal classes, outperformed among all the models.
第三語言摘要
論文目次
目錄
第壹章	緒論	1
第一節	研究背景與動機	1
第二節	研究目的		2
第貳章 文獻探討		3
第一節	新聞用以股價預測之相關文獻	3
第二節 文字探勘		4
第參章 研究方法		8
第一節 研究架構與流程	8
第二節	技術面		10
第一項 移動平均線	10
第二項 相對強弱指標	11
第三節	新聞文章探勘	11
第一項 中文斷詞		11
第二項 特徵詞選取	13
第三項 文章標記		15
第四節	支持向量機	16
第一項	二元支持向量機	17
第二項 多元支持向量機	23
第五節 模型評估		26
第肆章 實證結果		30
第一節	資料來源		30
第二節	資料預處理	31
第一項 中文斷詞		31
第二項 文章標記		31
第三項 分類機器		32
第三節 實證結果		33
第一項 斷詞		33
第二項	核函數選取結果	35
第三項	模型預測結果	36
第四項	實證結果綜效分析	53
第伍章 結論	61
第一節	結論與建議	61
第二節	未來研究方向	64
參考文獻			66
表目錄
表2-1-1常見已被開發的中文斷詞分詞器	6
表3-1-1評估準則		27
表4-1-1不同倒傳遞核函數參數在五次交叉驗證下的模型解釋能力	35
表4-2-1傳統多元支持向量機之預測表現 (變數為關鍵詞)	37
表4-2-2多元有順序類別支持向量機之預測表現(變數為關鍵詞)	39
表4-2-3兩種多元支持向量機分別的平均計算時間(變數為關鍵詞)	40
表4-3-1傳統多元支持向量機之預測表現 (變數為關鍵詞+MA)	42
表4-3-2多元有順序類別支持向量機之預測表現(變數為關鍵詞+MA)	43
表4-3-3兩種多元支持向量機分別的平均計算時間(變數為關鍵詞+MA)	43
表4-4-1傳統多元支持向量機之預測表現 (變數為關鍵詞+RSI)	46
表4-4-2多元有順序類別支持向量機之預測表現(變數為關鍵詞+RSI)	47
表4-4-3兩種多元支持向量機分別的平均計算時間(變數為關鍵詞+RSI)	47
表4-5-1傳統多元支持向量機之預測表現 (變數為關鍵詞+MA+RSI)	50
表4-5-2多元有順序類別支持向量機之預測表現(變數為關鍵詞+MA+RSI)	52
表4-5-3兩種多元支持向量機分別的平均計算時間(變數為關鍵詞+MA+RSI)	52
表4-6-1整體準確率 (變數為關鍵詞)		58
表4-6-2整體準確率 (變數為關鍵詞+MA)	58
表4-6-3整體準確率 (變數為關鍵詞+RSI)	58
表4-6-4整體準確率 (變數為關鍵詞+MA+RSI)	59
圖目錄
圖3-1研究方法架構流程圖	9
圖3-2新聞影響股價漲跌示意圖	16
圖3-3支持向量機分類示意圖		18
圖3-4非線性資料透過映射函數映射至特徵空間將資料分割示意圖	20
圖4-1傳統傳統多元支持向量機下不同標記門檻值下的個別F1值	54
圖4-2多元有順序類別支持向量機下不同標記門檻值下的個別F1值	56
參考文獻
中文文獻
1.	杜金龍 (1998),技術指標在台灣股市應用的訣竅,金錢文化企業股份有限公司。
2.	許菱祥 (1970),中文文法,臺北市:大中國圖書公司。
3.	陳稼興、謝佳倫、許芳誠 (2007),以遺傳演算法為基礎的中文斷詞研究,資訊管理學系,2(2),27-44。
4.	黄翼彪 (2013),開源中文分詞器的比較研究 (碩士,鄭州大學),資訊管理學系。
5.	喻欣凱 (2008),運用支援向量機與文字探勘於股價漲跌趨勢之預測 (碩士,輔仁大學),資訊管理學系。
6.	歐智民 (2010),整合文件探勘與類神經網路預測模型之研究-以財經事件線索預測台灣股市為例 (碩士,國立政治大學),資訊管理學系。 
7.	蔡瀚賢 (2001),成交量放大訊號及技術指標綜合策略在台灣股市之實證研究 (碩士,國立成功大學),企業管理學系。
8.	薛弘業 (2012),應用文字探勘文件分類分群技術於股價走勢預測之研究─以台灣股票市場為例 (碩士,國立政治大學),資訊管理學系。
9.	鍾任明、李維平、吳澤民 (2007),運用文字探勘於日內股價漲跌趨勢預測之研究,中華管理評論國際學報,10(1),1-30。
英文文獻
1.	Ahmad, K., Oliveira, P. C. F. D., Manomaisupat, P., Casey, M. & Taskaya, T. (2002). Description of events: An analysis of keywords and indexical names. Proceedings of the third international conference on language resources and evaluation. Workshop on event modeling for multilingual document linking, 29-35.
2.	Bernhard, S. & Burges, C. J. (1999). Advances in kernel methods: Support vector learning. Cambridge, MA: MIT press.
3.	Chen, K., & Liu, S. (1992). Word identification for mandarin Chinese sentences. Proceedings of the 14th Conference on Computational Linguistics-Volume 1, 101-107. 
4.	Friedman, J. (1996). Another approach to polychotomous classification. (Department of Statistics, Technical report, Stanford University). Retrieved from http://www- stat.stanford.edu/~jhf/ftp/poly.ps.Z.
5.	Fung, G. P. C., Yu, J. X., & Lam, W. (2002). News sensitive stock trend prediction. Proceedings of the 6th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining, 481-493.
6.	Fung, G. P. C., Yu, J. X., & Lam, W. (2003). Stock prediction: Integrating text mining approach using real-time news. Computational Intelligence for Financial Engineering, Proceedings. IEEE International Conference on, 395-402. 
7.	Gidofalvi, G. (2001). Using news articles to predict stock price movements. (University of California,San Diego). Department of Computer Science and Engineering.
8.	Graf, I., Kressel, U., & Franke, J. (1997). Polynomial classifiers and support vector machines. International Conference on Artificial Neural Networks (397-402), Springer -Verlag, Berlin, Germany. 
9.	Herbrich, R. (2001). Learning kernel classifiers: Theory and algorithms. Cambridge, MA: MIT press.
10.	Hsu, C. W., Chang, C. C., & Lin, C. J. (2003). A practical guide to support vector classification. Department of Computer Science. National Taiwan University. 
11.	Keerthi, S. S., & Lin, C. (2003). Asymptotic behaviors of support vector machines with gaussian kernel. Neural Computation, 15(7), 1667-1689. 
12.	Kim, H. S., & Sohn, S. Y. (2010). Support vector machines for default prediction of SMEs based on technology credit. European Journal of Operational Research, 201(3), 838-846. 
13.	Kim, K., & Ahn, H. (2012). A corporate credit rating model using multi-class support vector machines with an ordinal pairwise partitioning approach. Computers & Operations Research, 39(8), 1800-1811.
14.	Klautau, A., Jevtić, N., & Orlitsky, A. (2003). On nearest-neighbor error-correcting output codes with application to all-pairs multiclass support vector machines. Journal of Machine Learning Research, 4(Apr), 1-15. 
15.	Kresel, U. H. (1999). Pairwise classification and support vector machines. Advances in Kernel Methods (255-268), Cambridge, MA: MIT Press.
16.	Lavrenko, V., Schmill, M., Lawrie, D., Ogilvie, P., Jensen, D., & Allan, J. (2000). Mining of concurent text and time series. Conference on Knowledge Discovery and Data Mining Workshop on Text Mining, Boston. 37-44. 
17.	Lin, H., & Lin, C. (2003). A study on sigmoid kernels for SVM and the training of non-PSD kernels by SMO-type methods. (Department of Computer Science and Information Engineering, Technical report, National Taiwan University). Retrieved from http://www.csie.ntu.edu.tw/~cjlin/papers/tanh.pdf
18.	Mittermayer, M. (2004). Forecasting intraday stock price trends with text mining techniques. System Sciences, Proceedings of the 37th Annual Hawaii International Conference on. doi: 10.1109/HICSS.2004.1265201
19.	Murphy, J. J. (1999). Technical analysis of the financial markets: A comprehensive guide to trading methods and applications. Prentice Hall Pr. 
20.	Platt, J. C., Cristianini, N., & Shawe-taylor, J. (2000). Large margin DAG's for multiclass classification. Advances in Neural Information Processing Systems (12, 547-553), Cambridge, MA: MIT Press. 
21.	Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), 257-286. 
22.	Schutze, H. (2008). Introduction to information retrieval. Baker & Taylor Books.
23.	Sproat, R. (1990). A statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese &Oriental Languages,4(4), 336-351
24.	Vapnik, V. (1998). Statistical learning theory. Wiley, New York.
25.	Vladimir, V. N., & Vapnik, V. (1995). The nature of statistical learning theory. New York: Springer Heidelberg. 
26.	Wilder, J. W. (1978). New concepts in technical trading systems. Trend Research. 
27.	Yeh, C., & Lee, H. (1991). Rule-based word identification for mandarin Chinese sentences-A unification approach. Computer Processing of Chinese and Oriental Languages, 5(2), 97-118.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後3年公開
校外
同意授權
校外電子論文於授權書繳交後3年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信