淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-0708200703421100
中文論文名稱 資料探勘應用在偵測電信系統之賴帳行為
英文論文名稱 The Detection in Telecoms Business by Data Mining Approach
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士在職專班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 95
學期 2
出版年 96
研究生中文姓名 羅宸逸
研究生英文姓名 Chen-Yi Lo
學號 793190207
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2007-06-14
論文頁數 67頁
口試委員 指導教授-陳伯榮
委員-王鄭慈
委員-蔣定安
中文關鍵字 電話盜撥  賴帳行為  關聯式法則  叢集化 
英文關鍵字 telephony fraud  denying the bills 
學科別分類 學科別應用科學資訊工程
中文摘要   政府因應電信產業市場發展,將電信產業開放民營,業者莫不投入相關通訊科技技術發展及各樣通訊科技產品,也因此業者間市場競爭也越趨激烈。業者為了提高顧客滿意度及忠誠度,並將客戶流失度降到最低的目標下,推出各類服務及促銷方案,目的即是為了保有自身在行動通訊市場的利益。
  而正因電信市場的龐大商機,各業者費盡心思爭取更多的用戶數以維持自身收益。然而不法集團運用不正當手段進行電話盜撥,早已獲取暴利,形成電信業者莫大損失。我們研究業者呆帳中的賴帳行為,也就是拒繳費用與延遲付費。賴帳行為雖不會對電信業者有立即且明顯的損失,但會造成其他成本增加與設備佔用等問題。
  在本論文中,我們使用了IM8.1(Intelligent Miner for Data 8.1),運用資料挖掘的技術,將客戶資料庫及歷史資料做關聯式法則(association rules)與叢集化(Data Clustering)的相關分析運算,並將其規則存放入資料庫,預測存在高度風險之客戶,提升業者決策品質,降低業者呆帳損失。
英文摘要 Because of the prosperous development of the telecommunication market, all companies all try their best to increase more customers and business to maintain their profit. At the same time, there exit many illegal groups are using a variety of tricks to execute telephony fraud to earn a lot of money and cause much loss for telecommunication companies. Telephony fraud is about 2% of total phone bill income for telecommunication companies. If the average bill 80 US dollars for a phone user, there are about 100,000 customers for a company, the phony fraud will cause telecommunication companies 1,920,000 US dollars loss per year. Based on the loss, it is a very serious problem. There are many ways to cause not paying bills, refusing to pay the bill and not paying the bill on time are two types of them. We call these two types “denying the bills”. If we can use the analysis technology of data mining effectively, analyze the customers database and their historical billing information, we should predict the character of high risk customers from analysis results. It can be applied to promote the decision making quality and competition capabilities. Therefore effective risk management can be conducted in a very short time to prevent losing customers and lower the bill loss. There are a lot of researches about fraud study proposed by many scholars. But there is little about behaviors of not paying the bills. The situation about not paying the bills is not like fraud, but it causes the telecommunication companies a lot obvious amount of loss. It also causes other loss for telecommunication companies, such as: cash flow decrease, manpower of urging customers paying bill increase, mobile base system occupation and customers’ loss. Therefore, the way to detect possible customers who will not pay the bills is the main goal of our system.
論文目次 目 錄
1. 緒論 1
1.1 前言 1
1.2 研究動機與目的 1
1.3 論文架構 2
2. 相關背景知識 4
2.1 資料探勘的功能 4
2.2 資料探勘演算法應用 7
2.2.1 關聯規則(Association Rule) 7
2.2.2 叢集化(Data Clustering) 8
2.2.3 詐欺叢集化較佳成果 10
2.2.4 決策樹(Decision Tree) 11
3. 架構與流程 12
3.1 目標 12
3.2 系統架構 13
3.3 資料來源與預備 14
3.4 系統執行流程 19
3.5 資料建置 27
4. 模型執行流程 30
5. 執行結果與實際驗證 32
5.1 執行結果 32
5.2 叢集結果分析 34
5.2.1 欄位說明 34
5.2.2 資料瀏覽 36
5.2.3 叢集特徵描述 37
5.3 實際驗證結果 40
6. 結論及未來發展 42
6.1 結論 42
6.2 未來發展方向 42
7. 參考文獻 43
8. 附錄 47
9. 英文論文 54

表目錄
表2-1 : 新付費狀態=(預測付費月份-帳單月份+1)+新付費狀態。 8
表3-1 : 電話盜撥行為類型 12
表3-2 : 偵測電信詐欺模型原始CDR資料格式 15
表3-3 : 偵測電信詐欺模型原始CDR付費狀況資料格式 15
表3-4 : 偵測電信詐欺模型原始客戶基本資料格式 16
表3-5 : 系統資料表格說明 20
表3-6 : ETL轉換後之重要衍生屬性欄位 23
表3-7 : 初始化資料準備狀況 28
表3-8 : 第一付費週期一般性作業資料建置說明 29
表5-1 : 資料統計筆數 32
表5-2 : 付費樣式對應表 33
表5-3 : 叢集分析之作用欄位 34
表5-4 : 叢集分析之補充欄位 35
表5-5 : 實際驗證統計資料 40
表5-6 : 彙整平均準確率 41
表8-1 : 偵測電信詐欺模型匯入CDR資料細部說明 47
表8-2 : 偵測電信詐欺模型匯入客戶基本資料細部說明 48
表8-3 : 偵測電信詐欺模型匯入CDR付費狀況資料細部說明 49
表8-4 : 詐欺偵測模型資料 49
表8-5 : 詐欺偵測模型名單 50
表8-6 : CDR與BASE統計資料 50
表8-7 : CDR與BASE分析處理資料 51
表8-8 : 撥話號碼資料分析表 52
表8-9 : 撥話號碼資料分析表 53

圖目錄
圖3-1 : 偵測電信詐欺模型系統架構圖 13
圖3-2 : 偵測電信詐欺模型資料來源 15
圖3-3 : 偵測電信詐欺系統執行流程圖 21
圖3-4 : 資料時間歪斜 24
圖3-5 : 資料時間拉平 24
圖3-6 : 偵測電信詐欺模型10個分析模型切割 25
圖3-7 : 偵測電信詐欺模型實際分析模型切割 25
圖4-1 : 偵測電信詐欺模型Rule Base產生流程 31
圖5-1 : 叢集分析當中所使用到的欄位 36
圖5-2 : 叢集分析結果瀏覽 37
圖5-3 : 叢集[18] 23 38
圖5-4 : 叢集[27] 33 39
參考文獻 [1] 謝邦昌, “Microsoft SQL Server 2005 Data Mining 演算法 – 資料採礦產業應用實務”, 2007
[2] “資料探勘知識分享”, Uniminer 探宇科技股份有限公司, http://www.uniminer.com/center01.htm, 2006
[3] 丁一賢、陳牧言合著,「資料探勘Data Mining」,滄海書局,ISBN 9867777980,民92年。
[4] 彭文正博士譯 ,「資料採礦—顧客關係暨電子行銷之應用」維科圖書,ISBN 9578675755,民90年。
[5] 中華資料採礦協會網站。
[6] J.R Quinlan, “Induction of Decision Tree.” Machine Learning,vol. 1 no. 1, 1996.
[7] J.R Quinlan, “C4.5:Programs for machine Learning” , San Mateo, Calif.:Morgan Kaufmann, 1993.
[8] Stuart Russell, Peter Norving, “Artifical Intelligence a Modern Approach.” Prentice-Hall Internation Editions.
[9] R. Agrawal, T. Imielinski, A. Swami, “Mining Association Rules between Sets of Items in Large Databases,” Proceedings of the 1993 ACM SIGMOD Conferencen on Management of Data, Washington D.C., May 1993.
[10] R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, and A. I. Verkamo, “Fast Discovery of Association Rules,” Advances in Knowledge Discovery and Data Mining, U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, eds., AAAI/MIT Press, 1996.
[11] J. S. Park, M. S. Chen, and P. S. Yu, “Using a Hash-Based Method with Transaction Trimming for Mining Association Rules,” IEEE Transactions on Knowledge and Data Engineering, Vol. 9, 1997.167.
[12] 謝宗翰,”關聯式法則之複合式後項探勘演算法”,淡江大學資訊工程學系,2004。
[13] Porter, M. E. ,“Conpetitive strategy:Techniques for Analyzing Industrial and Competitions”, NY:Free Press, 1980
[14] Michiaki Taniguchi, Michael Haft, Jaakko Hollmen, Volker Tresp, “Fraud Detection In Communication Networks Using Neural And Probilistic Methods”, Proceedings of the 1998 IEEE International Conference on , Volume: 2 , 12-15 May 1998
[15] 中華民國交通部電信總局
[16] 電信經營業者的痛-電話盜撥(1998, November),台灣通訊雜誌,92-95。
[17] Results of Worldwide Telecom Fraud Survey. (2003, March). Communications Fraud Control Association. http://www.cfca.org/pressrelease/Fraud-Loss%20%20press%20release%203-03.doc.
[18] Fawcett T. & Provost F.. (1997). Adaptive fraud detection, Data Mining and Knowledge Discovery, vol. 1(3)
[19] Michael H. Cahill, Diane Lambert, Jos´e C. Pinheiro, & Don X. Sun. (2002). Detecting Fraud In The Realworld, Handbook of Massive Data Sets (Massive Computing, 4), Kluwer Academic Publishers. pp. 911-929.
[20] L. Kaufman and P. J. Rousseedw, “finding groups in data:an Introduction to cluster analysis”John Wiley and Sons, 1990
[21] Michael Collins. (1999). Telecommunications Crime – Part 1, Computers & Security
[22] Jiawei Han & Micheline Kamber. (2001). So, What Is Data Mining?, Data Mining – Concepts and Techniques, Morgan Kaufmann.
[23] Michael J.A.Berry, Gordon S. Linoff, “Data Mining”, Wiley, 1997
[24] David West. (2000, July). Battle Tactics -Fighting Fraud with Common Sense, Telecom Business Magazine, http://www.equinoxis.com/battle-tactics.html.
[25] Corinne Baragoin, Christian M. Andersen, Stephan bayerl, Graham Bet, Jieun Lee, Christoph Schommer.“ Mining Your Own Business in Telecoms Using DB2 Intelligent Miner for Data”, International Technical Support Organization, August 2001.
[26] Chih-Sung Chang, “Fraud detection in telecom industry. “, Department of Computer Science and Information Engineering. Ta
University, 2004.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2007-08-16公開。
  • 同意授權瀏覽/列印電子全文服務,於2007-08-16起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信