系統識別號 | U0002-2908200514325500 |
---|---|
DOI | 10.6846/TKU.2005.00747 |
論文名稱(中文) | 應用隨機時間過程派翠網路建立網頁架構模型 |
論文名稱(英文) | Constructing Web Page Structure Model By Stochastic Timed Petri Nets |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊工程學系碩士班 |
系所名稱(英文) | Department of Computer Science and Information Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 93 |
學期 | 2 |
出版年 | 94 |
研究生(中文) | 陳清祥 |
研究生(英文) | Ching-Shyang Chen |
學號 | 792190059 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2005-06-20 |
論文頁數 | 79頁 |
口試委員 |
指導教授
-
陳伯榮(pozung@cs.tku.edu.tw)
委員 - 趙景明 委員 - 洪文斌 委員 - 陳伯榮 |
關鍵字(中) |
網頁使用習性探勘 網頁架構模型 超連結 隨機時間過程派翠網路 |
關鍵字(英) |
Web Usage Log Web Usage Mining Web Structure Stochastic Timed Petri Nets Session Identification |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
網頁使用習性探勘的研究,藉由分析使用者瀏覽記錄(Web Usage Log)及相關數據資料,可以提供客戶的行為模式分析或網頁架構調整等應用。本論文說明如何分析網站的網頁靜態架構,建立隨機時間派翠網路(STPN)模型,利用其可到達行為特性,來協助使用者辨識(User Identification)、區段辨識(Session Identification)等分析作業。 關於網頁使用習性探勘的方法研究,一般都是分析使用者瀏覽記錄,但因忽略了網頁架構的分析,而影響模式發掘的正確性。而網頁架構是以超連結( Hyper-Link ) 的方式組成,一個複雜的網頁架構內容,並無法以簡單的樹結構 ( Tree ) 或其他圖形資料結構來描述。本研究說明如何分析網頁內容架構,以隨機時間過程派翠網路作為網頁架構的學理模型,於分析網頁內容的過程中,建立隨機過程時間派翠網路。 |
英文摘要 |
The research on web usage mining provides the applications, such as behavior scheme analysis and web structure adjustment by analyzing the Web Usage Log and related data. This paper describes how to parse the static structure of a web, establish the Stochastic Timed Petri Nets model and apply its accessible-behavior feature to assist the web usage mining procedures like User Identification, Session Identification, Usage Pattern Discovery, etc. |
第三語言摘要 | |
論文目次 |
目錄 表目錄 iv 圖目錄 v 網頁架構圖 vii 1. 緒論 1 1.1. 研究背景 1 1.2. 研究動機 1 1.3. 研究目的 1 1.4. 論文架構 2 2. 背景知識 3 2.1. 網頁連結 3 2.1.1. Anchor頁面連結 3 2.1.2. Frameset頁框集 5 2.1.3. Frame 頁框連結 7 2.1.4. Inline Frame內嵌式頁框連結 11 2.1.5. Form表單連結 13 2.2. 網頁架構圖 14 2.3. 隨機時間過程時間派翠網路STPN 16 2.3.1. 隨機過程時間派翠網路的定義 16 2.3.2. STPN的運作規則 18 3. 研究方法 21 3.1. 網頁連結分析 22 3.1.1. 網頁架構圖與STPN對照 22 3.2. HTML語法與STPN對照 22 3.2.1. 頁面連結轉換 22 3.2.2. 頁面轉換為頁框集 23 3.2.3. 頁框集轉換為頁面 24 3.2.4. 頁框集間的轉換 25 3.2.5. 頁面轉換為內嵌頁框連結 28 3.2.6. 表單連結轉換 28 3.2.7. 網頁內容展開分析 29 3.3. 讀取網頁內容及儲存資料 31 3.3.1. 讀取網頁內容 31 3.3.2. 儲存網頁內容資料 32 3.3.3. site_spider 演算法 34 3.4. 建立STPN關連矩陣 36 3.4.1. 關連矩陣值的計算 36 3.4.2. build_place_tran演算法 36 4. 實作與分析 39 4.1. 資料名稱定義 39 4.1.1. 資料型別定義 45 4.1.2. 系統全域變數 47 4.2. 程式清單 47 4.2.1. 系統流程圖 48 4.2.2. 演算法 site_spider 53 4.2.3. 演算法 read_web_page 54 4.2.4. 演算法 build_place_tran 56 4.2.5. 演算法 navigate_page 57 4.2.6. 演算法 navigate_frame 58 4.2.7. 演算法 build_web_struct 60 4.3. 資料庫設計 62 4.3.1. Table Schema 62 4.4. 實例說明 -簡單網頁 65 4.5. 實例複雜網頁 68 4.5.1. 複雜網頁的範例資料 74 5. 結論與未來研究方向 77 參考文獻 78 表目錄 表2-1 複雜網頁內容表 16 表3-1 HTML-STPN網頁連結轉換 23 表3-2 HTML-STPN頁面轉換為頁框集 24 表3-3 HTML-STPN 頁框集轉換為頁面 25 表3-4 HTML-STPN 頁框集轉換為頁框集 26 表3-5 HTML-STPN 頁框集轉換為頁框集(2) 27 表3-6 HTML-STPN 網頁連結轉換為內嵌頁框 28 表3-7 HTML-STPN 表單連結轉換 29 表3-8 網頁內容讀取方式比較表 32 表3-9 HTML連結屬性名稱 33 表3-10 HTML連結屬性清單 34 表4-1 簡單網頁的派翠網路系統狀態值 67 表4-2 簡單網頁的位置轉換表 68 表4-3 複雜網頁內容表 68 表4-4 複雜網頁的派翠網路系統狀態值 72 表4-5 複雜網頁的位置轉換表 72 表4-6 網頁內容範圍資料表(複雜網頁) 73 表4-7 網頁內容範圍展開(複雜網頁) 73 圖目錄 圖2-1 簡單網頁架構圖(DIRECTED GRAPH) 15 圖2-2 複雜網頁架構圖 16 圖2-3 STPN PLACE的表示圖 17 圖2-4 STPN TRANSITION的表示圖 17 圖2-5 STPN PLACE-TRANSITION表示圖 18 圖3-1 COOLEY的網頁探勘處理程序圖 21 圖3-2 HTML頁面連結轉換 22 圖3-3 HTML頁面轉換為頁框集 23 圖3-4 HTML頁框集轉換為頁面 24 圖3-5 HTML頁框集轉換 25 圖3-6 HTML頁框集轉換 (2) 26 圖3-7 STPN PLACE ALIAS 27 圖3-8 HTML頁面轉換為內嵌頁框 28 圖3-9 HTML表單連結轉換 29 圖3-10 視窗名稱與網頁內容辨識 30 圖3-11 無限深度的網頁內容範圍 31 圖3-12 SITE SPIDER 流程圖 35 圖3-13 建立STPN關連矩陣的流程圖 37 圖4-1 UML物件關連圖 45 圖4-2 系統方塊圖 48 圖4-3 流程圖 SITE_SPIDER 48 圖4-4 流程圖 READ_WEB_PAGE 49 圖4-5 流程圖 PARSING_HTML 49 圖4-6 流程圖 INSERT_LINK 50 圖4-7 流程圖 BUILD_PLACE_TRAN 50 圖4-8 流程圖 BUILD_WEB_STRUCT 51 圖4-9 流程圖 NAVIGATE_PAGE 51 圖4-10 流程圖 NAVIGATE_FRAME 52 圖4-11 資料庫關連圖 62 圖4-12 簡單網頁架構圖(DIRECTED GRAPH) 65 圖4-13 簡單網頁架構圖(STPN) 66 圖4-14 複雜網頁架構圖 (PAGEVIEW) 69 圖4-15 複雜網頁架構圖(STPN) 70 網頁架構圖 網頁架構圖 1 6 網頁架構圖 2 6 網頁架構圖 3 7 網頁架構圖 4 8 網頁架構圖 5 9 網頁架構圖 6 9 網頁架構圖 7 9 網頁架構圖 8 10 網頁架構圖 9 10 網頁架構圖 10 11 網頁架構圖 11 12 網頁架構圖 12 12 網頁架構圖 13 13 網頁架構圖 14 14 網頁架構圖 15 14 |
參考文獻 |
[1] Jaideep Srivastava, Robert Cooley, Mukund Deshpande, and Pan-Ning Tan, “Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data”, SIGKDD Explorations, Vol.1, Issue 2, pp12-23, Jan. 2000. [2] Configuration File of W3C http, 1995 http://www.w3c.org/Daemon/User/Config/. [3] A. Buchner, M. Mulvenna, “Discovering Internet Marketing Intelligence through Online Analytical Web Usage Mining”, SIGMOD Record, Vol.27, No.4, pp.54-61, Dec.1998. [4] Robert Cooley, Pang-Ning Tan, Jaideep Srivastava, ”Discovery of Interesting Usage Patterns from Web Data”, Lecture Notes in Computer Science, 2000. [5] Peter Pirolli, James Pitkow, Ramana Rao , “Silk from a Sow’s Ear:Extracting Usable Structures from the Web”, Conference on Human Factors in Computing Systems, CHI-96, 1996. [6] Myra Spiliopoulou, Carsten Pohle, Lukas C. Faulstich, “Improving the effectiveness of a web site with web usage mining”, WEBKDD, 1999. [7] Jeffrey Heer, Ed H. Chi, “Identification of Web User Traffic Composition using Multi-Modal Clustering and Information “, In Proceedings of the 1st SIAM International Conference on Data Mining Workshop on Web Mining, pp.51-58, 2001. [8] W3C 1999 HTML 4.01 SPEC http://www.w3.org [9] Robert Cooley “The Use of Web Structure and Content to Identify Subjectively Interesting Web Usage Patterns”, ACM Transactions on Internet Technoloey, Vol.3, No.2, ppP.93-116, May 2003. [10] W. Reisig, “Correctness Proofs of Distributed Algorithms,” Lecture Notes in Computer Science, Vol. 938:Theory and Practice in Distributed Systems, pp.164-177, 1995. [11] Tadao Murata, “Petri Nets: Properties, Analysis and Applications,” Proceedingsof the IEEE, Vol. 77, No. 4, 1989. [12] M. Ajmone Marsan, “Stochastic Petri Nets: An Elementary Introduction,” Lecture Notes in Computer Science, Vol. 424:Advances in Petri Nets 1989, pp. 1-29, 1990. [13] S. R. Kosaraju, “Decidability of reachability in vector addition systems,” in Proc. 14th Annual ACM Symp.on Theory of Computing, San Francisco, pages. 267-281,May 1982. [14] Ernst W. Mayr, “An algorithm for the general Petri net reachability Problem,” SIAM, J. Comput. Vol. 13, No. 3, pages. 441-460, August 1984. [15] Site Spider / Web Robot http://www.robotstxt.org/wc/faq.html [16] Sun Micro Java Developer Kit http://java.sun.com [17] MySQL Database http://www.mysql.com [18] HTML Parser http://sourceforge.net/htmlparser |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信