淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-0806200511192400
中文論文名稱 具結構描述之物件比對
英文論文名稱 Detection of duplicates in structured objects
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 93
學期 2
出版年 94
研究生中文姓名 林志龍
研究生英文姓名 Chih-Lung Lin
學號 692521288
學位類別 碩士
語文別 中文
口試日期 2005-05-21
論文頁數 39頁
口試委員 指導教授-魏世杰
委員-陳彥良
委員-莊裕澤
委員-趙志民
中文關鍵字 物件比對  物件結構  缺值 
英文關鍵字 duplicate detection  structure of objects  missing value 
學科別分類 學科別社會科學管理學
學科別社會科學資訊科學
中文摘要 本文提出一個可以在具結構描述之物件中找出重複物件的方法。因為在比對找尋過程,物件結構與元素的缺值對物件相似與否會有影響。物件結構欄位不同,在比對時有不同的重要度;物件元素的缺值則會影響我們對物件的瞭解,缺值愈多,對物件的認識度愈低,可參考的資訊也愈少。所以本文針對物件結構採權重差異化,對元素缺值採可信度值處理,再以匯總的方式對比對之物件產生一匯總相似值,以判斷兩物件是否為重複物件。最後,以通訊錄匯總及人口普查實驗例子證實本方法可以有效的提升物件比對之準確率及召回率。
英文摘要 We propose a method for detecting the duplicates in structured objects. The structure of objects and the missing value of elements in objects are very important for detecting the duplicates. Different elements in a structured object have different importance in detecting duplicates. The missing value of elements influence us in understanding objects. The more of missing value, the less we understand the objects , and the less its reference value. So, we adopt the different weighting scheme of the structure of the object and compute the confidence value for missing values. Then, we summarize the similarity value and the confidence value of the two objects to decide if they are duplicates or not. Finally, we experiment with the synthetic addressbook and census datasets to test if our proposed method can improve the recall and precision in duplicate detection of objects.
論文目次 第一章 緒論 1
1.1 背景介紹 1
1.2 研究動機 3
1.3 研究目的 3
1.4 章節概要 4
第二章 文獻探討 5
第三章 方法 8
3.1 問題定義 8
3.2 公式與演算法 8
第四章 實驗與結果 17
4.1 實驗資料集與模擬參數設定 17
4.1.1 資料集 17
4.1.2 通訊錄資料集一(合成) 20
4.1.3 通訊錄資料集二(淡江) 21
4.1.4 census人口普查資料集(合成) 22
4.1.5 模擬參數設定 22
4.2 軟體架構 23
4.3 評估指標 26
4.4 通訊錄資料集一之實驗 26
4.5 通訊錄資料集二之實驗 29
4.6 CENSUS人口普查資料集之實驗 30
4.7 平均準確率與最大F1值綜合比較 32
4.8 實驗分析 35
第五章 結論與未來發展 38
參考文獻 39

表目錄
表一 缺值處理比較表 15
表二 五種方法在三個資料集之最大F1值與平均值之表現 32

圖目錄
圖一 通訊錄格式 19
圖二 CENSUS人口普查資料集格式 20
圖三 軟體架構圖 25
圖四 五種方法在通訊錄資料集一之召回率-準確率圖 28
圖五 五種方法在通訊錄資料集二之召回率-準確率圖 30
圖六 五種方法在通訊錄資料集一之召回-準確圖 31
圖七 五種方法在三種資料集實驗之最大F1值 33
圖八 五種方法在三種資料集實驗之平均準確率 33

參考文獻 1. Bhattacharya, I. , and Getoor, L. , “Iterative Record Linkage for Cleaning and Integration”, Proceedings of the 9th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, Paris, France, 2004, pp. 11-18.
2. Bilenko, M. , and Mooney, R. , Cohen, W. , Ravikumar, P. , and Fienberg, S. , “Adaptive Name Matching in Information Integration”, Intelligent Systems, 2003, 18(5), pp. 16-23.
3. Bruha,I. and Kockova, S. , ”A Support for Decision Making: Cost-Sensitive Learning System”, Artificial Intelligence in Medicine, 1994, 6(1), pp. 67-82.
4. Bruha, I. , “Meta-Learner for Unknown Attribute Values Processing: Dealing with Inconsistency of Meta_Database”, Journal of Intelligent Information Systems, 2004, 22(1), pp. 71-87.
5. Doan, A. , Natalya, F. N. , and Halevy, A. Y. , ”Introduction to the Special Issue on Semantic Integration”, ACM SIGMOD Record, 2004, 33(4), pp11-13.
6. Doan, A. , Lu, Y. , Lee, Y. , and Han, J. , “Object Matching for Information Integration: A Profiler-Based Approach”, IIWeb,2003(IJCAI 2003 WorkShop), Acapulco, Mexico, 2003, pp. 53-58.
7. Feekin, A., and Chen, Z. , ”Duplicate Detection Using K-way Sorting Method”, Proceedings of the 2000 ACM Symposium on Applied Computing, Como, Italy, 2000, pp. 323-327.
8. Jaro, M. A. , “Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida, ” J. Am. Statistical Assoc. , 84(406), 1989, pp. 414–420.
9. Kurgan, L. , Swiercz, W. , and Cios, K. J. , ”Semantic Mapping of XML Tags Using Inductive Machine Learning” , ICMLA 2002, Las Vegas, Nevada, USA, 2000.
10. Ristad, E. S. and Yianilos, P. N. , “Learning String-Edit Distance,” IEEE Trans. Pattern Analysis and Machine Intelligence, 20(5), 1998, pp. 522–532.
11. Weis, M. , and Naumann, F. , “Detecting Duplicate Objects in XML Documents”, Proceedings of the 2004 International Workshop on Information Quality in Information Systems , Paris, France, 2004, pp. 10-19.
12. XML Schema:http://www.w3.org/XML/Schema , Access time 2004/7.
13. JAXB: http://java.sun.com/xml/jaxb , Access time 2004/7.
14. JAVA WEB SERVICE TUTORIAL:http://java.sun.com/webservices/docs/1.3/tutorial/doc , Access time 2004/7.
15. Census 人口普查資料集:
http://www.cs.utexas.edu/users/ml/riddle/data/secondstring.tar.gz , Access time 2005/3.
16. 博仕網工網名錄搜尋引擎:http://boss.com.tw , Access time 2004/11.
17. 各大上市上櫃公司網址:http://www.marbo.com.tw/18-1.htm , Access time 2004/11.
18. 中華民國政府機關網址索引: http://apbbdir.openfind.com.tw/cgi-bin/APOL-CD , Access time 2004/11.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2005-06-13公開。
  • 同意授權瀏覽/列印電子全文服務,於2005-06-13起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信