§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0806200511192400
DOI 10.6846/TKU.2005.00096
論文名稱(中文) 具結構描述之物件比對
論文名稱(英文) Detection of duplicates in structured objects
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 93
學期 2
出版年 94
研究生(中文) 林志龍
研究生(英文) Chih-Lung Lin
學號 692521288
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2005-05-21
論文頁數 39頁
口試委員 指導教授 - 魏世杰
委員 - 陳彥良
委員 - 莊裕澤
委員 - 趙志民
關鍵字(中) 物件比對
物件結構
缺值
關鍵字(英) duplicate detection
structure of objects
missing value
第三語言關鍵字
學科別分類
中文摘要
本文提出一個可以在具結構描述之物件中找出重複物件的方法。因為在比對找尋過程,物件結構與元素的缺值對物件相似與否會有影響。物件結構欄位不同,在比對時有不同的重要度;物件元素的缺值則會影響我們對物件的瞭解,缺值愈多,對物件的認識度愈低,可參考的資訊也愈少。所以本文針對物件結構採權重差異化,對元素缺值採可信度值處理,再以匯總的方式對比對之物件產生一匯總相似值,以判斷兩物件是否為重複物件。最後,以通訊錄匯總及人口普查實驗例子證實本方法可以有效的提升物件比對之準確率及召回率。
英文摘要
We propose a method for detecting the duplicates in structured objects. The structure of objects and the missing value of elements in objects are very important for detecting the duplicates. Different elements in a structured object have different importance in detecting duplicates. The missing value of elements influence us in understanding objects. The more of missing value, the less we understand the objects , and the less its reference value. So, we adopt the different weighting scheme of the structure of the object and compute the confidence value for missing values. Then, we summarize the similarity value and the confidence value of the two objects to decide if they are duplicates or not. Finally, we experiment with the synthetic addressbook and census datasets to test if  our proposed method can improve the recall and precision in duplicate detection of objects.
第三語言摘要
論文目次
第一章 緒論	1
1.1 背景介紹	1
1.2 研究動機	3
1.3 研究目的	3
1.4 章節概要	4
第二章 文獻探討	5
第三章 方法	8
3.1 問題定義	8
3.2 公式與演算法	8
第四章 實驗與結果	17
4.1 實驗資料集與模擬參數設定	17
4.1.1 資料集	17
4.1.2 通訊錄資料集一(合成)	20
4.1.3 通訊錄資料集二(淡江)	21
4.1.4 census人口普查資料集(合成)	22
4.1.5 模擬參數設定	22
4.2 軟體架構	23
4.3 評估指標	26
4.4 通訊錄資料集一之實驗	26
4.5 通訊錄資料集二之實驗	29
4.6 CENSUS人口普查資料集之實驗	30
4.7 平均準確率與最大F1值綜合比較	32
4.8 實驗分析	35
第五章 結論與未來發展	38
參考文獻	39

表目錄
表一 缺值處理比較表	15
表二 五種方法在三個資料集之最大F1值與平均值之表現	32

圖目錄
圖一 通訊錄格式	19
圖二 CENSUS人口普查資料集格式	20
圖三 軟體架構圖	25
圖四 五種方法在通訊錄資料集一之召回率-準確率圖	28
圖五 五種方法在通訊錄資料集二之召回率-準確率圖	30
圖六 五種方法在通訊錄資料集一之召回-準確圖	31
圖七 五種方法在三種資料集實驗之最大F1值	33
圖八 五種方法在三種資料集實驗之平均準確率	33
參考文獻
1. Bhattacharya, I. , and Getoor, L. , “Iterative Record Linkage for Cleaning and Integration”, Proceedings of the 9th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, Paris, France, 2004, pp. 11-18.
2. Bilenko, M. , and Mooney, R. , Cohen, W. , Ravikumar, P. , and Fienberg, S. ,  “Adaptive Name Matching in Information Integration”, Intelligent Systems, 2003, 18(5), pp. 16-23.
3. Bruha,I. and Kockova, S. , ”A Support for Decision Making: Cost-Sensitive Learning System”, Artificial Intelligence in Medicine, 1994, 6(1), pp. 67-82.
4. Bruha, I. , “Meta-Learner for Unknown Attribute Values Processing: Dealing with Inconsistency of Meta_Database”, Journal of Intelligent Information Systems, 2004, 22(1), pp. 71-87.
5. Doan, A. , Natalya, F. N. , and Halevy, A. Y. ,  ”Introduction to the Special Issue on Semantic Integration”, ACM SIGMOD Record, 2004, 33(4), pp11-13.
6. Doan, A. , Lu, Y. , Lee, Y. , and Han, J. , “Object Matching for Information Integration: A Profiler-Based Approach”, IIWeb,2003(IJCAI 2003 WorkShop), Acapulco, Mexico, 2003, pp. 53-58.
7. Feekin, A., and Chen, Z. , ”Duplicate Detection Using K-way Sorting Method”, Proceedings of the 2000 ACM Symposium on Applied Computing, Como, Italy, 2000, pp. 323-327.
8. Jaro, M. A. , “Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida, ” J. Am. Statistical Assoc. , 84(406), 1989, pp. 414–420.
9. Kurgan, L. , Swiercz, W. , and Cios, K. J. , ”Semantic Mapping of XML Tags Using Inductive Machine Learning” , ICMLA 2002, Las Vegas, Nevada, USA, 2000.
10. Ristad, E. S. and Yianilos, P. N. , “Learning String-Edit Distance,” IEEE Trans. Pattern Analysis and Machine Intelligence, 20(5), 1998, pp. 522–532.
11. Weis, M. , and Naumann, F. , “Detecting Duplicate Objects in XML Documents”, Proceedings of the 2004 International Workshop on Information Quality in Information Systems , Paris, France, 2004, pp. 10-19.
12. XML Schema:http://www.w3.org/XML/Schema , Access time 2004/7.
13. JAXB: http://java.sun.com/xml/jaxb , Access time 2004/7.
14. JAVA WEB SERVICE TUTORIAL:http://java.sun.com/webservices/docs/1.3/tutorial/doc , Access time 2004/7.
15. Census 人口普查資料集:
   http://www.cs.utexas.edu/users/ml/riddle/data/secondstring.tar.gz , Access time 2005/3.
16. 博仕網工網名錄搜尋引擎:http://boss.com.tw , Access time 2004/11.
17. 各大上市上櫃公司網址:http://www.marbo.com.tw/18-1.htm , Access time 2004/11.
18. 中華民國政府機關網址索引: http://apbbdir.openfind.com.tw/cgi-bin/APOL-CD , Access time 2004/11.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信