§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1109202313055400
DOI 10.6846/tku202300657
論文名稱(中文) 自然語言轉資料庫查詢語言合成器
論文名稱(英文) Text to SQL Synthesizer
第三語言論文名稱 翁藝芳
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士在職專班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱 College of Engineering
外國學位學院名稱 Tamkang University
外國學位研究所名稱 Department Of Computer Science And Information Engineering
學年度 111
學期 2
出版年 112
研究生(中文) 翁藝芳
研究生(英文) Ye-Fang Wong
學號 709410012
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2023-07-07
論文頁數 25頁
口試委員 口試委員 - 蒯思齊(sckuai@ntub.edu.tw)
共同指導教授 - 石貴平(kpshih@mail.tku.edu.tw)
指導教授 - 張志勇(cychang@mail.tku.edu.tw)
關鍵字(中) 大型語言模型
自然語言處理
自然語言理解
情境學習
提示工程
關鍵字(英) Large Language Model
Natural Language Process
Natural Language Understanding
In-Context Learning
Prompting Engineering
第三語言關鍵字
學科別分類
中文摘要
大型語言模型興起,讓人們可以透過文字生成想要的文案、圖檔、程式碼甚至詩歌。然而,以生成資料庫查詢語言(text-to-SQL)來說,由於大語言模型對企業資料模型普遍不熟悉,同時企業基於資訊安全考量,通常也不會無條件地開放資料給生成式AI學習,實驗發現,在這樣的限制下,生成式 AI是無法產生符合企業使用的資料庫查詢語言。因此,為了探討解決這樣的問題,本實驗建構了一個模擬企業應用的人事系統,並開發了一個基於 ChatGPT的大型語言模型的資料庫查詢語言合成器,透過基本的自然語言前處理和符合企業使用情境的資料模型,合成出合乎企業環境的提示(Prompt)詞,成功誘發大型語言模型ChatGPT產生合乎企業使用的資料庫查詢語言成果。
英文摘要
The rise of large language model enables people to generate desired copywriting, graphic files, program codes even poem through text. However, for the task of generating database language (text-to-SQL), large language models such as ChatGPT is not familiar with enterprise data models, and enterprises are unwilling to share their data knowledge to general-purpose generative in context learning so that LLMs cannot produce the contextual results. Therefore, we construct a simulation enterprise system to develop a natural language to SQL synthesizer which can generate suitable prompts through natural understanding and natural language process to generate contextual results. The experiment shows that through a preliminary natural language understanding of the user’s problem and enterprise database knowledge can induce correct database query language.
第三語言摘要 大規模な言語モデルの台頭により、人々はテキストを通じて目的のコピー、グラフィック、コード、さらには詩さえも生成できるようになりました。ただし、生成データベース クエリ言語 (text-to-SQL) の場合、大規模な言語モデルは一般にエンタープライズ データ モデルに馴染みがなく、情報セキュリティの考慮事項により、企業は通常、生成 AI 学習にデータを無条件に公開しません。実験の結果、このような制限の下では、生成 AI は企業での使用に適したデータベース クエリ言語を生成できないことがわかりました。そこで、このような問題を調査し解決するために、この実験では、エンタープライズ アプリケーションをシミュレートする人事システムを構築し、ChatGPT の大規模言語モデルに基づくデータベース クエリ言語シンセサイザーを開発しました。コンテキスト データ モデルを使用して、エンタープライズ環境に適したプロンプト ワードが合成され、大規模言語モデル ChatGPT が正常に誘導されて、エンタープライズでの使用に適したデータベース クエリ言語結果が生成されます。
論文目次
目錄
第1章 前言	1
第2章 相關研究	2
第3章 背景知識	10
第4章 系統架構	15
第5章 系統實作	18
第6章 實驗分析	22
第7章 未來工作	23
參考文獻---------- 24

圖目錄
圖1、自然語言轉資料庫查詢語言合成器軟體元件堆疊圖	3
圖2、自然語言轉資料庫查詢語言合成器核心模組	3
圖3、運用 ChatGPT 達成自然語言轉SQL示意圖	10
圖4、ChatGPT text-To-SQL 任務的輸出內容	10
圖5、Transformer 的 Encoder 和 Decoder 結構	11
圖6、10 個常用的ChatGPT text-To-SQL 任務的提示詞	14
圖7、自然語言轉SQL語言合成器架構設計圖	15
圖8、自然語言轉SQL合成器管線設計圖	16
圖9、提示詞 Prompting 設計	17
圖10、員工查詢系統資料關聯設計圖	18
圖11、傳統表單新增對話式搜尋 (Vue 2.7.14 + BootStrap 5.1.1)	18
圖12、對話式的查詢結果	19
圖13、ChatGPT 的 text-To-SQL 任務無法識別中文姓名和性別	19
圖14、使用史丹福大學 StanfordCoreNLP 進行姓名辨識的程式碼	20
圖15、使用 jieba 進行性別辨識的程式碼	21
圖16、本實驗誘發 ChatGPT產生正確text-to-SQL任務成果提示詞	21
圖17、經語言合成器微調後的資料庫查詢語言結果	22

表目錄
表1、典型企業內部紀錄人員的資料表	8
參考文獻
[1]	軒言文創,你以為的「理性」可能不是真的「理性」,[Online] Available: 
https://soundshine.com.tw/psychology2020025/
[2]	Ashish Vaswani, Noam Shazeer, Niki Parmar,et. al., “Attention Is All You Need,” arXiv: 
1706.03762v5 [cs.CL] 6, Dec., 2017.
[3]	邱上豪 (2022)。基於Vision Transformer 神經網路資料擴增技術應用於半導體製程進行晶圓瑕疵之分類。國立臺北科技大學工業工程與管理系碩士論文,台灣,台北市。
[4]	Mattew E. Peters, Mark Neumann, Mohit lyyer ,et. al., “Deep contextualized word representations,” arXiv: 1802.05365[cs.CL] 22, Mar., 2018.
[5]	Zhengyan Zhang, Xu Han, Zhiyuan Liu,et. al., “ERNIE: Enhanced Language Representation with Informative Entities,” arXiv: 1905.07129v3[cs.CL] 4, Jun., 2019.
王琴,《論文解讀》百度ERNIE:Enhanced Representation through Knowledge Integration,[Online] Available: https://blog.csdn.net/u011150266/article/details/116479149
[6]	Anna Rogers, Olga Kovaleva, Anna Rumshisky, “A Primer in BERTology: What We Know About BERT Works”, [Online] Available: 
https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00349/96482/A-Primer-in-BERTology-What-We-Know-About-How-BERT
[7]	黃朱倫,語言學與釋經-聖經詞彙的研究,校園出版社,1999。
[8]	Yujia Li, David Choi, Junyoung Chung, et al., “Competition-Level Code Generation with AlphaCode,” DeepMind,[Online]pp.27-28,Available:https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf (Feb. 2, 2022)
[9]	駱知昀 (2020),設計及實作基於自然語言轉換之問答機器人。淡江大學資訊工程學系碩士論文,台灣,新北市淡水區。
[10]	徐志奇 (2021),基於自然語言轉換 SQL 之資料庫查詢機器人,淡江大學資訊工程學系碩士論文,台灣,新北市淡水區。
[11]	Christopher Baik, H. V. Jagadish, Yunyao Li, Bridging the semantic gap with SQL query logs in natural language interfaces to database, 2019, (pages 374-385)
[12]	C. Cordell Green, Bertram Raphael, “The use of theorem-proving techniques in question-answering systems”, ACM ’68: Proceedings of the 1968 23rd ACM national conference, January 1968, pp. 169-181, [Online] Available: https://doi.org/10.1145/800186.810578
[13]	吳軍,數學之美,第二版,人民郵電出版社,2014。 
[14]	高巧倫、翁藝芳,台大佛學數位圖書館暨博物館現況與未來展望,佛學數位資源之應用與趨勢研討會,Sep. 16, 2005.
[15]	Zheng & Casari著、楊新章 譯,機器學習特徵工程:資料科學家需學的原理和技術,歐萊禮,2020年
[16]	Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, et. al., “SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions”, arXiv: 2212.10560v1 [cs.CL] 20, Dec., 2022.
[17]	Clare Churcher, “Beginning SQL Queries, ” Apress, [Books] p.213
[18]	E. F. Codd, “A Relational Model of Data for Large Shared Banks, ” in Communication of the ACM: 13, p. 377.
[19]	OpenAI, “Enterprise privacy at OpenAI: Ownership: You own and control your data.”, 2015-2023, [Online] Available:https://openai.com/enterprise-privacy
[20]	GitHub: https://github.com/yefangwong/madaga
論文全文使用權限
國家圖書館
同意無償授權國家圖書館,書目與全文電子檔於繳交授權書後, 於網際網路立即公開
校內
校內紙本論文立即公開
同意電子論文全文授權於全球公開
校內電子論文立即公開
校外
同意授權予資料庫廠商
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信