| 系統識別號 | U0002-1109202313055400 |
|---|---|
| DOI | 10.6846/tku202300657 |
| 論文名稱(中文) | 自然語言轉資料庫查詢語言合成器 |
| 論文名稱(英文) | Text to SQL Synthesizer |
| 第三語言論文名稱 | 翁藝芳 |
| 校院名稱 | 淡江大學 |
| 系所名稱(中文) | 資訊工程學系碩士在職專班 |
| 系所名稱(英文) | Department of Computer Science and Information Engineering |
| 外國學位學校名稱 | College of Engineering |
| 外國學位學院名稱 | Tamkang University |
| 外國學位研究所名稱 | Department Of Computer Science And Information Engineering |
| 學年度 | 111 |
| 學期 | 2 |
| 出版年 | 112 |
| 研究生(中文) | 翁藝芳 |
| 研究生(英文) | Ye-Fang Wong |
| 學號 | 709410012 |
| 學位類別 | 碩士 |
| 語言別 | 繁體中文 |
| 第二語言別 | |
| 口試日期 | 2023-07-07 |
| 論文頁數 | 25頁 |
| 口試委員 |
口試委員
-
蒯思齊(sckuai@ntub.edu.tw)
共同指導教授 - 石貴平(kpshih@mail.tku.edu.tw) 指導教授 - 張志勇(cychang@mail.tku.edu.tw) |
| 關鍵字(中) |
大型語言模型 自然語言處理 自然語言理解 情境學習 提示工程 |
| 關鍵字(英) |
Large Language Model Natural Language Process Natural Language Understanding In-Context Learning Prompting Engineering |
| 第三語言關鍵字 | |
| 學科別分類 | |
| 中文摘要 |
大型語言模型興起,讓人們可以透過文字生成想要的文案、圖檔、程式碼甚至詩歌。然而,以生成資料庫查詢語言(text-to-SQL)來說,由於大語言模型對企業資料模型普遍不熟悉,同時企業基於資訊安全考量,通常也不會無條件地開放資料給生成式AI學習,實驗發現,在這樣的限制下,生成式 AI是無法產生符合企業使用的資料庫查詢語言。因此,為了探討解決這樣的問題,本實驗建構了一個模擬企業應用的人事系統,並開發了一個基於 ChatGPT的大型語言模型的資料庫查詢語言合成器,透過基本的自然語言前處理和符合企業使用情境的資料模型,合成出合乎企業環境的提示(Prompt)詞,成功誘發大型語言模型ChatGPT產生合乎企業使用的資料庫查詢語言成果。 |
| 英文摘要 |
The rise of large language model enables people to generate desired copywriting, graphic files, program codes even poem through text. However, for the task of generating database language (text-to-SQL), large language models such as ChatGPT is not familiar with enterprise data models, and enterprises are unwilling to share their data knowledge to general-purpose generative in context learning so that LLMs cannot produce the contextual results. Therefore, we construct a simulation enterprise system to develop a natural language to SQL synthesizer which can generate suitable prompts through natural understanding and natural language process to generate contextual results. The experiment shows that through a preliminary natural language understanding of the user’s problem and enterprise database knowledge can induce correct database query language. |
| 第三語言摘要 | 大規模な言語モデルの台頭により、人々はテキストを通じて目的のコピー、グラフィック、コード、さらには詩さえも生成できるようになりました。ただし、生成データベース クエリ言語 (text-to-SQL) の場合、大規模な言語モデルは一般にエンタープライズ データ モデルに馴染みがなく、情報セキュリティの考慮事項により、企業は通常、生成 AI 学習にデータを無条件に公開しません。実験の結果、このような制限の下では、生成 AI は企業での使用に適したデータベース クエリ言語を生成できないことがわかりました。そこで、このような問題を調査し解決するために、この実験では、エンタープライズ アプリケーションをシミュレートする人事システムを構築し、ChatGPT の大規模言語モデルに基づくデータベース クエリ言語シンセサイザーを開発しました。コンテキスト データ モデルを使用して、エンタープライズ環境に適したプロンプト ワードが合成され、大規模言語モデル ChatGPT が正常に誘導されて、エンタープライズでの使用に適したデータベース クエリ言語結果が生成されます。 |
| 論文目次 |
目錄 第1章 前言 1 第2章 相關研究 2 第3章 背景知識 10 第4章 系統架構 15 第5章 系統實作 18 第6章 實驗分析 22 第7章 未來工作 23 參考文獻---------- 24 圖目錄 圖1、自然語言轉資料庫查詢語言合成器軟體元件堆疊圖 3 圖2、自然語言轉資料庫查詢語言合成器核心模組 3 圖3、運用 ChatGPT 達成自然語言轉SQL示意圖 10 圖4、ChatGPT text-To-SQL 任務的輸出內容 10 圖5、Transformer 的 Encoder 和 Decoder 結構 11 圖6、10 個常用的ChatGPT text-To-SQL 任務的提示詞 14 圖7、自然語言轉SQL語言合成器架構設計圖 15 圖8、自然語言轉SQL合成器管線設計圖 16 圖9、提示詞 Prompting 設計 17 圖10、員工查詢系統資料關聯設計圖 18 圖11、傳統表單新增對話式搜尋 (Vue 2.7.14 + BootStrap 5.1.1) 18 圖12、對話式的查詢結果 19 圖13、ChatGPT 的 text-To-SQL 任務無法識別中文姓名和性別 19 圖14、使用史丹福大學 StanfordCoreNLP 進行姓名辨識的程式碼 20 圖15、使用 jieba 進行性別辨識的程式碼 21 圖16、本實驗誘發 ChatGPT產生正確text-to-SQL任務成果提示詞 21 圖17、經語言合成器微調後的資料庫查詢語言結果 22 表目錄 表1、典型企業內部紀錄人員的資料表 8 |
| 參考文獻 |
[1] 軒言文創,你以為的「理性」可能不是真的「理性」,[Online] Available: https://soundshine.com.tw/psychology2020025/ [2] Ashish Vaswani, Noam Shazeer, Niki Parmar,et. al., “Attention Is All You Need,” arXiv: 1706.03762v5 [cs.CL] 6, Dec., 2017. [3] 邱上豪 (2022)。基於Vision Transformer 神經網路資料擴增技術應用於半導體製程進行晶圓瑕疵之分類。國立臺北科技大學工業工程與管理系碩士論文,台灣,台北市。 [4] Mattew E. Peters, Mark Neumann, Mohit lyyer ,et. al., “Deep contextualized word representations,” arXiv: 1802.05365[cs.CL] 22, Mar., 2018. [5] Zhengyan Zhang, Xu Han, Zhiyuan Liu,et. al., “ERNIE: Enhanced Language Representation with Informative Entities,” arXiv: 1905.07129v3[cs.CL] 4, Jun., 2019. 王琴,《論文解讀》百度ERNIE:Enhanced Representation through Knowledge Integration,[Online] Available: https://blog.csdn.net/u011150266/article/details/116479149 [6] Anna Rogers, Olga Kovaleva, Anna Rumshisky, “A Primer in BERTology: What We Know About BERT Works”, [Online] Available: https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00349/96482/A-Primer-in-BERTology-What-We-Know-About-How-BERT [7] 黃朱倫,語言學與釋經-聖經詞彙的研究,校園出版社,1999。 [8] Yujia Li, David Choi, Junyoung Chung, et al., “Competition-Level Code Generation with AlphaCode,” DeepMind,[Online]pp.27-28,Available:https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf (Feb. 2, 2022) [9] 駱知昀 (2020),設計及實作基於自然語言轉換之問答機器人。淡江大學資訊工程學系碩士論文,台灣,新北市淡水區。 [10] 徐志奇 (2021),基於自然語言轉換 SQL 之資料庫查詢機器人,淡江大學資訊工程學系碩士論文,台灣,新北市淡水區。 [11] Christopher Baik, H. V. Jagadish, Yunyao Li, Bridging the semantic gap with SQL query logs in natural language interfaces to database, 2019, (pages 374-385) [12] C. Cordell Green, Bertram Raphael, “The use of theorem-proving techniques in question-answering systems”, ACM ’68: Proceedings of the 1968 23rd ACM national conference, January 1968, pp. 169-181, [Online] Available: https://doi.org/10.1145/800186.810578 [13] 吳軍,數學之美,第二版,人民郵電出版社,2014。 [14] 高巧倫、翁藝芳,台大佛學數位圖書館暨博物館現況與未來展望,佛學數位資源之應用與趨勢研討會,Sep. 16, 2005. [15] Zheng & Casari著、楊新章 譯,機器學習特徵工程:資料科學家需學的原理和技術,歐萊禮,2020年 [16] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, et. al., “SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions”, arXiv: 2212.10560v1 [cs.CL] 20, Dec., 2022. [17] Clare Churcher, “Beginning SQL Queries, ” Apress, [Books] p.213 [18] E. F. Codd, “A Relational Model of Data for Large Shared Banks, ” in Communication of the ACM: 13, p. 377. [19] OpenAI, “Enterprise privacy at OpenAI: Ownership: You own and control your data.”, 2015-2023, [Online] Available:https://openai.com/enterprise-privacy [20] GitHub: https://github.com/yefangwong/madaga |
| 論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信