§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1306202123035500
DOI 10.6846/TKU.2021.00273
論文名稱(中文) 工地行人之單像攝影三維定位與標記影像自動化識別與二維定位
論文名稱(英文) 3D Positioning of Pedestrians in Construction Sites and Automatic Recognition and 2D positioning of surveying marks
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 土木工程學系碩士班
系所名稱(英文) Department of Civil Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 109
學期 2
出版年 110
研究生(中文) 游證弘
研究生(英文) Jheng-Hong You
學號 609380075
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2021-06-03
論文頁數 121頁
口試委員 指導教授 - 葉怡成
委員 - 葉怡成
委員 - 蔡明修
委員 - 連立川
關鍵字(中) 工地
攝影測量
行人定位
深度學習
影像識別
標記二維定位
關鍵字(英) construction site
photogrammetry
pedestrian localization
deep learning
image recognition
2D positioning of surveying marks
第三語言關鍵字
學科別分類
中文摘要
隨著深度學習的快速發展,行人識別技術已經相當成熟。另一方面,攝影測量也已經相當成熟,利用雙像定位,可以對影像中的共同點進行3D定位。因此如果能結合行人識別技術與攝影測量,就可能對工地中的工人進行自動化的3D定位。這種含3D座標的行人識別技術可用來管理與監控施工現場,對於提高生產效率和現場安全具有重大價值。然而目前這方面的文獻很少,主要的原因是利用雙像定位必須先找出兩張影像中的共同點,也就是必須對左右雙像中的工人作匹配,因此不只要識別行人,還要識別其身分,因此相當困難。為了免除必須對左右雙像中的工人作匹配的困擾,本文採用單像進行3D定位。本研究的主要目的有二:(1)單像攝影測量進行物方座標的三維定位。(2) 識別工地現場用來做為攝影測量後方交會法已知點的標記,並對其進行像平面座標二維定位。採用的研究方法如下: (1)利用附加條件,例如行人站立點的高程,將雙像定位轉化為單像定位。(2)利用深度學習實現已知點標記的自動識別和二維定位。研究結果顯示 (1)傳統的雙像攝影測量、單像之高程已知法、身高已知法、距離已知法的行人定位誤差平均值分別為0.28 m、0.45 m、0.24 m、0.14 m。單像法可以達到雙像法的精度。(2) 敏感性分析顯示,單像之高程已知法、身高已知法、距離已知法的假設高程、身高、距離各有10公分的誤差大約會造成20公分的3D定位誤差。(3) 深度學習的結果顯示,三種標記識別模型的識別精準度、召回率、mAP、二維定位誤差(像素)分別為單標示單分類法(94%、 37%、 45%,、 6.99)、多標示單分類法(84%、63%、 55%、 3.44)、多標示多分類法(97%、 64%、 58%、3.76)。結果表明,深度學習可以精確識別與定位標記。
英文摘要
With the rapid development of deep learning, pedestrian recognition technology has become quite mature. On the other hand, photogrammetry is also quite mature, and using dual image positioning, 3D positioning of common points in images can be performed. Therefore, if pedestrian recognition technology and photogrammetry can be combined, it is possible to automate 3D positioning of workers in construction sites. This pedestrian recognition technology with 3D coordinates can be used to manage and monitor construction sites, which is of great value to improve productivity and site safety. However, there is little literature on this topic, mainly because it is difficult to identify not only pedestrians but also their identities using dual-image localization because the common points in both images must be identified first, i.e., workers in both left and right images must be matched. In order to avoid the trouble of matching the workers in both left and right images, this paper uses a single image for 3D localization. The main objectives of this study are twofold, including (1) to perform 3D localization of pedestrian by single-image photogrammetry. (2) To identify the markers at the site used as the known points of the intersection method of photogrammetry, and to perform 2D positioning of the image plane coordinates of markers. The following research methods are used: (1) Converting dual image localization to single image localization using additional conditions, such as the elevation of the pedestrian standing point. (2) Automatic recognition and 2D localization of known point markers using deep learning. The results of the study showed that (1) the average error of pedestrian positioning for the conventional dual-image photogrammetry, the three single-image method, known elevation method, known height method, and the known distance method were 0.28 m, 0.45 m, 0.24 m, and 0.14 m. Therefoore, the single-image method could achieve the accuracy of the dual-image method. (2) Sensitivity analysis shows that a 10 cm error in elevation, height and distance for the single-image method will result in a 3D positioning error of about 20 cm. (3) The results of deep learning show that the recognition accuracy, recall, mAP, and 2D localization error (in pixels) of the three marker recognition models are 94%, 37%, 45%, 6.99 for the single-label single-classification method, 84%, 63%, 55%, 3.44 for the multi-label single-classification method, and 97%, 64%, 58%, 3.76 for the multi-label multi-classification method. The results showed that deep learning can accurately identify and localize markers.
Key words: construction site, photogrammetry, pedestrian localization, deep learning, image recognition, 2D positioning of surveying marks.
第三語言摘要
論文目次
圖目錄 III
表目錄 VII
第一章 導論 1
1.1 研究動機 1
1.2 研究方法 1
1.3 研究內容 2
第二章 文獻回顧 4
2.1 共線方程式 4
2.2 雙像攝影測量原理 5
2.3 單像攝影測量 10
2.4 深度學習與影像識別 10
2.5 以深度學習作行人識別、定位相關研究 16
2.6 結語 19
第三章 工地行人之單像攝影三維定位 21
3.1 前言 21
3.2 影像資料收集 22
3.2.1 攝影設備:採用iphone 11 拍攝 22
3.2.2 實驗場地:淡江大學	22
3.3 方法一 : 高程已知法 23
3.4 方法二 : 身高已知法 31
3.5 方法三 : 距離已知法 36
3.6 方法四 : 假設同一平面之八參數法 39
3.6.1 八參數法之建模 41
3.6.2 八參數法之測量 46
3.7 方法比較實驗 49
3.8 蛋捲廣場-雙像、單像比較 53
3.9 單像敏感性分析 57
3.10 結語 60
第四章 深度學習之現場基準點標記識別與二維定位 63
4.1 前言 63
4.2 影像資料收集 63
4.2.1 攝影設備: 採用iphone 11 拍攝 63
4.2.2 實驗場地:淡江大學  63
4.2.3 標記設計: 63
4.3 Yolo的訓練過程 64
4.4 方法一 : 單標示(labeling)單分類法 77
4.5 方法二 : 多標示(labeling)單分類法 83
4.6 方法三 : 多標示(labeling)多分類法 91
4.7 方法比較實驗 99
4.8 結語 101
第五章 結論與建議 106
5-1 結論 106
5-2 建議 108
參考文獻 110
附錄A Matlab軟體-像平面座標擷取 112
附錄B 影像標註軟體-標示(labeling)方法與實例 116

圖目錄
圖1- 1. 研究流程圖 3
圖2- 1. 攝影測量中共線式 4
圖2- 2. 共線方程式之參數與應用:後方交會解算 6
圖2- 3. 共線方程式之參數與應用:前方交會解算 7
圖2- 4. 攝像機位置和旋轉角度的說明 8
圖2- 5. 物方(X,Y,Z),相機(XC,YC,ZC)之間的關係 8
圖2- 6. NMS示意圖 11
圖2- 7. YOLO V1 架構 12
圖2- 8. YOLO V1損失函數 13
圖2- 9. IOU介紹 13
圖2- 10. IOU預測指標 13
圖2- 11. YOLOV4與其他物件檢測器性能比較 15
圖2- 12. 物件檢測器[18] 15
圖2- 13. 坐標計算原理[16] 16
圖2- 14. 系統模型 [19] 17
圖2- 15. CAMLOC系統的方框圖 19
圖2- 16. 定義同相點的網格	19
圖3- 1. 單像、雙像攝影測量流程圖 21
圖3- 2. 手機的座標系統 22
圖3- 3. 手機的座標系統 23
圖3- 4. 驚聲大樓10F俯拍蛋捲廣場照片 24
圖3- 5. 高程已知法EXCEL試算表 25
圖3- 6. 九參數照片 25
圖3- 7. 空間直角座標之間的轉換 27
圖3- 8. 旋轉矩陣照片 27
圖3- 9. 像平面座標照片 28
圖3- 10. 共線方程式公式(1)照片 29
圖3- 11. M旋轉矩陣照片 29
圖3- 12. 誤差平方和與規劃求解照片 30
圖3- 13. 高程已知法單像定位照片 31
圖3- 14. 驚聲大樓12F俯拍蛋捲廣場照片 32
圖3- 15. 身高已知法EXCEL試算表 32
圖3- 16. 共線方程式公式(1)照片 35
圖3- 17. 誤差平方和與規劃求解照片 35
圖3- 18. 身高已知法單像定位照片 36
圖3- 19. 驚聲大樓12F俯拍蛋捲廣場照片 37
圖3- 20. 距離已知法照片 37
圖3- 21. 誤差平方和EXCEL 39
圖3- 22. 距離已知法單像定位照片 39
圖3- 23. 驚聲大樓12F俯拍蛋捲廣場(建模)照片 41
圖3- 24. 八參數平面座標轉換法(建模)照片 41
圖3- 25. 座標照片 42
圖3- 26. 初始八參數照片 43
圖3- 27. 八參數公式照片 43
圖3- 28. 誤差平方和照片 44
圖3- 29. 八參數公式照片 44
圖3- 30. 最佳八參數解照片 45
圖3- 31. 計算UV八參數平面座標照片 45
圖3- 32. 已知UV八參數平面座標照片 45
圖3- 33. 八參數平面座標轉換法(驗算)照片 46
圖3- 34. 像片座標與物方座標照片 46
圖3- 35. 步驟1 : 輸入像平面座標(U,V) 已知值 47
圖3- 36. 步驟2 : 輸入模型參數已知值 47
圖3- 37. 步驟3 : 輸入物方二維座標(X,Y)初始值 48
圖3- 38. 步驟4 : 由物方二維座標(X,Y)計算像平面座標(U,V)的計算值 48
圖3- 39. 步驟6 : 解算物方二維座標(X,Y)推估值 49
圖3- 40. 八參數平面座標轉換(測量)照片 49
圖3- 41. 工學大樓8樓往3樓拍攝照片 51
圖3- 42. 工學大樓6樓往3樓拍攝照片 51
圖3- 43. 工學大樓5樓往3樓拍攝照片 52
圖3- 44. 圖書館9F俯拍蛋捲廣場照片 (已知點) 54
圖3- 45. 驚聲大樓9F俯拍蛋捲廣場照片 (已知點) 55
圖3- 46. 圖書館9F俯拍蛋捲廣場照片 (未知點) 55
圖3- 47. 驚聲大樓9F俯拍蛋捲廣場照片 (未知點) 56
圖4- 1. 4種標記設計 64
圖4- 2. [CONVOLUTIONAL]-LAYER 110層照片 65
圖4- 3. [ROUTE]-LAYER 21層照片 66
圖4- 4. [SHORTCUT]-LAYER 23層照片 67
圖4- 5. [UPSAMPLE]-LAYER 2層照片 68
圖4- 6. [MAXPOOL]-LAYER 3層照片 68
圖4- 7. FILTERS照片 69
圖4- 8. [YOLO]-LAYER 3層照片 69
圖4- 9. GENERATE_TRAIN.PY和GENERATE_TEST.PY照片 71
圖4- 10. GENERATE_TRAIN.PY和GENERATE_TEST.PY照片 72
圖4- 11. GENERATE_TRAIN.PY照片 72
圖4- 12. GENERATE_TEST.PY照片 73
圖4- 13. OBJ.NAMES.PY照片 73
圖4- 14. OBJ.NAMES 檔案照片 74
圖4- 15. OBJ.DATA.PY照片 74
圖4- 16. OBJ.DATA 檔案照片 75
圖4- 17. YOLO訓練過程照片 75
圖4- 18. 從上次保存的地方開始訓練的程式碼照片 76
圖4- 19. 從上次保存的地方開始訓練的權重照片 77
圖4- 20. 需要識別的標記 78
圖4- 21. 室內研究室人工的標示 79
圖4- 22. 室內研究室YOLO的偵測結果 79
圖4- 23. 研究室_YOLO自動與MATLAB手抓座標比較 80
圖4- 24. 驚聲大樓4樓俯拍室外蛋捲廣場人工的標示 81
圖4- 25. 驚聲大樓4樓俯拍室外蛋捲廣場YOLO的偵測結果 82
圖4- 26. 蛋捲廣場_YOLO自動與MATLAB手抓座標比較 83
圖4- 27. 需要識別的雙重標記 84
圖4- 28. 人工的標示 85
圖4- 29. 室內_YOLO的偵測結果圖 85
圖4- 30. 研究室_YOLO自動與MATLAB手抓座標比較 86
圖4- 31. (方形)研究室_YOLO自動與MATLAB手抓座標比較 87
圖4- 32. (圓形)研究室_YOLO自動與MATLAB手抓座標比較 87
圖4- 33. 人工的標示 88
圖4- 34. 室外工館大樓對面場地_YOLO的偵測結果圖 89
圖4- 35. 工館對面場地_YOLO自動與MATLAB手抓座標比較 90
圖4- 36. (正方形) 工館對面場地_YOLO自動與MATLAB手抓座標比較	90
圖4- 37. (圓形) 工館對面場地_YOLO自動與MATLAB手抓座標比較 91
圖4- 38. 需要識別的標記 92
圖4- 39. 人工的標示 93
圖4- 40. 室內研究室YOLO的偵測結果 93
圖4- 41. 研究室_YOLO自動與MATLAB手抓座標比較 94
圖4- 42. (方形)研究室_YOLO自動與MATLAB手抓座標比較 95
圖4- 43. (圓形)研究室_YOLO自動與MATLAB手抓座標比較	95
圖4- 44. 室外化學館場地_人工的標示 96
圖4- 45. 室外工學大樓對面場地_YOLO的偵測結果 97
圖4- 46. 工學大樓對面場地_YOLO自動與MATLAB手抓座標比較 98
圖4- 47. (正方形)工學大樓對面場地_YOLO自動與MATLAB手抓座標比較	98
圖4- 48. (圓形)工學大樓對面場地_YOLO自動與MATLAB手抓座標比較	99
圖4- 49. 實驗設計示意圖 100
圖4- 50. 室外_YOLO的偵測結果 101
圖 附錄A- 1. YOLO測試照片 112
圖 附錄A- 2. MATLAB讀取照片 113
圖 附錄A- 3. MATLAB放大照片 113
圖 附錄A- 4. MATLAB出現光標 114
圖 附錄A- 5. MATLAB照片 115 
圖 附錄B- 1. 操作步驟一 : 開啟檔案 116
圖 附錄B- 2. 操作步驟二 : 放大畫面 117
圖 附錄B- 3. 操作步驟三 : 標示框的範圍 117
圖 附錄B- 4. 操作步驟四 : 選擇類別 118
圖 附錄B- 5. 操作步驟五 : 儲存TXT檔 119
圖 附錄B- 6. TRAIN文件檔照片 120
圖 附錄B- 7. TEST文件檔照片 121

表目錄
表2- 1. PRECISION& RECALL 14
表3- 1. 工學大樓各樓層九參數比較 52
表3- 2. 單像攝影三維定位4種方法各樓層誤差距離(單位公尺) 53
表3- 3. 單像攝影三維定位各個樓層平均誤差距離(單位公尺) 53
表3- 4. 單像攝影三維定位4種方法平均誤差距離(單位公尺) 53
表3- 5. 雙像攝影測量物方座標誤差(單位公尺) 56
表3- 6. 單像高程已知法物方座標誤差(單位公尺) 56
表3- 7. 單像身高已知法物方座標誤差(單位公尺) 56
表3- 8. 單像距離已知法物方座標誤差(單位公尺) 57
表3- 9. 八參數法之測量物方座標誤差(單位公尺) 57
表3- 10. 單像高程已知法(驚聲大樓) (單位公尺) 58
表3- 11. 單像高程已知法(圖書館) (單位公尺) 58
表3- 12. 單像身高已知法(驚聲大樓) (單位公尺) 58
表3- 13. 單像身高已知法(圖書館) (單位公尺) 59
表3- 14. 單像距離已知法(驚聲大樓) (單位公尺) 59
表3- 15. 單像距離已知法(驚聲大樓) (單位公尺) 60
表3- 16. 三種單像已知法平均誤差比較(驚聲大樓) (單位公尺) 60
表3- 17. 三種單像已知法平均誤差比較(圖書館) (單位公尺) 60
表3- 18. 三種單像已知法敏感性平均誤差比較(單位公尺) 62
表4- 1. [CONVOLUTIONAL]-LAYER的配置說明 65
表4- 2. [ROUTE]-LAYER的配置說明 66
表4- 3. [SHORTCUT]-LAYER的配置說明 67
表4- 4. [UPSAMPLE]-LAYER的配置說明 68
表4- 5. [MAXPOOL]-LAYER的配置說明 69
表4- 6. [YOLO]-LAYER 3層前面的[CONVOLUTIONAL]-LAYER的配置說明 70
表4- 7. [YOLO]-LAYER 的配置說明 71
表4- 8. OBJ.DATA 檔案 74
表4- 9. 室內_YOLO像平面座標(單位像素) 80
表4- 10. 室內_YOLO像平面座標比較(單位像素) 80
表4- 11. 戶外_YOLO像平面座標比較(單位像素) 82
表4- 12. 室內_YOLO像平面座標比較(單位像素) 86
表4- 13. 戶外_YOLO像平面座標比較(單位像素) 89
表4- 14. 室內_YOLO像平面座標比較(單位像素) 94
表4- 15. 室外_YOLO像平面座標比較(單位像素) 97
表4- 16. 室外_YOLO像平面座標(單位像素) 100
表4- 17. 單標示單分類法標記比較(單位像素) 102
表4- 18. 單標示單分類法偵出率 102
表4- 19. 多標示單分類法標記比較(單位像素) 103
表4- 20. 多標示單分類法偵出率 103
表4- 21. 多標示多分類法標記比較(單位像素) 104
表4- 22. 多標示多分類法偵出率 104
表4- 23. 實驗標記比較(單位像素) 105
表4- 24. 實驗偵出率 105
表5- 1. 方法比較 107
參考文獻
1.Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).
2.Redmon, J., & Farhadi, A. (2016). Better, faster, stronger. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 6517-6525).
3.Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.
4.Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).
5.Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham.
6.Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587).
7.Zeiler, M. D., & Fergus, R. (2014, September). Visualizing and understanding convolutional networks. In European conference on computer vision (pp. 818-833). Springer, Cham.
8.Girshick, R. (2015). Fast R-CNN. arXiv e-prints. arXiv preprint arXiv:1504.08083, 454.
9. Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497.
10.Ren, S., He, K., & Girshick, R. (2015). Jian sun. Faster r-cnn: Towards real-time object detection with region proposal networks.
11.Ren, S., He, K., Girshick, R., & Sun, J. (2016). Faster R-CNN: towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6), 1137-1149.
12.Guo, R., Li, S., & Wang, K. (2020, September). Research on YOLOv3 algorithm based on darknet framework. In Journal of Physics: Conference Series (Vol. 1629, No. 1, p. 012062). IOP Publishing.Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).
13.Wang, Y., Wang, L., Jiang, Y., & Li, T. (2020, September). Detection of Self-Build Data Set Based on YOLOv4 Network. In 2020 IEEE 3rd International Conference on Information Systems and Computer Aided Education (ICISCAE) (pp. 640-642). IEEE.
14.Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).
15.Kim, J. A., Sung, J. Y., & Park, S. H. (2020, November). Comparison of Faster-RCNN, YOLO, and SSD for Real-Time Vehicle Type Recognition. In 2020 IEEE International Conference on Consumer Electronics-Asia (ICCE-Asia) (pp. 1-4). IEEE.
16.Zhang, J., Zhou, Z., Xing, L., Sheng, X., & Wang, M. (2020, June). Target recognition and Location based on deep learning. In 2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC) (Vol. 1, pp. 247-250). IEEE.
17.黃聖智. (2020). 人工智慧之雞隻行為影像判定系統. 淡江大學電機工程學系碩士班學位論文, 1-56.
18.Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934.
19.韩江洪, 袁稼轩, 卫星, & 陆阳. (2018). 基于深度学习的井下巷道行人视觉定位算法. 计算机应用, 0-0.
20.Cosma, A., Radoi, I. E., & Radu, V. (2019). Camloc: Pedestrian location estimation through body pose estimation on smart cameras. In 2019 International Conference on Indoor Positioning and Indoor Navigation (IPIN) (pp. 1-8). IEEE.
21.Chen, H. T. (2016). Geometry-based camera calibration using five-point correspondences from a single image. IEEE Transactions on Circuits and Systems for Video Technology, 27(12), 2555-2566.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信