系統識別號 | U0002-1306202123035500 |
---|---|
DOI | 10.6846/TKU.2021.00273 |
論文名稱(中文) | 工地行人之單像攝影三維定位與標記影像自動化識別與二維定位 |
論文名稱(英文) | 3D Positioning of Pedestrians in Construction Sites and Automatic Recognition and 2D positioning of surveying marks |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 土木工程學系碩士班 |
系所名稱(英文) | Department of Civil Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 109 |
學期 | 2 |
出版年 | 110 |
研究生(中文) | 游證弘 |
研究生(英文) | Jheng-Hong You |
學號 | 609380075 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2021-06-03 |
論文頁數 | 121頁 |
口試委員 |
指導教授
-
葉怡成
委員 - 葉怡成 委員 - 蔡明修 委員 - 連立川 |
關鍵字(中) |
工地 攝影測量 行人定位 深度學習 影像識別 標記二維定位 |
關鍵字(英) |
construction site photogrammetry pedestrian localization deep learning image recognition 2D positioning of surveying marks |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
隨著深度學習的快速發展,行人識別技術已經相當成熟。另一方面,攝影測量也已經相當成熟,利用雙像定位,可以對影像中的共同點進行3D定位。因此如果能結合行人識別技術與攝影測量,就可能對工地中的工人進行自動化的3D定位。這種含3D座標的行人識別技術可用來管理與監控施工現場,對於提高生產效率和現場安全具有重大價值。然而目前這方面的文獻很少,主要的原因是利用雙像定位必須先找出兩張影像中的共同點,也就是必須對左右雙像中的工人作匹配,因此不只要識別行人,還要識別其身分,因此相當困難。為了免除必須對左右雙像中的工人作匹配的困擾,本文採用單像進行3D定位。本研究的主要目的有二:(1)單像攝影測量進行物方座標的三維定位。(2) 識別工地現場用來做為攝影測量後方交會法已知點的標記,並對其進行像平面座標二維定位。採用的研究方法如下: (1)利用附加條件,例如行人站立點的高程,將雙像定位轉化為單像定位。(2)利用深度學習實現已知點標記的自動識別和二維定位。研究結果顯示 (1)傳統的雙像攝影測量、單像之高程已知法、身高已知法、距離已知法的行人定位誤差平均值分別為0.28 m、0.45 m、0.24 m、0.14 m。單像法可以達到雙像法的精度。(2) 敏感性分析顯示,單像之高程已知法、身高已知法、距離已知法的假設高程、身高、距離各有10公分的誤差大約會造成20公分的3D定位誤差。(3) 深度學習的結果顯示,三種標記識別模型的識別精準度、召回率、mAP、二維定位誤差(像素)分別為單標示單分類法(94%、 37%、 45%,、 6.99)、多標示單分類法(84%、63%、 55%、 3.44)、多標示多分類法(97%、 64%、 58%、3.76)。結果表明,深度學習可以精確識別與定位標記。 |
英文摘要 |
With the rapid development of deep learning, pedestrian recognition technology has become quite mature. On the other hand, photogrammetry is also quite mature, and using dual image positioning, 3D positioning of common points in images can be performed. Therefore, if pedestrian recognition technology and photogrammetry can be combined, it is possible to automate 3D positioning of workers in construction sites. This pedestrian recognition technology with 3D coordinates can be used to manage and monitor construction sites, which is of great value to improve productivity and site safety. However, there is little literature on this topic, mainly because it is difficult to identify not only pedestrians but also their identities using dual-image localization because the common points in both images must be identified first, i.e., workers in both left and right images must be matched. In order to avoid the trouble of matching the workers in both left and right images, this paper uses a single image for 3D localization. The main objectives of this study are twofold, including (1) to perform 3D localization of pedestrian by single-image photogrammetry. (2) To identify the markers at the site used as the known points of the intersection method of photogrammetry, and to perform 2D positioning of the image plane coordinates of markers. The following research methods are used: (1) Converting dual image localization to single image localization using additional conditions, such as the elevation of the pedestrian standing point. (2) Automatic recognition and 2D localization of known point markers using deep learning. The results of the study showed that (1) the average error of pedestrian positioning for the conventional dual-image photogrammetry, the three single-image method, known elevation method, known height method, and the known distance method were 0.28 m, 0.45 m, 0.24 m, and 0.14 m. Therefoore, the single-image method could achieve the accuracy of the dual-image method. (2) Sensitivity analysis shows that a 10 cm error in elevation, height and distance for the single-image method will result in a 3D positioning error of about 20 cm. (3) The results of deep learning show that the recognition accuracy, recall, mAP, and 2D localization error (in pixels) of the three marker recognition models are 94%, 37%, 45%, 6.99 for the single-label single-classification method, 84%, 63%, 55%, 3.44 for the multi-label single-classification method, and 97%, 64%, 58%, 3.76 for the multi-label multi-classification method. The results showed that deep learning can accurately identify and localize markers. Key words: construction site, photogrammetry, pedestrian localization, deep learning, image recognition, 2D positioning of surveying marks. |
第三語言摘要 | |
論文目次 |
圖目錄 III 表目錄 VII 第一章 導論 1 1.1 研究動機 1 1.2 研究方法 1 1.3 研究內容 2 第二章 文獻回顧 4 2.1 共線方程式 4 2.2 雙像攝影測量原理 5 2.3 單像攝影測量 10 2.4 深度學習與影像識別 10 2.5 以深度學習作行人識別、定位相關研究 16 2.6 結語 19 第三章 工地行人之單像攝影三維定位 21 3.1 前言 21 3.2 影像資料收集 22 3.2.1 攝影設備:採用iphone 11 拍攝 22 3.2.2 實驗場地:淡江大學 22 3.3 方法一 : 高程已知法 23 3.4 方法二 : 身高已知法 31 3.5 方法三 : 距離已知法 36 3.6 方法四 : 假設同一平面之八參數法 39 3.6.1 八參數法之建模 41 3.6.2 八參數法之測量 46 3.7 方法比較實驗 49 3.8 蛋捲廣場-雙像、單像比較 53 3.9 單像敏感性分析 57 3.10 結語 60 第四章 深度學習之現場基準點標記識別與二維定位 63 4.1 前言 63 4.2 影像資料收集 63 4.2.1 攝影設備: 採用iphone 11 拍攝 63 4.2.2 實驗場地:淡江大學 63 4.2.3 標記設計: 63 4.3 Yolo的訓練過程 64 4.4 方法一 : 單標示(labeling)單分類法 77 4.5 方法二 : 多標示(labeling)單分類法 83 4.6 方法三 : 多標示(labeling)多分類法 91 4.7 方法比較實驗 99 4.8 結語 101 第五章 結論與建議 106 5-1 結論 106 5-2 建議 108 參考文獻 110 附錄A Matlab軟體-像平面座標擷取 112 附錄B 影像標註軟體-標示(labeling)方法與實例 116 圖目錄 圖1- 1. 研究流程圖 3 圖2- 1. 攝影測量中共線式 4 圖2- 2. 共線方程式之參數與應用:後方交會解算 6 圖2- 3. 共線方程式之參數與應用:前方交會解算 7 圖2- 4. 攝像機位置和旋轉角度的說明 8 圖2- 5. 物方(X,Y,Z),相機(XC,YC,ZC)之間的關係 8 圖2- 6. NMS示意圖 11 圖2- 7. YOLO V1 架構 12 圖2- 8. YOLO V1損失函數 13 圖2- 9. IOU介紹 13 圖2- 10. IOU預測指標 13 圖2- 11. YOLOV4與其他物件檢測器性能比較 15 圖2- 12. 物件檢測器[18] 15 圖2- 13. 坐標計算原理[16] 16 圖2- 14. 系統模型 [19] 17 圖2- 15. CAMLOC系統的方框圖 19 圖2- 16. 定義同相點的網格 19 圖3- 1. 單像、雙像攝影測量流程圖 21 圖3- 2. 手機的座標系統 22 圖3- 3. 手機的座標系統 23 圖3- 4. 驚聲大樓10F俯拍蛋捲廣場照片 24 圖3- 5. 高程已知法EXCEL試算表 25 圖3- 6. 九參數照片 25 圖3- 7. 空間直角座標之間的轉換 27 圖3- 8. 旋轉矩陣照片 27 圖3- 9. 像平面座標照片 28 圖3- 10. 共線方程式公式(1)照片 29 圖3- 11. M旋轉矩陣照片 29 圖3- 12. 誤差平方和與規劃求解照片 30 圖3- 13. 高程已知法單像定位照片 31 圖3- 14. 驚聲大樓12F俯拍蛋捲廣場照片 32 圖3- 15. 身高已知法EXCEL試算表 32 圖3- 16. 共線方程式公式(1)照片 35 圖3- 17. 誤差平方和與規劃求解照片 35 圖3- 18. 身高已知法單像定位照片 36 圖3- 19. 驚聲大樓12F俯拍蛋捲廣場照片 37 圖3- 20. 距離已知法照片 37 圖3- 21. 誤差平方和EXCEL 39 圖3- 22. 距離已知法單像定位照片 39 圖3- 23. 驚聲大樓12F俯拍蛋捲廣場(建模)照片 41 圖3- 24. 八參數平面座標轉換法(建模)照片 41 圖3- 25. 座標照片 42 圖3- 26. 初始八參數照片 43 圖3- 27. 八參數公式照片 43 圖3- 28. 誤差平方和照片 44 圖3- 29. 八參數公式照片 44 圖3- 30. 最佳八參數解照片 45 圖3- 31. 計算UV八參數平面座標照片 45 圖3- 32. 已知UV八參數平面座標照片 45 圖3- 33. 八參數平面座標轉換法(驗算)照片 46 圖3- 34. 像片座標與物方座標照片 46 圖3- 35. 步驟1 : 輸入像平面座標(U,V) 已知值 47 圖3- 36. 步驟2 : 輸入模型參數已知值 47 圖3- 37. 步驟3 : 輸入物方二維座標(X,Y)初始值 48 圖3- 38. 步驟4 : 由物方二維座標(X,Y)計算像平面座標(U,V)的計算值 48 圖3- 39. 步驟6 : 解算物方二維座標(X,Y)推估值 49 圖3- 40. 八參數平面座標轉換(測量)照片 49 圖3- 41. 工學大樓8樓往3樓拍攝照片 51 圖3- 42. 工學大樓6樓往3樓拍攝照片 51 圖3- 43. 工學大樓5樓往3樓拍攝照片 52 圖3- 44. 圖書館9F俯拍蛋捲廣場照片 (已知點) 54 圖3- 45. 驚聲大樓9F俯拍蛋捲廣場照片 (已知點) 55 圖3- 46. 圖書館9F俯拍蛋捲廣場照片 (未知點) 55 圖3- 47. 驚聲大樓9F俯拍蛋捲廣場照片 (未知點) 56 圖4- 1. 4種標記設計 64 圖4- 2. [CONVOLUTIONAL]-LAYER 110層照片 65 圖4- 3. [ROUTE]-LAYER 21層照片 66 圖4- 4. [SHORTCUT]-LAYER 23層照片 67 圖4- 5. [UPSAMPLE]-LAYER 2層照片 68 圖4- 6. [MAXPOOL]-LAYER 3層照片 68 圖4- 7. FILTERS照片 69 圖4- 8. [YOLO]-LAYER 3層照片 69 圖4- 9. GENERATE_TRAIN.PY和GENERATE_TEST.PY照片 71 圖4- 10. GENERATE_TRAIN.PY和GENERATE_TEST.PY照片 72 圖4- 11. GENERATE_TRAIN.PY照片 72 圖4- 12. GENERATE_TEST.PY照片 73 圖4- 13. OBJ.NAMES.PY照片 73 圖4- 14. OBJ.NAMES 檔案照片 74 圖4- 15. OBJ.DATA.PY照片 74 圖4- 16. OBJ.DATA 檔案照片 75 圖4- 17. YOLO訓練過程照片 75 圖4- 18. 從上次保存的地方開始訓練的程式碼照片 76 圖4- 19. 從上次保存的地方開始訓練的權重照片 77 圖4- 20. 需要識別的標記 78 圖4- 21. 室內研究室人工的標示 79 圖4- 22. 室內研究室YOLO的偵測結果 79 圖4- 23. 研究室_YOLO自動與MATLAB手抓座標比較 80 圖4- 24. 驚聲大樓4樓俯拍室外蛋捲廣場人工的標示 81 圖4- 25. 驚聲大樓4樓俯拍室外蛋捲廣場YOLO的偵測結果 82 圖4- 26. 蛋捲廣場_YOLO自動與MATLAB手抓座標比較 83 圖4- 27. 需要識別的雙重標記 84 圖4- 28. 人工的標示 85 圖4- 29. 室內_YOLO的偵測結果圖 85 圖4- 30. 研究室_YOLO自動與MATLAB手抓座標比較 86 圖4- 31. (方形)研究室_YOLO自動與MATLAB手抓座標比較 87 圖4- 32. (圓形)研究室_YOLO自動與MATLAB手抓座標比較 87 圖4- 33. 人工的標示 88 圖4- 34. 室外工館大樓對面場地_YOLO的偵測結果圖 89 圖4- 35. 工館對面場地_YOLO自動與MATLAB手抓座標比較 90 圖4- 36. (正方形) 工館對面場地_YOLO自動與MATLAB手抓座標比較 90 圖4- 37. (圓形) 工館對面場地_YOLO自動與MATLAB手抓座標比較 91 圖4- 38. 需要識別的標記 92 圖4- 39. 人工的標示 93 圖4- 40. 室內研究室YOLO的偵測結果 93 圖4- 41. 研究室_YOLO自動與MATLAB手抓座標比較 94 圖4- 42. (方形)研究室_YOLO自動與MATLAB手抓座標比較 95 圖4- 43. (圓形)研究室_YOLO自動與MATLAB手抓座標比較 95 圖4- 44. 室外化學館場地_人工的標示 96 圖4- 45. 室外工學大樓對面場地_YOLO的偵測結果 97 圖4- 46. 工學大樓對面場地_YOLO自動與MATLAB手抓座標比較 98 圖4- 47. (正方形)工學大樓對面場地_YOLO自動與MATLAB手抓座標比較 98 圖4- 48. (圓形)工學大樓對面場地_YOLO自動與MATLAB手抓座標比較 99 圖4- 49. 實驗設計示意圖 100 圖4- 50. 室外_YOLO的偵測結果 101 圖 附錄A- 1. YOLO測試照片 112 圖 附錄A- 2. MATLAB讀取照片 113 圖 附錄A- 3. MATLAB放大照片 113 圖 附錄A- 4. MATLAB出現光標 114 圖 附錄A- 5. MATLAB照片 115 圖 附錄B- 1. 操作步驟一 : 開啟檔案 116 圖 附錄B- 2. 操作步驟二 : 放大畫面 117 圖 附錄B- 3. 操作步驟三 : 標示框的範圍 117 圖 附錄B- 4. 操作步驟四 : 選擇類別 118 圖 附錄B- 5. 操作步驟五 : 儲存TXT檔 119 圖 附錄B- 6. TRAIN文件檔照片 120 圖 附錄B- 7. TEST文件檔照片 121 表目錄 表2- 1. PRECISION& RECALL 14 表3- 1. 工學大樓各樓層九參數比較 52 表3- 2. 單像攝影三維定位4種方法各樓層誤差距離(單位公尺) 53 表3- 3. 單像攝影三維定位各個樓層平均誤差距離(單位公尺) 53 表3- 4. 單像攝影三維定位4種方法平均誤差距離(單位公尺) 53 表3- 5. 雙像攝影測量物方座標誤差(單位公尺) 56 表3- 6. 單像高程已知法物方座標誤差(單位公尺) 56 表3- 7. 單像身高已知法物方座標誤差(單位公尺) 56 表3- 8. 單像距離已知法物方座標誤差(單位公尺) 57 表3- 9. 八參數法之測量物方座標誤差(單位公尺) 57 表3- 10. 單像高程已知法(驚聲大樓) (單位公尺) 58 表3- 11. 單像高程已知法(圖書館) (單位公尺) 58 表3- 12. 單像身高已知法(驚聲大樓) (單位公尺) 58 表3- 13. 單像身高已知法(圖書館) (單位公尺) 59 表3- 14. 單像距離已知法(驚聲大樓) (單位公尺) 59 表3- 15. 單像距離已知法(驚聲大樓) (單位公尺) 60 表3- 16. 三種單像已知法平均誤差比較(驚聲大樓) (單位公尺) 60 表3- 17. 三種單像已知法平均誤差比較(圖書館) (單位公尺) 60 表3- 18. 三種單像已知法敏感性平均誤差比較(單位公尺) 62 表4- 1. [CONVOLUTIONAL]-LAYER的配置說明 65 表4- 2. [ROUTE]-LAYER的配置說明 66 表4- 3. [SHORTCUT]-LAYER的配置說明 67 表4- 4. [UPSAMPLE]-LAYER的配置說明 68 表4- 5. [MAXPOOL]-LAYER的配置說明 69 表4- 6. [YOLO]-LAYER 3層前面的[CONVOLUTIONAL]-LAYER的配置說明 70 表4- 7. [YOLO]-LAYER 的配置說明 71 表4- 8. OBJ.DATA 檔案 74 表4- 9. 室內_YOLO像平面座標(單位像素) 80 表4- 10. 室內_YOLO像平面座標比較(單位像素) 80 表4- 11. 戶外_YOLO像平面座標比較(單位像素) 82 表4- 12. 室內_YOLO像平面座標比較(單位像素) 86 表4- 13. 戶外_YOLO像平面座標比較(單位像素) 89 表4- 14. 室內_YOLO像平面座標比較(單位像素) 94 表4- 15. 室外_YOLO像平面座標比較(單位像素) 97 表4- 16. 室外_YOLO像平面座標(單位像素) 100 表4- 17. 單標示單分類法標記比較(單位像素) 102 表4- 18. 單標示單分類法偵出率 102 表4- 19. 多標示單分類法標記比較(單位像素) 103 表4- 20. 多標示單分類法偵出率 103 表4- 21. 多標示多分類法標記比較(單位像素) 104 表4- 22. 多標示多分類法偵出率 104 表4- 23. 實驗標記比較(單位像素) 105 表4- 24. 實驗偵出率 105 表5- 1. 方法比較 107 |
參考文獻 |
1.Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). 2.Redmon, J., & Farhadi, A. (2016). Better, faster, stronger. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 6517-6525). 3.Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767. 4.Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). 5.Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham. 6.Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587). 7.Zeiler, M. D., & Fergus, R. (2014, September). Visualizing and understanding convolutional networks. In European conference on computer vision (pp. 818-833). Springer, Cham. 8.Girshick, R. (2015). Fast R-CNN. arXiv e-prints. arXiv preprint arXiv:1504.08083, 454. 9. Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497. 10.Ren, S., He, K., & Girshick, R. (2015). Jian sun. Faster r-cnn: Towards real-time object detection with region proposal networks. 11.Ren, S., He, K., Girshick, R., & Sun, J. (2016). Faster R-CNN: towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6), 1137-1149. 12.Guo, R., Li, S., & Wang, K. (2020, September). Research on YOLOv3 algorithm based on darknet framework. In Journal of Physics: Conference Series (Vol. 1629, No. 1, p. 012062). IOP Publishing.Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). 13.Wang, Y., Wang, L., Jiang, Y., & Li, T. (2020, September). Detection of Self-Build Data Set Based on YOLOv4 Network. In 2020 IEEE 3rd International Conference on Information Systems and Computer Aided Education (ICISCAE) (pp. 640-642). IEEE. 14.Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). 15.Kim, J. A., Sung, J. Y., & Park, S. H. (2020, November). Comparison of Faster-RCNN, YOLO, and SSD for Real-Time Vehicle Type Recognition. In 2020 IEEE International Conference on Consumer Electronics-Asia (ICCE-Asia) (pp. 1-4). IEEE. 16.Zhang, J., Zhou, Z., Xing, L., Sheng, X., & Wang, M. (2020, June). Target recognition and Location based on deep learning. In 2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC) (Vol. 1, pp. 247-250). IEEE. 17.黃聖智. (2020). 人工智慧之雞隻行為影像判定系統. 淡江大學電機工程學系碩士班學位論文, 1-56. 18.Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934. 19.韩江洪, 袁稼轩, 卫星, & 陆阳. (2018). 基于深度学习的井下巷道行人视觉定位算法. 计算机应用, 0-0. 20.Cosma, A., Radoi, I. E., & Radu, V. (2019). Camloc: Pedestrian location estimation through body pose estimation on smart cameras. In 2019 International Conference on Indoor Positioning and Indoor Navigation (IPIN) (pp. 1-8). IEEE. 21.Chen, H. T. (2016). Geometry-based camera calibration using five-point correspondences from a single image. IEEE Transactions on Circuits and Systems for Video Technology, 27(12), 2555-2566. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信