在閱讀此文之前,麻煩您點擊一下「關注」,既方便您加入討論和分享,又能給您帶來不一樣的閱讀體驗,感謝您的支持
文|墨卿煙
編輯|墨卿煙
前言
當今世界上,由於數字化的自動化系統比較稀少,所以有許多行業的工程文檔還是紙質格式,而在這些文檔中,單線圖的理解和解釋,成了人們最痛疼的問題。
但是這些技術文檔又在電氣系統、配電系統等多個領域,都發揮着至關重要的作用,所以不得不依靠許多高技能工程師和專業人員,花費大量的時間來破譯這些圖紙。
近年來工程圖紙的數字化變得越來越重要,設備監控、風險分析、安全檢查和其他操作的發展,全部都依賴於這一技術,並且它們還受到計算機視覺和圖像理解的影響。
隨着卷積神經網絡的發展,並廣泛用於各種與圖像相關的任務中,其中就包括基於生物特徵的身份驗證、圖像分類、手寫識別和對象識別。
在卷神經網絡出現之前,圖像的分割、分類和對象識別技術幾乎可以說是在原地踏步,然而,卷神經網絡的引入徹底改變了這一領域。
並且為了解決工程圖紙數字化的難題,一位外國的科學家於2014年首次提出GANs,用來解決數據集不平衡的問題,圖紙中的幾類符號,而在數據集中被過度表示或是服務不足,則是人們要面臨的第二個難題。
用於對象識別的 YOLO V5 模型,是一款特別關注單線符號的模型,是科學家們用來克服第二個難題的一大助力,那麼他是如何工作的呢?
相關作品
科研界在該領域最近又取得了新的突破,使得用於數字化工程圖的不同深度學習技術有了新的發展,GAN就是科學家們的新產物。
工程文檔的數字化
工程圖紙中的內容繁多,通常包含各式各樣的符號、實線或虛線以及文本,以濃縮和全面的方式描繪複雜的工程過程,這些技術圖紙在多個學科中得到了廣泛的應用。
為了將這些草圖數字化,人們開始在機器視覺上傾注更多的心血,隨着計算機視覺和機器學習的顯著進步,再加上許多還沒有進行數字化的數據,能夠將圖紙數字化的全自動框架成了人們最為迫切的需求。
嚴重依賴廣泛的特徵提取,是學習方法的一個主要限制,這高度依賴於提取的特徵的質量,該領域的現有文獻主要集中在解決數字化工程圖的特定方面,而不是提供全面且完全自動化的框架。
一些研究集中在工程圖紙中常見符號的識別和分類,以及圖表中文本與其他圖形元素的分離,採用圖像處理技術進行線識別和深度學習方法進行符號檢測。
或者在其他研究中也採用了啟發式策略,使用特定方法對圖紙中的組件進行定位和分類,來達到一個較高的精度水平。
然而當原理圖或符號表示發生變化時,這些方法可能需要修改啟發式規則,或開發新的啟發式規則,此外,這些方法的有效性,在很大程度上取決於數據集中數據的平衡分佈。
近年來人們嘗試將基於深度學習的技術,應用於類似於工程圖紙數字化的任務,一些研究利用基於單階段檢測的技術來識別平面圖中的門、窗和傢具物體,併產生了較好的結果。
但是這些研究使用的是小數據集,每張圖紙中的傢具物品數量不足,這也導致了導致性能的下降。
過程和儀錶圖中的符號識別是一個非常重要的領域,儀錶圖的複雜性給符號識別帶來了各種挑戰,包括相鄰線、符號重疊、區域不明確以及符號之間的相似性。
一項研究使用合成和原始繪圖表數據集,評估了四種分類工具,其中表現出最佳性能的模型,也存在着明顯的弊端,它都依靠在分類之前對符號進行分組,並刪除線以獲得更清晰的觀察。
基於啟發式方法與深度學習技術的結合,工程圖紙的組件檢測有了突破壁壘的希望,採用兩階段過程,涉及用於連接管道標籤和符號的歐幾里得度量,以及用於管道檢測的概率霍夫變換,用以本地化符號和文本。
另一種方法利用完全鏈接的卷積神經網絡,來開發符號定位及技術,包含 672 個工藝流程圖的數據集用於自動化工程圖,與傳統方法相比,該方法的性能有所提高,但是,卻沒有實現對所有組件進行準確檢測。
為了捕獲單線手繪電路圖草圖過程中,筆運動產生的時變信號,科學家們使用了隱馬爾可夫模型,為此,檢查了包含100張手繪草圖的數據集,在正確分類與連接線和符號類別相關的點方面,它達到了一個較高的準確率。
後來,科學家們開發了一種新的電路圖識別系統,將草圖識別作為一個動態編程問題來解決,並結合了一種新技術,這項技術能成功識別草圖中穿插的符號,證明該方法在識別自由形式草圖方面是有效的。
先進的深度學習方法,被人們率先採用在音樂方面,並且取得了顯著改善,多項技術已成功應用於識別手寫音樂符號,與傳統的符號識別和檢測結構化圖像處理方法相比,具有更高的性能。
總之,現有的研究強調了機器學習的現狀和技術圖像理解之間的顯著差距,這種差異源於該領域的快速發展,以及關鍵應用領域的不平衡和漸進式進展。
廣闊網
2014年,生成對抗網絡於由一位美國科學家首次提出,該網絡被認為是可以創建獨特而新鮮內容的生成模型,生成器和鑒別器是構成GAN的兩個競爭模型。
鑒別器用作從生成器和訓練集接收輸入的分類器,並且它將學習如何區分訓練過程中的真實輸入樣本和虛假輸入樣本,但是,生成器則被教導如何創建準確反映原始內容基本屬性的樣本。
那麼生成器和鑒別器分別是怎麼工作的呢?
生成器其實是一個使用當前數據生成新的逼真圖片的網絡,使用隨機噪聲創建圖像,生成器的目標是欺騙鑒別者,使其相信它產生的虛假圖像是真實的,當生成器產生的樣本被判別時,它會嘗試儘可能降低鑒別器的精度。
與生成器不同,鑒別器是用於區分圖像的網絡,它確定輸入圖像是生成器創建的假圖像還是已經存在的真實圖像,鑒別器的工作是突出顯示已經存在的實際圖像,與生成器生成的虛假圖像之間的差異。
最小化真實數據分佈和人工數據分佈之間的差異是該模型訓練的主要目標,在區分真實樣本時,鑒別器尋求優化精度,當將假樣本與真實樣本分開時,它尋求最大化。
該模型中的生成器負責生成虛構的圖片,為了確定哪個圖片是真實的,哪個是假的,鑒別器使用生成器創建的假圖像或已經存在的真實圖像,生成器和鑒別器將在數千次迭代後,以對抗的方式發展。
建議的方法
科學家們提出了直線圖中的符號識別方法,並且提供了有關用於測試的數據集的信息,包括數據探索和預處理技術,為了解決這些圖紙中的類不平衡問題,科學家們還提出了解決方案。
SLD符號識別方法
實驗分為兩部分:1、通過兩個子模型來生成合成圖像;2、檢測原始和增強圖像中的符號。
這些圖表可以在許多部門中找到紙質文檔或掃描圖像,解釋和分析這些文件需要大量的時間、精力和專業知識,準確理解這些圖紙至關重要,一旦誤讀這些論文,就可能會導致非常嚴重的後果。
作為數據準備過程的一部分,科學家們使用該模型來創建人工符號圖片,數據集還分為兩類,第一組集合僅包含實際圖像。
第二組數據集,則是由兩個子模型創建的實際圖像和生成的圖像組成,第一組數據集僅包括原始圖片,而另一組數據集將原始圖像與該模型生成的合成圖像相結合。
SLD數據分析
在原始數據中,該數據表的尺寸為7000×5000像素,科學家們將工作表分成6*4網格以加快訓練速度,創建了24個子圖像塊,與原始圖片相比來說相對較小。
為了訓練深度學習模型,圖像和原理圖必須進行完全注釋,因此科學家們使用一種工具對該圖像集進行注釋,注釋圖表的過程非常簡單,只需要使用這種工具來記錄相關符號的類及其位置即可。
注釋產生的數據保存在表示多個唯一類的文件中,近兩千種不同符號的多個樣本,但是這樣的原始樣品是非常不平衡的。
對此進行研究的科學家們表示,在某些情況下,符號之間的差異可能非常大,但由於代表性異常不足,這些符號被排除在原始數據集之外。
GANs的數據生成
為了確保該模型的卷神經網絡、骨幹網絡可以正常使用,有人提供了一組要求,使用其原始設置,將鑒別器和生成器上的池化層替換為扼殺卷積。
卷神經網絡經常用於識別特徵,其次為了解決梯度消失問題,科學家們採用批量歸一化方法,將每一層都內置了一個梯度傳播器,以此來保證梯度到達每一層。
同時防止生成器模型在相應點收集所有實例,在這種情況下,一個主要問題是各種神經網絡使用了各種激活函數,用於激活和亞當優化,結果表明,該模型具有更高的效率,並通常被認為是黃金標準。
在這項研究中,科學家們使用該模型來創建單線圖的合成圖片,然後將合成圖像與另一模型所生成的圖像和實際圖像相結合,以此來增加數據集並改進符號識別算法。
看樣子,解決工程圖數據化的難題指日可待。
結論
這項研究的主要目標是比較兩個模型生成的合成圖像的質量,該研究將實際的SLD圖像與合成圖像相結合,各種類型和數量的圖像被用於培訓目的。
該模型能夠成功檢測來自多個不同類別的符號,儘管某些組件的差異很小,但這些結果表明了檢測技術在具有挑戰性的任務中的準確性。
科學家們的研究表明,在訓練過程中混合使用真實和合成圖像,可以增強識別符號的能力,根據這一發現,科學家們發現,YOLO模型是有希望能夠解決工程圖數據化困難的。
在閱讀此文後,煩請您關注+評論,方便剩下後續事件有新的進展能夠讓您迅速關注到