最適合 AI 應用的電腦視覺類型是什麼?

電腦視覺是指將人類視覺導入電腦的技術目標,進而實現從裝配線檢查到駕駛輔助和機器人技術的應用。電腦缺乏像人類一樣憑直覺感受視覺和影像的能力。相反地,我們必須為電腦提供演算法來解決特定領域的任務。

本文是從讓電腦更像人類一樣「觀看」以感知世界的角度來探討人工智慧 (AI)。我會簡要比較每種類型的電腦視覺,特別是在本機收集、處理和操作資料而不依賴雲端資源的嵌入式系統。

什麼是電腦視覺?

在 1960 年代,執行的電腦視覺任務包括從頁面讀取文字 (光學字元辨識) 以及辨識圓形或矩形等形狀。電腦視覺從此成為 AI 的核心領域之一,涵蓋任何能感知、合成或推斷資料含義的電腦系統。

電腦視覺有以下三種方法:

  • 傳統的電腦視覺是指解決移動估測、全景影像拼接或線條偵測等任務的程式設計演算法。傳統的電腦視覺使用標準訊號處理和邏輯來解決任務。工程師選擇手動從影像中擷取含義的函數,並在解決任務的演算法中使用產生的特徵。Canny 邊緣偵測或光流等演算法可以分別找到移動的輪廓或向量,這對於隔離影像中的物件或追蹤後續影像的移動非常有用。需要為此任務或環境校準的參數,是以手動方式或透過支援演算法進行調整。
  • 具有傳統機器學習的電腦視覺需要專家「精心設計」用於訓練機器學習模型的特徵集。其中許多特徵是傳統電腦視覺應用領域常見的。並非所有特徵都是實用的,因此需要進行分析以刪除資訊不足的部分;機器學習演算法會根據這些特徵進行訓練以找出模式,這對於手動隔離可能較為棘手。要有效實作這些演算法,需要影像處理和機器學習方面的專業知識。
  • 具有深度學習的電腦視覺為機器學習,卻在非常大的神經網路模型上,操作未處理的大量「原始」資料。深度學習透過將特徵擷取作業引入模型中,對電腦視覺產生了重大影響,這樣演算法就可以學習資訊量最大的特徵,而不需要專業知識來手工製作特徵集。深度學習甚至更能隔離微妙的模式,但對於運算和記憶體的需求也更高了。

因此哪一種電腦視覺類型是最好的?

這最終取決於表 1 中列出的幾項因素。這些是廣泛的歸納陳述,其中準確性和任務複雜度等指標視應用實例而定。

外觀

傳統電腦視覺

傳統機器學習

深度學習

準確度

中等

中等

高等

需要專業知識

高等

高等

低等

複雜任務的有效性

低等

中等

高等

運算強度

低等

中等

高等

針對特定任務或環境進行調校的概括性或簡單性

低等;需要專家調校

中等;使用更多資料進行調校

高等;使用更多資料進行調校

可解釋性

高等

中等到低等

低等到無

需要樣本或訓練資料

低等到無

中等

高等

成長和研發興趣

低等

低等

高等且加速

表 1:電腦視覺技術比較

電腦視覺與傳統機器學習介於傳統學習方法與深度學習方法之間;與其他兩種方法相比,受益的應用程式集很小。傳統電腦視覺在簡單、高輸送量或安全關鍵應用中,可以很準確且有效率。深度學習是最通用、最容易開發的,並且在複雜應用中具有最高準確度,例如在高密度設計的印刷電路板 (PCB) 組裝驗證過程中,識別缺少的微小零組件。

一些應用程式受益於多種類型的電腦視覺演算法的協同作用,如此可強化彼此的弱點。這種方法在環境可變性高的安全關鍵應用中很常見,例如駕駛輔助系統。例如,您可以使用傳統電腦視覺方法和深度學習模型的光流來追蹤附近的車輛,並使用演算法融合結果,以確定兩種方法是否一致。如果兩者不一致,系統會警告駕駛或啟動安全演練。

另一種方法是依序使用多種類型的電腦視覺。條碼讀取器可以使用深度學習來定位感興趣的區域、裁剪這些區域,然後使用傳統電腦視覺演算法解碼。

深度學習對於電腦視覺應用的好處

與傳統電腦視覺和傳統機器學習相比,深度學習始終具有更高的準確度,而且正在迅速改進,因為深度學習在研究、開放原始碼和商業社群中非常受歡迎。圖 1 從開發人員的角度總結這三種技術的資料流差異。

圖 1:每種電腦視覺方法的資料流

深度學習為運算密集型。然而,處理能力、速度、加速器 (例如神經處理單元和圖形處理單元) 的改進,以及對矩陣和向量運算的軟體支援的改進,已經使運算需求的增加速度趨緩,即使在嵌入式系統上也是如此。像 AM62A7 這類的微處理器會利用硬體加速器在高幀率下執行深度學習演算法。

現實中的電腦視覺

TI AM6xA 產品組合中的處理器,例如 AM62A7,包含深度學習加速硬體,以及用於傳統和深度學習電腦視覺任務的支援軟體。C66x 等數位訊號處理器核心,以及用於光流和立體深度評估的硬體加速器,也可在 TDA4VM 及 AM68PA 等處理器上完成高效能傳統電腦視覺任務。

有了同時支援傳統和深度學習電腦視覺的處理器,就有可能製作出與科幻夢想相媲美的工具。自動購物車使購物流程變得更簡單;手術和醫療機器人能引導醫生提早發現疾病的早期跡象;行動機器人會修剪草坪,也會運送包裹。請參閱 TI 的邊緣 AI 視覺頁面,探索嵌入式電腦視覺改變世界的真實力。

VIN VOUT 充電器可提升客戶充電體驗並縮短開發時間。           

Anonymous