交大視知覺上課筆記

結構為基的物體辨識

交大視知覺上課筆記　鄭炳煌

影像為基的物體辨識有一個最大的弱點：對物體的知覺，經過轉動後的影像內容完全不同，會顯出影像為基的不足之處。結構為基的物體辨識面對這樣的問題就顯的容易許多，因為其辨認物體的準則是基於元件的種類、個數等結構化的特徵，而這些特徵並不會隨著物體的轉動而呈現出過於劇烈的變動 ( 即使是再陌生的物體亦然 ) 。

Biederman 的 RBC(Recognition by Component) 理論：一切物體皆由 geon 構成，物體辨識約略等同於 geon 類別與數目的辨識。在這個理論中， geon 被視為構成物體的基本單位，根據研究僅需 36 種 geon 即可建構出自然界大部分的物體。在破碎的影像中，只要重要的 geon 有被清晰的呈現出來，我們仍然可以成功地辨識出物體。

剪影對於表達物體的特徵結構極為重要，這種從三維壓縮成二維的輪廓圖對於我們視覺系統的辨認往往有較佳的效果，雖然影像看起來較不自然，但是該有的特徵都涵蓋到了。在呈現時間極短的情況下，簡化的圖形往往比實物更為容易辨識。原因是這種簡單的線條畫、卡通畫的呈現手法，清晰的勾勒出物體的輪廓以及特徵，而視覺系統接收到複雜的影像資訊，所做的動作也是先抽取出這些主要的特徵，在快速辨識的表現自然不若先行將重要特徵勾勒出的輪廓圖。

物件概念在資訊視覺化的應用

物件檔案：物體的形象與各種語言的連結，構成一種類似數狀圖的架構。一個被認識的東西，可被理解為檔案資料夾已經開啟，資料已被載入到快取記憶體中，否則只是儲存在記憶內容中 ( 硬碟 ) 。當下意識所能經驗、意識、思想的短期記憶，其容量大小視所作動作而定，大約能同時處理 2-4 個動作，這並不是一個很大的數字，也告訴了我們在利用視覺化呈現資訊的過程，一味的傳達資料是沒有意義的，因為觀察者很有可能分身乏術無法同時處理。

物件檔案有一像特殊的優勢在於可利用我們所熟悉的物件，將較高維度的特徵包裝在一起，不但可包含的特徵數多，且物件清晰異於學習。不過熟悉的物件往往也伴隨著較多的主觀意識存在，在情緒不中立的情況下可能會造成各特徵間有較多的相依關係。

利用 geon 當作繪製資料流程圖的基本元件，可以讓圖表的可讀性大為提升，各種資料的類別、身分、關係都可明確的表達，對於步驟繁多且參與資料極巨的圖形，這樣的繪製方式顯得直觀許多。

運用視覺化傳達資訊，導入我們所熟悉的物件配合表示各種數據與狀態，不但可大為提升可讀性，對於事件的應變也會較為及時 ( 吸引注意力 ) ，這種類比/譬喻化的視覺呈現手法，在人因工程的應用上有很大的發揮空間。

下面開始另一個主題－空間知覺 (Space perception)

空間知覺與表徵性的繪畫

課堂上看了各年代代表性的作品，在埃及時代，已有相當優異的形狀與線條表示能力，但對於空間資訊的描繪 ( 於平面上重建三維的資訊 ) 則顯的無能為力。亞述時期開始能利用空間中物體的大小來粗淺的描述空間的感覺，但所能呈現的特徵仍然是非常初步的。羅馬以及中世紀的時期，開始能觀看到局部的透視表現，然而仍然缺乏穩定且統一的空間特性。要得到完整的空間特性，單純藉由畫家描繪出其觀察接收到的影像訊息，而沒有任何的輔助工具，會有極大的困難 ( 解釋如後 ) 。

空間深度的探索

眼球的運動線索：在不確定所見物體的實際大小相對關係的情況下，網膜影像上的大小並不是一個可靠提供距離的線索 ( 無法得知網膜影像上的絕對大小是由於物件的相對大小或是相對距離遠近造成 ) 。水晶體的調焦肌肉張力資訊會被大腦所接收，在不斷的調節焦距的過程 ( 約 2Hz) ，可以得知距離的資訊。另一個藉由對焦動作而接收的距離資訊則是由瞳孔大小的景深範圍所傳達。除了藉由調焦過程所獲得的距離資訊，雙眼的輻輳作用 (vergence) 也是一個有力的線索，藉由擷取雙眼共同的內移程度可獲取距離深度的資訊。如下圖，觀看越近距離的物件，雙眼的內移程度越明顯。

單眼線索：遮蔽 (occlusion) 順序是一強而有力標定相對距離關係的線索，遮蔽物在前被遮蔽物在後。線性透視也是一個傳達空間資訊的重要線索，藉由幾何關係的推導可以得到空間中相對的距離資訊對應到平面的二維圖像上的位置資訊。畫家如果要針對這個特點精確的構圖，必須藉由尺規的協助方可達成，原因在於眼睛觀看物體的同時不斷地在運動，網膜上的影像不斷的更動，在這樣的情況下，很難有較為客觀且精準的空間資訊。先前的內容提到運動知覺的 motion parallax 現象，其實成因與線性透視相同，也是三維的空間位置資訊與二維圖像的座標資訊之間的透視幾何關係所造成。相同的客觀物理距離，較近者根據幾何關係的配置呈現在二維圖像上會變的較長，通過這些空間中相同的客觀距離所耗費的時間相同，因此會認為較靠近的物體運動速度較快。

我們對於一般畫作上透視呈現的錯誤，有極高的寬容性 (object constancy) ，即使想以非常嚴格的觀點來審視都無法很立即地挑出所有的錯誤，原因如同之前所提：眼球不斷運動的結果造成網膜接收的影像不斷更動，難以客觀的觀察。我們的知覺經驗往往是忽略網膜影像大部分的變化，而記載物體更為本質的資訊。繪畫的過程其實是一種知覺經驗的傳達與內省，而非畫出如我們所見的影像。

前面曾提及我們無法單純藉由網膜影像上的大小來判別物體的遠近，如果我們觀察的物體相對大小已為我們所熟知，如各種硬幣，當投射到網膜影像上是相同的大小，這樣的資訊對我們而言就很具距離的意義(一元較近而五十元較遠)。