前 言
圖像理解是計算機視覺領域中的一個核心問題。對圖像理解而言,關鍵的一步是提取圖像中構成場景語義結構的特征并將其表征為高層任務容易利用的形式。一種傳統的特征提取方法為先尋找邊緣,然后形成直線或組合輪廓線。這些特征為圖像高層語義的理解提供了基礎。
傳統的特征提取方法在一定程度上取得了很大進展,目前有大量針對邊緣檢測、直線檢測以及輪廓檢測的算法。然而,由于這些算法本質上都是依賴邊緣檢測的,所以都存在一些顯著的問題,如對邊緣檢測的結果依賴性過高及需要人工設定的參數過多等。一般來說,這些算法都是單純從計算的角度嘗試定義問題,而往往忽略問題的本質,即生物視覺系統如何完成邊緣―直線―輪廓檢測的生理機制,所以難以從根本上解決這些問題,更難以解決基于這些結果的更高層的圖像理解任務。
對人眼而言,視覺場景中最顯著的特征就是不同顏色形成的邊緣,以及邊緣形成的直線、曲線和更復雜的形狀。本質上,我們看到的直線及曲線都可以看作相同或不同方向的短直線的分段組合。
因而,本書將方向(短直線)看作對圖像理解最有意義的一種特征。顯然,方向這一初級特征高于像素顏色、灰度等底層特征,又低于輪廓等高層語義特征。作為基于神經科學的人工智能和認知科學的跨學科研究,本書嘗試利用生物視覺系統檢測方向的神經機制,設計一個仿生學的方法,從根源上實現特征提取及表征這一基本問題的解決,進而為更復雜的任務提供生理基礎。
在視覺神經科學中,簡單細胞的方向選擇性一直是一個熱點問題。諾貝爾生理學獎獲得者David Hubel 和Torsten Wiesel 提出過一個簡單細胞的感受野模型(以下簡稱Hubel-Wiesel 神經模型),該模型用幾何形式的約束解釋了簡單細胞對條形刺激的方向選擇性。一方面,該模型具有簡單樸素的形式;另一方面,該模型也有不少的缺陷,因而受到了許多挑戰。盡管如此,目前沒有嚴格的證據直接支持或者否定這個經典的模型。
本書在Hubel-Wiesel 神經模型的基礎上,提出一個方向計算的雙層網絡模型(以下簡稱本書模型)。與Hubel-Wiesel 神經模型相比,本書模型對底層神經元的限制更少,對刺激形式的要求更低,且實現了每一層計算的細節,因而靈活度更高。數值仿真實驗表明,本書模型能夠很好地模擬簡單細胞的方向選擇性。
利用方向計算模型,本書進一步提出一個圖像的方向檢測算法(以下簡稱本書算法)。在合成圖像及自然圖像上得到的實驗數據表明,該算法能夠從復雜圖像中提取滿意的方向圖。與傳統算法得到的邊緣圖、直線圖等相比,方向圖突出顯著語義特征而抑制瑣碎干擾信息,更接近物體的真實輪廓圖,因而促進了分割及識別等高層任務更好更快地完成。此外,本書算法對參數調節的依賴更低、可并行計算程度高。
作為模型的應用之一,本書巧妙地將方向檢測算法用于解釋幾種著名的幾何視錯覺。本書用定性計算的方法從局部探索錯覺的產生機制,生成了與人眼觀察理解相似的錯覺現象,并將這種方法推廣到一系列錯覺的解釋。作為更深層次的應用,本書最后嘗試利用單幅圖像的方向圖,恢復其中場景的部分三維信息,也取得了一定的成果。
本書正文部分安排如下:第1章介紹相關研究的現狀與本研究的主要內容及特點;第2章介紹本書模型建立的生理基礎與依據;第3章介紹模型的底層設計,討論外側膝狀體細胞對刺激的響應函數;第4章介紹模型的頂層設計,討論簡單細胞利用傳入外側膝狀體對刺激的響應確定邊緣方位的幾種計算方法;第5章用數值實驗證明模型的正確性與可行性,確定模型中參數的優化取值,并使用仿真實驗模擬形成簡單細胞具有方向選擇性的感受野;第6章介紹基于方向選擇性模型的方向檢測算法在圖像表征、分割及匹配等方面的應用;第7章將方向檢測用于解釋一系列幾何視錯覺;第8章利用單幅圖像的方向圖部分恢復場景的三維信息;總結部分總結全書并展望后續研究課題。
作為我的第一本學術著作,本書包含了2007s2013年我在復旦大學攻讀研究生期間的主要研究成果,也是我的博士學位論文的主要部分。許多人對本書的完成提供了不可或缺的幫助和啟發。首先要感謝父母對我的養育之恩;感謝王曉梅師姐為本書第2章的寫作提供了大量參考資料,感謝肖錦文師弟為本書第6章6.4.2節提供了實驗數據;最要感謝我的導師危輝教授,從課題選擇、數學建模、算法設計到實驗分析等各環節都凝聚著危老師的辛勤指導,是他的精心培養才使我順利完成了學業。
本書既然是對之前研究成果的總結,自然不是終結,而是后續工作的起點。本書中懸而未決的問題與不盡理想的結果都是我正在研究的重要課題,也是我未來的研究方向。作為一名追求科學的年輕學者,這是我第一次撰寫學術論著,書中難免包含不嚴謹之處甚至錯誤,敬請學界前輩與同仁不吝賜教。若有任何寶貴建議,請發送至
renyuan@fudan.edu.cn,本人在此深表謝意!
任遠