- +1
40年風(fēng)云與浮沉,計(jì)算機(jī)視覺(jué)打開(kāi)智能新世界
文/陳根
作為智能世界的雙眼,計(jì)算機(jī)視覺(jué)是人工智能技術(shù)里的一大分支。計(jì)算機(jī)視覺(jué)通過(guò)模擬人類視覺(jué)系統(tǒng),賦予計(jì)算機(jī)“看”和“認(rèn)知”的能力,是計(jì)算機(jī)認(rèn)識(shí)世界的基礎(chǔ)。
確切地說(shuō),計(jì)算機(jī)視覺(jué)技術(shù)就是利用了攝像機(jī)以及電腦替代人眼使得計(jì)算機(jī)擁有人類的雙眼所具有的分割、分類、識(shí)別、跟蹤、判別決策等功能,是創(chuàng)建了能夠在 2D的平面圖像或者 3D的三維立體圖像的數(shù)據(jù)中,以獲取所需要的“信息”的一個(gè)完整的人工智能系統(tǒng)。
計(jì)算機(jī)視覺(jué)利用成像系統(tǒng)代替視覺(jué)器官作為輸入手段,利用視覺(jué)控制系統(tǒng)代替大腦皮層和大腦的剩余部分完成對(duì)視覺(jué)圖像的處理和解釋,讓計(jì)算機(jī)自動(dòng)完成對(duì)外部世界的視覺(jué)信息的探測(cè),做出相應(yīng)判斷并采取行動(dòng),實(shí)現(xiàn)更復(fù)雜的指揮決策和自主行動(dòng)。

作為人工智能最前沿的領(lǐng)域之一,視覺(jué)類技術(shù)是人工智能企業(yè)的布局重點(diǎn),具有最大的技術(shù)分布。計(jì)算機(jī)視覺(jué)40多年的發(fā)展中,人們提出了大量的理論和方法。總體來(lái)看,可分為三個(gè)主要?dú)v程。即馬爾計(jì)算視覺(jué)、多視幾何與分層三維重建和基于學(xué)習(xí)的視覺(jué)。
1982 年,馬爾(David Marr)在其《Vision》一書中提出的視覺(jué)計(jì)算理論和方法,標(biāo)志著計(jì)算機(jī)視覺(jué)成為了一門獨(dú)立的學(xué)科。
馬爾計(jì)算視覺(jué)理論包含二個(gè)主要觀點(diǎn):首先,馬爾認(rèn)為人類視覺(jué)的主要功能是復(fù)原三維場(chǎng)景的可見(jiàn)幾何表面,即三維重建問(wèn)題;其次,馬爾認(rèn)為這種從二維圖像到三維幾何結(jié)構(gòu)的復(fù)原過(guò)程是可以通過(guò)計(jì)算完成的,并提出了一套完整的計(jì)算理論和方法。因此,馬爾視覺(jué)計(jì)算理論在一些文獻(xiàn)中也被稱為三維重建理論。
馬爾計(jì)算視覺(jué)認(rèn)為,從二維圖像復(fù)原物體的三維結(jié)構(gòu),涉及三個(gè)不同的層次。首先是計(jì)算理論層次,也就是說(shuō),需要使用何種類型的約束來(lái)完成這一過(guò)程。馬爾認(rèn)為合理的約束是場(chǎng)景固有的性質(zhì)在成像過(guò)程中對(duì)圖像形成的約束。其次是表達(dá)和算法層次,也就是說(shuō)如何來(lái)具體計(jì)算。最后是實(shí)現(xiàn)層次,馬爾對(duì)表達(dá)和算法層次進(jìn)行了詳細(xì)討論。
馬爾認(rèn)為,從二維圖像恢復(fù)三維物體,經(jīng)歷了三個(gè)主要步驟,即圖像初始略圖(sketch)物體到2.5維描述,再到物體3維描述。其中,初始略圖是指高斯拉普拉斯濾波圖像中的過(guò)零點(diǎn)(zero-crossing)、短線段、端點(diǎn)等基元特征。
物體2.5維描述是指在觀測(cè)者坐標(biāo)系下對(duì)物體形狀的一些粗略描述,如物體的法向量等。物體3維描述是指在物體自身坐標(biāo)系下對(duì)物體的描述,如球體以球心為坐標(biāo)原點(diǎn)的表述。
馬爾計(jì)算視覺(jué)理論在計(jì)算機(jī)視覺(jué)領(lǐng)域的影響是深遠(yuǎn)的,他所提出的層次化三維重建框架,至今是計(jì)算機(jī)視覺(jué)中的主流方法。
80 年代開(kāi)始,計(jì)算機(jī)視覺(jué)掀起了全球性的研究熱潮,方法理論迭代更新,主要得益于二方面的因素:一方面,瞄準(zhǔn)的應(yīng)用領(lǐng)域從精度和魯棒性要求太高的“工業(yè)應(yīng)用”轉(zhuǎn)到要求不太高,特別是僅僅需要“視覺(jué)效果”的應(yīng)用領(lǐng)域,如遠(yuǎn)程視頻會(huì)議(teleconference)、考古、虛擬現(xiàn)實(shí)、視頻監(jiān)控等。
另一方面,人們發(fā)現(xiàn),多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。在這一階段,OCR和智能攝像頭等問(wèn)世,并進(jìn)一步引發(fā)了計(jì)算機(jī)視覺(jué)相關(guān)技術(shù)更為廣泛的傳播與應(yīng)用。
80年代中期,計(jì)算機(jī)視覺(jué)已經(jīng)獲得了迅速發(fā)展,主動(dòng)視覺(jué)理論框架、基于感知特征群的物體識(shí)別理論框架等新概念、新方法、新理論不斷涌現(xiàn)。
90年代,計(jì)算機(jī)視覺(jué)開(kāi)始在工業(yè)環(huán)境中得到廣泛的應(yīng)用,同時(shí)基于多視幾何的視覺(jué)理論也得到迅速發(fā)展。90 年代初,視覺(jué)公司成立,并開(kāi)發(fā)出第一代圖像處理產(chǎn)品。而后,計(jì)算機(jī)視覺(jué)相關(guān)技術(shù)就被不斷地投入到生產(chǎn)制造過(guò)程中,使得計(jì)算機(jī)視覺(jué)領(lǐng)域迅速擴(kuò)張,上百家企業(yè)開(kāi)始大量銷售計(jì)算機(jī)視覺(jué)系統(tǒng),完整的計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)逐漸形成。在這一階段,傳感器及控制結(jié)構(gòu)等的迅速發(fā)展,進(jìn)一步加速了計(jì)算機(jī)視覺(jué)行業(yè)的進(jìn)步,并使得行業(yè)的生產(chǎn)成本逐步降低。
進(jìn)入21世紀(jì),計(jì)算機(jī)視覺(jué)與計(jì)算機(jī)圖形學(xué)的相互影響日益加深,基于圖像的繪制成為研究熱點(diǎn)。高效求解復(fù)雜全局優(yōu)化問(wèn)題的算法得到發(fā)展。更高速的 3D 視覺(jué)掃描系統(tǒng)和熱影象系統(tǒng)等逐步問(wèn)世,計(jì)算機(jī)視覺(jué)的軟硬件產(chǎn)品蔓延至生產(chǎn)制造的各個(gè)階段,應(yīng)用領(lǐng)域也不斷擴(kuò)大。
當(dāng)下,計(jì)算機(jī)視覺(jué)作為人工智能的底層產(chǎn)業(yè)及電子、汽車等行業(yè)的上游行業(yè),仍處于高速發(fā)展的階段,具有良好的發(fā)展前景。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




