數位典藏多媒體的神乎其技- 專訪中央研究院資訊科學研究所 廖弘源研究員

文/江沛航

在資訊爆炸的時代,數位藏品和數位平台呈現著豐富而迷人的樣貌,為了讓各種數位化物件豐富我們的生活,數位化技術不斷地推陳出新,文字、靜態影像、音訊資料及影音資料等數位藏品因此亦趨豐富,讓我們的生活更加多采多姿。中央研究院資訊科學研究所的廖弘源研究員多年來擔任〈數位典藏與數位學習國家型科技計畫:分項二、數位技術研發與整合計畫〉主持人,在開發數位典藏相關技術上更是不遺餘力,讓民眾近用數位藏品更加便利。趁著一次難得的機會,我們特別邀請廖研究員接受訪問,為大家介紹這些讓數位化物件變得完整、清晰又好用的多媒體技術。

一、影像 / 視訊修補技術
老照片、老影片總是別有一番歲月積累的風味,當我們翻開歷史的舊相冊,遙想著屬於那一代的故事時,泛黃相片上的斑點往往讓我們好奇,影像的原本面貌又有著什麼樣的風情呢?中研院的數位典藏計畫就收錄了許多數位化老照片及老影片,它們一方面無法重拍,一方面是歲月的痕跡的重要見證,因此將品質加以強化處理變的極為重要。「影像修補」與「視訊修補」的相關技術,即能讓這些珍貴的藏品,能夠再次以原始的面貌向眾人展示。


圖1:影像修補前→影像修補後

影像修補技術和視訊修補技術的概念,主要是對於畫面上髒汙、雜點等指定區域,藉由區域外的其他完好畫面來重建原本的畫面內容,如下圖2,即是經過修補技術後,重現沙灘原本的樣貌。


圖2:原始畫面→指定修補區域→重建畫面

在修補技術當中,小範圍的影像破損或雜訊,可以簡單地利用內差像素(Pixel Interpolation)的方式修復;大範圍的修補,則需要利用補丁(Patch)填補方式修復。由於影片中常常包含大量的人物動作,較一般的場景更為複雜,因此廖研究員的研究團隊針對人體運動進行運算,合成人體姿勢後,預測接下來的動作;並利用建立完整的運動(Motion),建構出變動位置圖(Motion Map);更利用新的演算方式,讓補丁重現後的影格(Frame)樣貌更加穩定,讓視覺上更加平滑,並且亮度一致。也讓數位化工作人員在對老影片進行修復時,只要在修補軟體中進行簡單操作,就能夠針對受損資料進行大範圍的視訊修補。

這項最新的影片修補技術已於2011年技術移轉給國家檔案管理局,相關技術研究更發表了三篇論文於IEEE Transaction上,放眼全球的視訊修補技術,除了與國際接軌,更深具競爭力。視訊修補技術重現數位典藏老影片的成果,就讓我們拭目以待吧!

二、自動視訊分鏡技術
各類媒體日趨普及的今日,電影、電視劇或各類廣告等視訊影片已經成為我們日常生活中的一部份。在中研院的數位典藏藏品中,也涵蓋了大量的影音資料,然而若想利用視訊檢索資料內容,卻往往面臨資料量過於龐大的問題。因為若以影片的原生資料(Raw Data)來看,台灣過去採用NTSC制的類比電視一秒視訊需要29.97格,一小時的影片便超過10000格,這麼大的資料量,進行搜尋時將會運算地非常辛苦。為了讓這些資料能夠被搜尋、利用,我們可以針對每一小段視訊進行區別,區分出視訊段落後,一方面方便擷取該段落的特徵,一方面也可讓使用者更快速地找到所需資訊。是故,如何自動從視訊資料中區隔出視訊轉換(Shot Change)處,即成為視訊資料使用的關鍵重點。

視訊轉換基本上可以分為二大類別,第一種為快換景(Abrupt Transition),如電影營造快速、緊張感時常見的Hard cut手法;另一種即為慢換景(Gradual Transition),這種方往往透過後製,讓二段影片的冗接處較為緩和,包括雨刷效果(Wipe)、淡入/淡出效果(Fade in / Fade out),以及常見的溶解效果(Dissolve)等。


圖3:雨刷效果


圖4:淡入效果+淡出效果→溶解效果

在幾種視訊轉換中,Dissolve效果因為經常用到又較難區別,因此成為重要的研究方向。自動視訊分鏡技術(Shot Change Detection)首先以區隔運動和慢換景為切入點,如影片中單一物體移動的「區域運動」(Local Motion),或是因攝影機動作讓整個畫面一起移動的「全區運動」(Global Motion)。過往的自動分鏡技術因為無法妥善區別「運動」和「換景」的不同,故效果不甚理想,此技術則正確地定義「溶解式慢換景」,有效地區隔視訊中的「運動」及「換景」這兩種不同的事件,也替「視訊檢索」系統的開發打下良好基礎。

這份研究成果於2005年刊登在多媒體領域的指標性期刊IEEE Transactions on Multimedia上,被認為是世界上最強健的慢換景偵測技術之一。為了讓數位典藏相關計畫能夠善用此技術,廖研究員也與國立臺北藝術大學合作,將此技術應用於〈視聽資料數位影音資料庫數位化建置計畫〉,並且整合進多媒體核心平台,希望讓台灣的影音資料數位典藏擁有更快速、更方便、更強大的檢索工具。

我們目前正處於「圖像時代」,視覺文化傳播的力量,透過網際網路和大眾媒體的影響更是無遠弗屆。如前一陣子在facebook上廣受網友轉載的〈犀利人妻-可是瑞凡…〉影片截圖,短短二、三天就被網友廣泛轉貼,其影像亦是由不同的視訊段落擷取而成,在在顯示這些先進又好用的多媒體技術重要性。廖研究員以及其所率領的技術研發團隊,多年來深耕於數位典藏多媒體技術的領域,研究成果除了幫助開發數位典藏系統,相關視訊技術更獲多媒體廠商青睞,應用於新一代的互動式電子看版中。

縮小影音檔案搜尋範圍,是國內外近年來不斷努力的方向,在網際網路亦趨發達的現下,Youtube等影音平台大受歡迎,視訊多媒體的應用和影響層面也越來越廣泛,乃致於Google、Yahoo、Microsoft皆致力於視訊搜尋的技術。中央研究院資訊科學研究所廖弘源研究員為了龐大的數位典藏多媒體影音資料,多年來不斷研發出各種好用的多媒體技術,在開發視訊搜尋技術的同時,也成功地將這些技術應用於廣告看板等不同的領域,更獲得了經濟部中小企業創新研究獎等殊榮。就讓我們一同看看,這些新奇的技術,有什麼引人入勝的魔力吧!

三、電視牆看板人數計次
還記得電影〈哈利波特〉中無數的動態海報,以及海報與主角互動的場景嗎?透過動態電視牆看板人數計次技術(People Counting),這種活潑的廣告呈現方式將再也不是夢想囉!隨著數位看板(Digital Signage)的普及,我們在捷運站、百貨公司、校園常常可以看到以豐富多媒體聲光效果呈現的動態影音,其作為訊息傳播的管道之一,廣泛地應用於廣告、行銷、教育等用途。電視牆看板人數計次技術則有別於一般電子廣告看板,由板上內建或是外加的攝影設備,可自動識別人體、人臉特徵,準確記錄媒體刊播的瀏覽人次及駐足時間的統計,一方面能掌握訊息傳遞效益,一方面也能進一步即時分析現場觀看民眾的數量。

廖研究員提到當初的發想,其實是因為數位典藏計畫收藏了非常大量的影音資料,而影片資料檢索的困難點往往在於資料量過於龐大,如果我們想要透過一小段Video去搜尋大量的資料,人數計次是一個很好的切入點,我們可以透過人數偵測縮小影片搜尋的範圍。因此他開始發展人數計次技術,嘗試先應用於電視牆看板,用以計算觀看廣告牆的人數。開發出電視牆看板人數計次技術後,再整合人臉辨識等技術,將之技術轉移予桓基科技,進一步讓「TeraMedia數位看板廣告計次系統」問世,這種創新的電視牆看板概念,推出後即引起各方關注,並先後於2008年獲得「第十五屆經濟部中小企業創新研究獎」、2009年獲得「Linux 黃金企鵝產品獎」及台北國際電腦展「Best Choice of COMPUTEX TAPEI Award」。建立在識別人體的基礎上,TeraMedia數位看板更能結合體感偵測與觀眾互動,透過偵測使用者的四肢,讓使用者可以即時選擇想要細看的內容,甚至是進行互動小遊戲,以更直覺更具親和力的方式,讓觀眾輕鬆自在地與數位看板互動。


圖5:TeraMedia 互動數位看板

應用人數計次技術的數位看板,整合了各種格式多媒體影音輪播、觀眾瀏覽次數精確計算、使用者互動等強大功能,為數眾多的數位化影像資料、影音資料,甚至是因而開發出的多媒體資源和小遊戲,也終於獲得全新的呈現契機。活潑的動態海報不只出現於〈哈利波特〉中,也讓我們一起期待數位看板打造的互動資訊生活環境吧!

四、General People Counting技術
由於數位典藏的老影片中,畫面上人物往往不同於電視牆的觀眾是正面出現於畫面上,也不會以固定的角度或是高度出現,影片中往往有更多的側面影像。因此,延續電視牆看版人數計次技術,廖研究員也為此發展了新的General People Counting技術,透過辨識一小段影片中的人,嘗試描述他的動作或姿勢來進行搜尋。
General People Counting除了能夠縮小檢索範圍,也能以人物描述為基礎,達到視訊訊息的傳遞。例如透過不同高度、不同角度攝影機拍攝而得的畫面,對一位行進中的人進行正確而詳細的描述,描述完後更能從下一個角度不同、距離不同的攝影機畫面,自動抓取到所描述的對象。這種人物計算的技術不僅能有效搜尋數位典藏龐大的資料量,縮小大量視訊資料庫的搜尋空間,也能夠透過人物資訊的描述技術進而應用到更多層面。這項技術論文已經獲2012年20th ACM Conference on Multimedia接受,將於本年度10月份發表,除了顯見國際間的多媒體研究對此技術的肯定,我們也期待透過這些先進、新奇、有趣的技術,讓數位典藏的影音世界變得更加寬廣。

開發了這麼多的影像和視訊修補技術、自動視訊分鏡技術、人數計次等技術,除了讓數位典藏的影音資料有了更好的搜尋工具,也向國際展現了台灣的數位典藏技術實力。廖研究員表示,他在選擇題目時往往以富科學性的方向為主,並尋求具有技術轉移潛力、有競爭力的技術進行研發。在10月份最新技術發表的前夕,他感性地說:「最有成就感的部分在於和我的研究團隊共同努力,把數位典藏所需的工具,發展成具有國際競爭力的技術。當論文被知名期刊接受時,我高興地眼淚都快掉下來了!」這些孜孜矻矻的研究成果,也讓技術支援不再只是基礎工作,更能發展成極具市場潛力、具有國際競爭力的技術成果。諸多在國內外指標性期刊發表的論文、技術移轉成功的案件、獲得的各種獎項,都說明了這些「神乎其技」不但各有妙處,也將能夠被更多典藏機構善用,更讓我們的數位典藏多媒體世界變得繽紛而多采。

延伸閱讀
1.    C. H. Ling, Y. M. Liang, C. W. Lin, Y. S. Chen, and H. Y. Mark Liao, “Human Object Inpainting Using Manifold Learning-based Posture Sequence Estimation,” IEEE Trans. on Image Processing, volume 20, number 11, pages 3124-3135, November 2011.

2.    Nick C Tang, C. T. Hsu, C. W. Su, T. K. Shih, and H. Y. Mark Liao, “Video Inpainting on Digitized Vintage Films via Maintaining Spatiotemporal Continuity,” IEEE Transactions on Multimedia, volume 13, number 4, pages 602-614, August 2011.

3.    C. H. Ling, C. W. Lin, C. W. Su, H. Y. Mark Liao, and Y. S. Chen, “Virtual Contour Guided Video Object Inpainting Using Posture Mapping and Retrieval,” IEEE Transactions on Multimedia, volume 13, number 2, pages 292-302, April 2011.

4.    C.-W Su, H.-Y. Mark Liao, H.-R. Tyan, K.-C. Fan, and L.-H Chen, “A Motion-Tolerant Dissolve Detection Algorithm,” IEEE Transactions on Multimedia, volume 7, number 6, pages 1106-1113, December 2005.

5.    Y. Y. Chen, Winston H. Hsu, and H. Y. Mark Liao, “Discovering Informative Social Subgraphs and Predicting Pairwise Relationships from Group Photos,” 20th ACM Multimedia Conference, October 2012.

6.    M. F. Weng, Y. Y. Lin, Nick C Tang, and H. Y. Mark Liao, “Visual Knowledge Transfer among Multiple Cameras for People Counting with Occlusion Handling,” 20th ACM Conference on Multimedia, October 2012.

7.    S. W. Sun, W. H. Cheng, Y. L. Hung, Ivy Fan, Chris Liu, Jacqueline Hung, C. K. Lin, and H. Y. Mark Liao, “Who’s Who in a Sports Video ? An Individual Level Sports Video Indexing System,” International Conference on Multimedia and Exposition, July 2012.

8.    〈TeraMedia 新世代數位看板〉,《桓基e週報》,第19期,2012年3月,檢索:2012年8月,http://tw.hgiga.com/Epaper/files/120302/final.htm

加入書籤
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Hemidemi
  • MyShare
  • Live
  • Technorati
  • TwitThis
  • RSS
  • Funp
  • Haohao
  • MySpace
  • plunk

回應

*
請輸入圖片中的文字
按下圖片中的文字取得錄音檔

Click to hear an audio file of the anti-spam word

  • Loading...


    Loading...

    Login






    註冊 | 忘記密碼

    Register





    A password will be mailed to you.
    登入 | 忘記密碼

    Retrieve password





    A confirmation mail will be sent to your e-mail address.
    登入 | Register