用面部表情產生聲音之學術論文Sonify Your Face: Facial Expressions for Sound Generation

這是強者我Lab的碩班學弟子杰Meeting時報告的一篇Paper,因為報告得很清楚,因此經學弟同意後分享整理給需要的人。

這篇論文的基礎是架構在該研究團隊所開發出來的一套臉部情緒辨識系統FACS所開發的應用。

這篇論文在官方網站上可以直接下載,有興趣的人可以直接到官網瀏覽,這篇論文發表於2010 ACM International Conference on Multimedia,作者為Roberto Valenti, Alejandro Jaimes與Nicu Sebe

其研究背景與動機乃闡述臉部表情對於雕塑、繪畫、藝術的表演是很重要的,例如:印度某族群的傳統舞蹈、日本的Butoh舞蹈,其中緩慢運動臉部表情有特別重要的意義,目的在創造一個注重在臉部表情辨識的工具,並運用互動裝置藝術的呈現方式,鼓勵參與者利用臉部肌肉去創造更多的表情,藉以得到聲音回饋。

此臉部表情辨識利用辨識系統(FERM)所定義的動作單元中,抓取12個臉部動作單元,根據臉部的每一個肌肉的動作,對人臉總共定義了46種基本動作單元,藉由這些動作單元來判斷為何種表情(論文內有細部定義圖形),其辨識原理為將特徵向量以貝葉斯(Bayes’ theorem)法分類出基本情緒(幸福,驚喜,恐懼,厭惡,悲傷,憤怒,無表情),論文中有列出其定義的類別細節供參考,另外文中有提及一些和聲音有關的典故:”Sonification”表達來自拉丁音節的“聖思”,direct sonification的用處是經由一些資料直接產生聲音波,parameter mapping為透過參數的調整產生聲音波,model-based sonification則用作基本模式產生聲音波。

使用介面部分,是以FERM系統加Pd(一個圖形化編寫程式)做成,PD是一個專門針對聲音、影像及圖形運算的即時性圖形化程式編寫環境(real-time graphical programming environment)

輸出資料可被處理成聲音或是 MIDI,也可以被處理成影像或是圖形,被許多藝術家做為互動或電子音樂。

在Pd裡,四個主要產生聲音的組件以及對應到的特徵點
A cosine wave oscillator(餘旋波振盪器):高興(f14)
A sweeping filter(掃描式頻率):嘴巴水平的移動(f3,f5)、垂直的嘴唇移動(f1,f2)
A sampler that allows interactive loading of sound files(取樣器允許交互式加載的聲音檔案):傷心(f18)、生氣(f15)
Additive synthesis.(加法合成):驚訝(f19)

成果影片如下

結論部分,本研究提出一個新的視覺創造工具,可以自動識別臉部表情和追蹤臉部肌肉的運動並即時產生聲音,未來希望能結合更多具有自動分析產生的音效和影像之互動。

最後補充這個研究團隊所做出來的臉部辨識工具效能很強大,影片如下