蠻幹的科學

台灣大法弟子


【正見網2001年08月12日】

覺得科學有一種蠻幹的精神。就好像幾個世紀前不是有一位學者說:「只要給我一根夠長的棍子跟一個支點,我就可以撐起地球」。科學好像只要發現了一點什麼或是找到了一點什麼工具,就可以拚了命的地往下鑽,往下做。

我的實驗室是在做語音訊號處理的研究,最主要是語音辨識。語音辨識簡單地說就是要讓機器(或電腦)聽得懂你講的話。這個研究除了在人這兒之外,在所有其他空間的生命可能都會感到啼笑皆非吧。《轉法輪》裡就講了:「不只是人、動物,還有植物都有生命,在另外空間裡任何物質都會體現出生命來。當你的天目開到法眼通層次的時候,你發現石頭、牆,什麼東西都會跟你說話,打招呼」。那既然物質本來就聽得懂你說的話,為什麼還要想盡辦法造一個機器來「聽人說話」呢?

語音辨識的過程是這樣的:首先把人講話的聲音訊號取樣,做傅利葉轉換,經過一個精心設計的濾波器之後,取得一組特徵參數,然後把這組特徵參數與資料庫中已存有的大量的人的聲音資料做比對,因為資料庫中的聲音訊號是已知發什麼音的,所以對比出來最接近的那個聲音就是要辨識的答案了。

首先把聲音取樣的過程就是把事情極度複雜化的過程。以取樣頻率48kHz來算,5秒鐘的聲音就會被取樣成240,000個數字,這麼多的數字當然也只有電腦看得懂了。把聲音變成了人無法掌握的形式之後,又拚命地想出各種方法去處理它--去除背景雜音,語者辨識,建立人的聲道模型等。真是用盡最高深的數學在解這個問題了,即使如此到最後還是得算機率--這段聲音是那個答案的可能性最大,所以辨識的結果是--你講的是這個音,可能是這個字。如果在限定領域的條件下做語音辨識的話,正確率大概在70%到90%之間。什麼是限定領域?就是你講話的內容只能限定在某個範圍(如體育)之內,超出這個範圍(如你聊到了政治)--辨識成功率就直直落了。

第一步的取樣可以說是錯誤的開始--把5秒鐘的聲音變成24萬個數字,然後發現實在是太棘手了,無法處理,於是套上濾波器,做傅利葉轉換,把訊號由TIME DOMAIN轉到FREQUENCY DOMAIN來處理,即便如此,訊號還是太複雜,怎麼辦?再取特徵參數,把訊號節省到剩下42個參數,終於到了可以處理的程度了,開始跟資料庫裡的資料比對。因為資訊失去太多,所以只能開始算機率--這個音是那個音的機率最大、這個音不太可能是那個音。算完之後發現結果還是不行,再套上語言模型,終於把辨識率拉到可以接受的程度。

別說這是愚公移山,這應該用「蠻幹」兩個字來形容才對。要達成這個目的怎麼會用這麼笨的方法?因為這是科學所能提供的最「聰明」的方法了。科學既提供不了更好的辦法,科學家們就只好用笨方法,蠻幹下去了。

狗兒不用訓練都知道主人的喜怒哀樂,植物有他心通,人怎麼會想到反過來要電晶體來「聽懂」人講的話?

添加新評論