【正見新聞網2019年12月26日】
智慧裝置裡的虛擬助理越來越好用了。不管是蘋果的Siri,亞馬遜的Alexa,或者谷歌的Google Assistant。我們對它發號施令,詢問天氣或交通,幫忙打電話,或乾脆要它說笑話解悶。
不過最新一期《彭博商業週刊》報導指出,我們透過聲控與AI的私密交流,可能在不知情的情況下,被真人逐字抄錄和標註,成為AI提升語音辨識能力的材料。
史拉蒂絲(Ruthy Hope Slatis)從波士頓的人力派遣公司接到了一份任務有點模糊的工作:幫亞馬遜公司(Amazon.com Inc.)聽打一些錄音檔案。這份「數據助理」的工作是把一些隨意的語音內容逐字逐句打進筆電,時薪12美元。
這些音檔包括了人們在自己家裡的私密談話。
時間是在2014年秋,當時亞馬遜剛推出的Echo居家智慧裝置最熱門話題就是聲控的虛擬助理Alexa。Alexa可以報新聞,解答問題,甚至陪小孩做功課。不過史拉蒂絲也開始理解,這套神奇AI其實背後需要靠很多和她一樣的真人才能夠運作。
亞馬遜把雲端裡的聲音指令收集下來,但仍需要真人「數據助理」協助訓練和提升這套系統。一開始,她以為她說話者是收了錢自願提供發音模式給機器研究。但顯然不是。
她聽到的錄音內容有時很怪異。有些孤單的人對Alexa吐露自己的私密的慾望和恐懼,也有人對著Alexa猛烈拍打。隨著Alexa大受歡迎,史拉蒂絲聽打的內容也越來越豐富。有些她的同事聽到小孩子報出了自己家裡的地址和電話,有人要Alexa幫忙訂購成人玩具,也有人在聚餐時聊說她們的聊天內容會不會被亞馬遜給偷聽去。
「這些人不可能知道有人正在聽他們說話,」她說:「這沒得到他們事先同意。」2016年,她辭掉了工作。
從史拉蒂絲辭職之後,已經有大約1/4的美國人購買了包括Echo、Google Home和Apple HomePod這類的「智慧音箱」。市場上的激烈競爭也帶動亞馬遜的Alexa,蘋果的Siri,谷歌的Google Assistant,微軟的Cortana,以及臉書的類似服務更加深入到人們的生活中。麥克風如今內建在手機、手錶、電視、冰箱、汽車以及其他冠以「智慧」之名的裝置之中。有人預估到2023年全球智慧音箱的市場銷售量將達到110億美元,全世界大概會有74億個聲控裝置被人們使用。平均每人大概有一個。
根據科技公司的說法,這些裝置並不會把你說的每句話都建檔,它們的智慧錄音裝置只有使用者打開時才會啟動。不過它們賣的裝置裡有些是在廚房裡或臥室裡,而且麥克風永遠開著,可能無意間就錄下了我們無意和他人分享的聲音。
Siri的目標不再是搞笑陪聊天 Apple語音收集分析越來越具侵略性
今年四月,彭博新聞率先報導了科技界--包括蘋果、亞馬遜和臉書--使用真人來評估未經使用者同意搜集來的錄音檔。
少部分主管和工程師同意,使用這麼龐大的外包人力監聽並紀錄資料可能有侵犯隱私的問題。不過在他們看來,基本上這只不過是公司為了提升產品的做法。
用聲控裝置控制電腦,是科技人許久以前的夢想。不過要讓AI聽懂人類說話,首先要讓它知道說話是怎麼一回事。科技公司的電子「耳朵」要升級進化,需要依靠成千上萬低薪的人力來逐一註解聲音的資料。我們人類微弱的輕柔低語需經過解讀辨認,才能夠成為他們資料庫裡有價值的資產。
要教導機器辨識和回應人們說話,需要有逐字逐句相符的音頻檔案,這需要文字記錄的文本,它是緩慢而且成本昂貴的過程。較早期的開發者購買或是建構了巨大的錄音圖書館,由人們對著麥克風閱讀報紙或是其他預先寫好的材料。
在90年代,語音辨識仍是錯誤率一塌糊塗的階段。當時蘋果曾經發給實驗室員工一件搞笑T恤,上頭印著「I Helped Apple Wreck a Nice Beach」(字面意思是「我幫蘋果毀了漂亮海灘」,照理說原本應該是 I helped Apple recognize speech,但是recognize speech(語音辨識)發音聽起來很像wreck a nice beach)。這個充滿自嘲意味的笑話,反映了語音辨識技術初期的困難。
蘋果也是第一家改變技術模式的公司。它在2011年推出有Siri的iPhone 4S,技術來自前一年美國國防部贊助的研究成果。從此之後,錄音檔的收集和逐字記錄不再是在實驗室裡進行。蘋果在短時間內銷售了400萬支4S手機,很快就開始累積大量免費、自然的聲音資料,並運用這些資料來提升Siri的能力。蘋果資深主管形容這是非常繁瑣的工作,「聽了15到30分鐘之後,你的頭就開始痛。」公司把許多工作外包給了一些歐洲的IT廠商,包括愛爾蘭的GlobeTech。
過去幾年來,蘋果對於收集和分析人們聲音越來越有侵略性。Siri的目標不再是搞笑陪聊天,而是要發展成語音的搜尋引擎,必須滿足用戶們無窮無盡的詢問。為了擴充Siri的辭庫,蘋果也越來越加仰賴對音檔的分析。兼職人員必須協助分析各種不同的語言,口音,以及各種次文化特殊用語。
位於愛爾蘭科克的GlobeTech公司前員工形容,他們每天的工作是戴著耳機坐在筆電前面,聽取並註記1300則音檔。有些可能是單獨一句,有的是整段對話。據說更早之前每天配額是2500則,後來為了提高準確率才下調標準。工作時他們點擊音頻,電腦就會出現Siri所「聽到」的文字,然後核可或是修改文字的內容。
這些工作人員使用的程式CrowdCollect可以基於一些理由跳過一些錄音:比如語言類別錯誤、誤觸按鈕、音軌消失。但是並沒有一套機制讓工作人員可以回報或是消除一些不適當的錄音內容,例如喝醉了的人對著麥克風要求傳色情訊息。
對他們而言,沒有所謂太過私密的內容,他們必須如實逐字核對所有聽到的聲音。兼職人員多半來來去去,公司幾乎沒有關於隱私權方面的教育訓練。
兼職人員說,大部分詢問Siri的內容都平凡無奇,比如「播一首賈斯汀的歌」或是「附近最近的麥當勞在哪」,但是有些內容十分露骨,也有些是一長串包含種族歧視和恐同的謾罵。一名前員工形容他們上班的休息抽菸空檔,經常在交換他們聽來的「恐怖故事」。
對語音助理下達指令時 你透露的資料比想像多
在2015年,當蘋果執行長庫克宣示隱私權是「基本人權」的同時,蘋果的機器每個星期處理的語音詢問已經超過10億條。這時的iPhone使用者已經不需按鈕就可啟動Siri,「它」可以隨時聽你說話。
在蘋果的用戶條款裡已經說了,為了提升Siri的能力,你的語音資料可能被錄下並進行分析。不過它沒提到的是,你的話可能會被打工掙時薪的一些真人聽到。
蘋果Siri部門的主管不認為他們的系統侵犯到隱私。他們說這些錄音檔已經消去蘋果用戶ID資料。他們也認定,使用者都清楚公司會對他們的音檔進行處理,所以用真人來協助處理並沒有任何問題。
過去長期在Siri進階發展部門任職的布爾奇(John Burkey)在《彭博商業週刊》的訪問中說:「這並不叫監聽。這叫做『詢問Siri得不到結果,所以我們來修理一下。』這就和某個app故障了,問你要不要傳送通知給蘋果。這只不過是個語音的bug。」蘋果也說,只有不到0.2%的詢問Siri內容,是由真人進行分析檢驗。
如今蘋果已把Siri送進了藍牙耳機和HomePod等產品,每個月處理150億個聲控指令,即使是0.2%也等於是每個月3000萬則,一年就3.6億則。特別危險的可能是Apple Watch的「舉手說話」功能,帶著裝置的人一舉手就可自動啟動Siri,不經意就被錄音下來的機會特別高。
蘋果的HomePod大概只占美國智慧音箱市場的5%。市場有七成歸亞馬遜所有。亞馬遜2011年著手打造了Echo,它的七組麥可風隨時可注意重新錄音的「啟動」指令。這些音頻和蘋果一樣,會送交他們的「數據助理」來分析。
貝佐斯顯然預先想到了收聽用戶錄音可能引發的排斥效應。因此Alexa的設計事先考量到避免用戶不要因為被錄音而嚇到。
當用戶呼喚「Alexa」,Echo就有一圈的燈會亮起,就像虛擬助手是被叫醒來。「個性設計」團隊也對人們最常提問的一些問題設計了一些俏皮的答案,讓Alexa更有人味。程式人員也開發入口網站讓使用者可以播放和刪除自己的錄音。亞馬遜的發言人驕傲地宣稱Alexa從創造之初就建立了隱私權的標準。
2016年,亞馬遜創造了「常用發音資料庫」(Frequent Utterance Database,或稱FUD)協助Alexa對常問問題提供更多答案。據說FUD還引發了內部員工之間的緊張,因為產品團隊想用更有侵略性的方式發掘數據,而安全團隊則希望加強保障用戶的個人資訊。
2017年,亞馬遜推出了配備攝影機的Echo Look,它被宣傳成AI的造型師,可以幫使用者推薦出門的穿搭。程式的開發人員本來還打算設計程式,讓使用者要求Alexa說個笑話時攝影機就會自動打開。這個設計的構想,是要錄下使用者的面貌,同時評估笑話是否讓他發笑。不過,亞馬遜最後放棄了這個構想,目前Alexa也沒有應用到臉部辨識科技。
從羅馬尼亞的布加勒斯特到印度清奈,亞馬遜在全球各地廣設轉錄語音檔的「農場」。今年也舉行了好幾次的海外聽寫員的招聘活動。亞馬遜說為了讓Alexa通行全球,他們需要對地方的口音和流行語有充分理解,不過也強調「嚴肅看待用戶和他們的語音錄音安全」。
其他科技公司也不落人後,微軟推出了Cortana語音助理和Skype通訊app。谷歌和臉書也看好語音數據會大大提升它們的廣告收益。因為語音資料可以讓AI更容易掌握目標族群的年齡、性別、情緒、甚至是所在地點和興趣。
密西根大學教授紹布 (Florian Schaub)在《彭博商業週刊》的訪問裡說,大部分人往往忽略或低估了自己下達語音指令時透露的資訊,「如果你常問美式足球的問題,你大概就是NFL的球迷。如果背景音傳出嬰兒哭聲,他們就可以推論你們是一家人。」
Google雇用兼職人員轉錄從Google助理錄下的聲音指令。公司曾經承諾這些音頻不會涉及到個人資訊,不過今年夏天有個Google 的合約雇員把超過1000個用戶錄音交給了比利時的廣播公司VRT NWS。他們根據錄音的內容猜出了其中幾個說話者的身分,被辨認出來的人因此大為震驚。因為裝置有時會錯誤判讀啟動聲控的指令「OK, Google」,所有這些外流的音頻大約有十分之一事先並未徵得用戶的同意。
(鏡週刊)