矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
迴然不同造句 在 蔣勳 Facebook 的最讚貼文
Fabian Fom
范俊奇《鏤空與浮雕》
推薦序
〈雲想衣裳花想容——從 Fabian Fom 到范俊奇〉
●Fabian Fom
我不太看臉書,偶然看,大概不會錯過兩個人的貼文,一個是 Fabian Fom ,一個是夏曼.藍波安。
夏曼.藍波安是目前華文寫作的作家裡我極感興趣的一位。他是蘭嶼達悟族,他使用不是母語的華文寫作。他的臉書記錄一個小小島嶼和海洋的生態,常常可以讓我反省自己族群的文化,以及對待其他族群的偏見。
藍波安的華文「很奇特」,要用一個非母語的文字書寫他的生活,他會用自己的思維方式組織和串連漢字。
藍波安的漢字詞彙和造句有時讓我覺得是錯誤的,或是不通順的。但是,正是那些「錯誤」和「不通順」傳達了我陌生的達悟族的文化、信仰和生活態度。
讀藍波安的文字讓我不斷修正自己,包括我習以為常的漢字漢語。藍波安我讀了有二十年吧,也見過面,去過蘭嶼,是我尊敬的朋友。
Fabian Fom 是誰?我沒見過面,不知道他一絲一毫背景,他短短的臉書裡有又像詩句又像夢囈的句子,然後底下都加注一句「我不是張小嫻」。
為什麼「不是張小嫻」?
我對「Fom」這個拼音也猜測過,「馮」、「封」、「彭」,我承認對漢字拼音沒有辦法記憶,漢字拼音,不管用任何輸入法,都不等於漢字。
這個 Fabian Fom 讓我折騰了一段時間。
他的華文顯然有底子,他會講杜詩裡「陰陽割昏曉」那個「割」字,大為讚賞,顯然愛華文,愛漢字,愛現代詩。
所以他和藍波安不同。藍波安在用漢字對抗大漢族文化的霸勢。 Fabian Fom 應該在大漢族文化之中,卻又常常彷彿想要顚覆一下漢字的用法。
追蹤了「我不是張小嫻」一陣子, Fabian Fom 貼出了他在馬來西亞華文報紙的專欄文字「鏤空與浮雕」,寫張國榮,寫芙烈達.卡蘿,寫大衛.鮑伊,寫基努.李維,寫顧城,寫山本耀司,寫李安,寫許多我愛看的人物。上窮碧落下黃泉,許多活過死去的生命,被重新「鏤空」或「浮雕」,是演員,是詩人,是導演,是畫家,是服裝設計者,是歌手,是舞蹈者……,有些我熟悉,有些我不熟悉。
這個我仍然不確定他姓氏是「馮」、「封」、「彭」的馬來西亞華文書寫者,卻讓我想起二十餘年前一次檳城——芙蓉——馬六甲—新山八個華文高中的巡迴演講——「靑春.叛逆.流浪」。
當時去,是一個很浪漫的想法,因為聽說馬來西亞華文受壓抑,一位沈先生為此坐牢服刑,我就答應了那一趟旅行。年輕熱血沸騰的事,現在或許覺得過度沸騰得有點可笑了,然而的確有很多珍貴記憶,讓我念念不忘那次旅行。
我一直記得檳城海邊夜市,小攤子用南乳炒空心菜,熱騰騰的氣味,熱騰騰的油煙,收音機播放香港邵氏公司六○年代葛蘭唱的〈我要飛上靑天〉。
在芙蓉,高中生騎腳踏車載我去榴槤林裡用長支竹竿摘榴槤,夏日光影迷離,熱帶的風,熱帶的氣味,那些特別靑春單純的高中生的眉眼,歡笑著,或憂傷著,都沒緣由。
台北股市已衝上萬點,人慾橫流,然而芙蓉仍然是白襯衫卡其褲腳踏車,安安靜靜,彷彿讓我再一次經歷了我的六○年代,那個 Fabian 喜愛的「牯嶺街少年」的時代!
台北,吉隆坡,香港,新加坡,上海,先先後後,不同地區的華人發展了不同的華文文化。
台北在六○至七○年間達到高峰,傳統的底子,現代世界視野,農業自然的樸素,初嘗工商業的城市情懷,一切恰到好處,文化的花季其實也有一定的生態吧。
我惦記著馬六甲路邊一家喪事裡親人們的披麻戴孝,焚燒的紙人紙馬樓台那樣逼肖現實,在燃燒的烈焰閃爍裡一寸一寸萎縮下去,魂魄化成一綹靑煙,去了無何有之鄉。一個從大華人文化出走的流浪族群,漂洋過海,可能好幾代了,猶在異地記得皇天后土,祖先化為靑煙,魂魄一綹一綹逝去,猶不敢怠慢分毫。
後來在臉書上因為一個漢字的用法結識了 Fabian Fom ,知道他跟檳城的關係,他說:「現在不一樣了。」說完沉默了。
他的沉默,我的沉默,也許是不同的近鄉情怯,都留著一點空間,有一天,或許可以在海邊夜市把酒言歡,說記憶裡南乳炒爆空心菜的焦香。
我們的鄉愁,有時像夏日午後榴槤林子裡少年眉眼間恍惚的光影迷離,那麼叫人眷戀,其實卻都不堪觸碰,「是身如聚沫,不可撮摩」,《維摩詰經》如是說。
我有一點懂了這個「不是張小嫻」的書寫者讓我迷戀的原因吧。
他書寫人,他迷戀人的繁華與荒涼,他或許愛文學,然而更多時候他眩惑演藝娛樂的銀光燈的熠燿輝煌,更多時候他迷戀時尙伸展台上充滿魅惑又造作的身體,文學,藝術,是不是也像時尙舞台?芙烈達.卡蘿創造了她的生命時尙,草間彌生,即使這樣被商業包裝,也成「時尙」,然而,張國榮,這麼文學,連死亡都像一句詩。
碧娜.鮑許,走到哪裡都是時尙中的時尙,然而很少人用這樣的方式寫碧娜,寫她在時尙中的位置。
「鏤空」是雕鑿到靈魂的底層了嗎?浮光掠影,我們也許眞是在「浮雕」裡看到生命的凹凹凸凸,只是不平,像李後主囚居北方,總是睡不著,寫了一句「起坐不能平」。起來也不是,坐下也不是,好像比現代詩還現代詩。
「鏤空與浮雕」不是只寫表象的風風火火,作者關心創造的生命,梵谷,芙烈達.卡蘿,碧娜.鮑許,梁朝偉,梅艷芳,基努.李維,他讓他們一起在伸展台上亮相,我喜歡書裡像寫詩人般寫時尙的保羅.史密斯,亞歷山大.麥昆,我也喜歡書裡像寫時尙一般寫芙烈達.卡蘿,碧娜.鮑許,是的,生命就是伸展台,怎麼走,都必須是眞正的自己,眞正的自己才是時尙。
三十位不同領域的創作者,分領了二十世紀前後百年風騷,大概很少一本書把這些人放在一起,朴樹和草間彌生,阿城和安藤忠雄,服裝設計和詩人,又加進一個什麼書都不會特別專心去寫的許廣平,很多文靑大概會問:「誰?誰是許廣平?」「魯迅的太太。」回答的人自信滿滿,但是,說了等於沒有說,那是看了會使人心痛的一篇,希望出書時留著許廣平的照片。
●范俊奇
Fabian——他終於吿訴我他叫「范俊奇」——果然不是張小嫻,我對了,漢字出來,人就有了形貌,好一個范俊奇,不是馮,也不是封。
曾經好幾次在吉隆坡評審「花踪」文學獎,我不記得有一個「范俊奇」,如果有,應該會眼睛一亮吧。
當年在「花踪」共事的朋友,退休了,幾乎隱居,只在偏鄉幫助弱勢者生活,那是七○成長一代的自負與宿命,誰叫我們聽了那麼多 Bob Dylan 。
時代不一樣了,馬來西亞一定也要有二十一世紀自己的書寫,自己時代的聲音吧。
范俊奇,雖然未見面,卻覺得很熟,他寫許廣平,讓我心痛,是有「人」的關心的,年輕,卻有夠老的靈魂。
和藍波安一樣,范俊奇其實也在漢字的邊緣,用邊疆的方式書寫漢字,像是顚覆,像是叛逆,會不會也可以是漢字最好的新陳代謝?像李白,帶著家族從中亞一路走來的異族記憶,胸懷開闊,用漢字都用得不一樣,沒有拘謹,沒有酸氣,沒有溫良恭儉讓,才讓漢字在那驚人的時代開了驚人的花。
「雲想衣裳花想容」,這麼佻達,這麼顧影自戀,這麼為美癡迷,「鏤空與浮雕」,投影在異域的漢字與華文,背離正統文學,敢於偏離正道,也許才眞正走上時代絢麗多彩多姿的伸展台吧。
蔣勳
旅次倫敦寫於二○二○年驚蟄後一日
_____
范俊奇《鏤空與浮雕》
2020 年 11 月 5 日,出版上市
博客來:https://bit.ly/35Rumws
MOMO:https://bit.ly/3mPbW6K
金石堂:https://bit.ly/3jTr5Sz
誠品:https://bit.ly/385YuXZ
讀冊:https://bit.ly/2JvDXBQ
各獨立書店:fribooker.wordpress.com/bookstore/
迴然不同造句 在 每天為你讀一首詩 Facebook 的最佳解答
習字:以水的質地(詩集《時序在遠方》之序詩) ◎林餘佐
字彙內核是搖晃的液體
習字有如赤足涉入陌生的水域:
我吐出潮濕的音節
想要喚醒沉睡在溪谷的石子
你回應:曖昧、迂迴如狡猾的暗流。
意象在我們腳邊流轉,泡過水的偏旁顯得清澈
我們開始懂得意象的原始意義
彷彿先民收割的第一批果實
──飽滿、香甜的滋味尚未命名
只能在口中添上一橫,權宜稱之:甘。
潮汐與時序一同推移,沙灘上盡是老死的詞彙
某天有人拾起,聽:那古老的音節
細瑣如水母──靜靜漂浮在海面。
於是,有些聲響被寫下
曲折幽微的發音如招魂時的呢喃。
大雨將至,地上遍植鬼魂
它們以水的型態說:世上萬物字形、字音的由來。
字義的演變太過繁複,它們保持沉默。
土壤濕潤,雨似白馬之蹄來回踱步
踢亂了掩埋已久的屍首與部首。
每一次閃電都是詞彙的誕生
古老的字義與死者都在此輪迴
(造字如招魂:召喚已逝與未知。)
大雨過後,象徵之林茂密
新生的詞彙閃著水滴靜靜結在枝枒上
等待某人摘取、食用。
習字像進食,偏食的人會變得口拙。
味蕾是字典可供記錄、查閱
昔日國語練習簿上的造樣造句
教導我們以生硬的句式煮難吃的料理
未經馴服的舌頭翻轉了幾圈,偷偷地將水釀成酒
與戀人共飲──唇齒甘甜,微醺的肢體食髓知味。
習字如在意識裡煮水
陌生的筆順是流動的隱喻
沸騰著龐大的海洋、遙遠的樹林
然而,逝者如斯,肉身是破盆:
攝水量不足的我們,終生牙牙學語。
--
◎ 作者簡介
林餘佐,嘉義人。現為東海大學助理教授。曾獲林榮三文學獎、教育部文藝獎等獎項。出版詩集《時序在遠方》(二魚出版)、《棄之核》(九歌出版)。另有合著有評論《指認與召喚:詩人的另一個抽屜》。
--
◎ 小編 Y 賞析
在本週主題中,我們談「自然的靈性與啟發」,而這其實是一個現代詩中非常容易被調度的元素。萬物的靈,字詞的靈,兩者之間彷彿隱約地有某種神秘而幽微的勾連,透過啟發與互動的過程,景與人得以相互映照。這首〈習字:以水的質地〉,便是以水為載體,去串連起詩人在不同生命歷程中的習字情景。與此同時也是一首結構非常完整,且意象經營十分洗鍊的詩作。除了收錄為詩人第一本詩集《時序在遠方》的序詩,也曾獲教育部文藝創作獎。某種意義上或許也能說:這些以抒情筆法所流瀉的自然、酒水、神性、時間意象,不僅是林餘佐新詩中極重要的寫作圖像,也是詩人自省一種。
在習字與寫字初期,寫詩者大概都會對林餘佐首段的句子多少感到心有戚戚焉:「我吐出潮濕的音節/想要喚醒沉睡在溪谷的石子/你回應:曖昧、迂迴如狡猾的暗流。/意象在我們腳邊流轉,泡過水的偏旁顯得清澈」,以及詩人如何詮釋詩之於暗流的神祕性:「曖昧、迂迴如狡猾的暗流」,與種種不確定(與可能性)的暗示:「大雨將至,地上遍植鬼魂/它們以水的型態說:世上萬物字形、字音的由來。」(造字如招魂:召喚已逝與未知。)
對詩稍有留心的讀者,大概也會知道「水」是一個極常見的意象,甚至在某種程度上似乎已然氾濫成災。但如果將這個框架處理得漂亮,便能演繹出更多新奇而有趣的火花。早在〈習字:以水的質地〉這首詩的命名裡,詩名其實就有一個非常有趣的亮點,也隱隱揭曉了詩人對自身作品更深一層的野心與思索:「質地」。我們能感知到寫作者帶著有意識地警覺砌字,在明瞭「沙灘上盡是老死的詞彙」的同時,詩人仍然在動用時序之推演,煮水煮字的輪迴,去拾起那些仍待反覆追索的閃現與意念:「新生的詞彙閃著水滴靜靜結在枝枒上/等待某人摘取、食用。」除了刻寫詩性(個人)與水性(萬物)的精巧對照,詩人也在結構與意象的推疊上展現嫻熟的一面。像自身的演進史,也近乎像是某種宣示。
但肉身始終保有一份原始且清明的謙卑。在萬物降生面前,每一個字,都以不卑不亢的姿態活著。
-------------------------------------------------
美編:花椰菜菜子
https://www.instagram.com/brocccoliiiii/
https://cendalirit.blogspot.com/2020/10/blog-post_18.html
#每天為你讀一首詩 #自然詩 #林餘佐 #自然的靈性 #時序在遠方 #棄之核