通用模型的倫理與治理：挑戰(zhàn)及對(duì)策

發(fā)布時(shí)間：2022-10-14 08:51:38 | 來(lái)源：中國(guó)網(wǎng)·中國(guó)發(fā)展門(mén)戶(hù)網(wǎng) | 作者：滕妍、王迎春、王國(guó)豫 | 責(zé)任編輯：楊霄霄

中國(guó)網(wǎng)/中國(guó)發(fā)展門(mén)戶(hù)網(wǎng)訊通用模型是近年來(lái)人工智能發(fā)展的重要方向之一。隨著模型研發(fā)應(yīng)用的增多，模型的社會(huì)和倫理影響受到廣泛關(guān)注。文章從通用模型的特性出發(fā)、分析了模型在算法、數(shù)據(jù)和算力?3?個(gè)層面潛在的倫理挑戰(zhàn)，包括不確定性、真實(shí)性、可靠性，偏見(jiàn)、毒性、公平、隱私及環(huán)境問(wèn)題。進(jìn)一步從技術(shù)哲學(xué)的視角分析了數(shù)據(jù)驅(qū)動(dòng)的模型在人與世界關(guān)系中的中介性作用及所產(chǎn)生的“鏡像”效應(yīng)問(wèn)題和透明性問(wèn)題，提出了人與世界關(guān)系的新形態(tài)是以模型（數(shù)據(jù)）為中介的，即“人-模型（數(shù)據(jù)）-世界”關(guān)系。最后，從治理技術(shù)和治理機(jī)制兩方面反思了當(dāng)前的應(yīng)對(duì)措施及局限性。建議建立開(kāi)放式、全流程、價(jià)值嵌入的倫理規(guī)約機(jī)制，保障通用模型在合規(guī)、合倫理的框架下發(fā)展。

人工智能步入“通用模型時(shí)代”

模型，是現(xiàn)實(shí)世界中事件、系統(tǒng)、行為或者自然現(xiàn)象的抽象數(shù)學(xué)表征。在人工智能領(lǐng)域，通用模型，又稱(chēng)為預(yù)訓(xùn)練模型、基礎(chǔ)模型或大模型，是指經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練，包含海量模型參數(shù)，并可適用于廣泛下游任務(wù)的模型。自?21?世紀(jì)早期深度學(xué)習(xí)技術(shù)興起，人工智能的研發(fā)模式主要是開(kāi)發(fā)專(zhuān)用模型，即針對(duì)特定任務(wù)、場(chǎng)景，依賴(lài)大量人力的“作坊式”。然而，由于專(zhuān)用模型泛化能力差且嚴(yán)重依賴(lài)專(zhuān)用數(shù)據(jù)集，導(dǎo)致開(kāi)發(fā)成本高。近幾年，人們開(kāi)始聚焦通用模型，即通過(guò)預(yù)先訓(xùn)練一個(gè)超大規(guī)模的模型，再用少量微調(diào)數(shù)據(jù)將模型遷移到具體場(chǎng)景中，一次性解決下游碎片化任務(wù)。

在目前的通用模型中，自然語(yǔ)言處理（NLP）和計(jì)算機(jī)視覺(jué)（CV）是發(fā)展最快的兩個(gè)領(lǐng)域。NLP指的是建立在計(jì)算機(jī)編程基礎(chǔ)上的人與計(jì)算機(jī)之間的自然語(yǔ)言通訊，即讓人工智能“說(shuō)人話(huà)”，代表模型包括?Bert（Google）、GPT-2/3（OpenAI）、GLaM（Google）、“盤(pán)古”（華為）、“悟道”（智源、清華）等。CV?指的是利用傳感器、攝像頭、計(jì)算機(jī)等設(shè)備模仿生物視覺(jué)能力，即讓人工智能“看世界”，代表包括?Swin Transformer（Microsoft）、CLIP（OpenAI）、“書(shū)生”（上海人工智能實(shí)驗(yàn)室）等。

從技術(shù)的角度來(lái)看，通用模型所基于的深度神經(jīng)網(wǎng)絡(luò)和自監(jiān)督學(xué)習(xí)并不新穎，其近年來(lái)的迅速發(fā)展主要?dú)w功于不斷擴(kuò)大的模型參數(shù)量、訓(xùn)練數(shù)據(jù)及算力的發(fā)展。比如，OpenAI?在?2018?年發(fā)布的語(yǔ)言模型?GPT-1?的參數(shù)量為?1.1?億，而其在?2020?年發(fā)布的?GPT-3?模型的參數(shù)量已高達(dá)?1?750?億，而?Google?的?Switch Transformer?和北京智源研究院的“悟道”2.0?的參數(shù)已經(jīng)達(dá)到萬(wàn)億級(jí)別。模型參數(shù)、訓(xùn)練數(shù)據(jù)和算力的擴(kuò)增激發(fā)了模型的潛能，提高了模型的泛化性和適用性，提升了開(kāi)發(fā)效率。在通用性方面，據(jù)華為數(shù)據(jù)顯示，其“盤(pán)古”通用模型可以適配電力行業(yè)的?100?多種問(wèn)題，迭代效率提升了?10?倍左右。在精度方面，Clark?等的實(shí)驗(yàn)顯示，在沒(méi)有訓(xùn)練的情況下，人類(lèi)評(píng)價(jià)者已經(jīng)很難區(qū)分測(cè)試文本是?GPT-3?生成的還是人類(lèi)創(chuàng)作的。在數(shù)據(jù)效率方面，上海人工智能實(shí)驗(yàn)室的“書(shū)生”模型僅需?2?個(gè)訓(xùn)練樣本，就能在花卉種類(lèi)識(shí)別的任務(wù)上達(dá)到?99.7%?的精確度。

通用性能和模型質(zhì)量的提升降低了人工智能的研發(fā)和使用門(mén)檻，促進(jìn)了人工智能的規(guī)模化落地，未來(lái)可能帶來(lái)從技術(shù)、規(guī)則、制度到產(chǎn)業(yè)的整個(gè)人工智能領(lǐng)域的范式轉(zhuǎn)變。據(jù)?GPT-3?官網(wǎng)顯示，截至?2022?年?2?月，已經(jīng)有超過(guò)?320?個(gè)?APP?采用了?GPT-3模型，其中包括人們熟知的?WhatsApp、Duolingo、Excel?等產(chǎn)品。人工智能已然步入“通用模型”時(shí)代。

通用模型的特性及倫理挑戰(zhàn)

通用模型的特性

核心特性

通用模型的核心特性可以歸納為涌現(xiàn)性（emergence）和同質(zhì)性（homogenization）。

涌現(xiàn)性。涌現(xiàn)是復(fù)雜系統(tǒng)的特征，通常指的是“在復(fù)雜系統(tǒng)的自組織過(guò)程中，出現(xiàn)新穎而連貫的結(jié)構(gòu)、模式和屬性”。涌現(xiàn)具有?2?個(gè)明顯特性：①單體之間相互作用產(chǎn)生的協(xié)同效應(yīng)，這使群體作為一個(gè)整體可以產(chǎn)生個(gè)體簡(jiǎn)單相加無(wú)法達(dá)到的效果。②在臨界狀態(tài)下質(zhì)的改變，這種質(zhì)變的例子包括自然界中的雪崩、冰化成水，又或者經(jīng)濟(jì)領(lǐng)域的股市價(jià)格波動(dòng)等。在通用模型的語(yǔ)境下，涌現(xiàn)性指的是模型的功能不是具體建構(gòu)的，而是在模型的大規(guī)模訓(xùn)練過(guò)程中自主涌現(xiàn)出來(lái)的。通用模型的功能涌現(xiàn)性根植于機(jī)器學(xué)習(xí)的特性。機(jī)器學(xué)習(xí)領(lǐng)域的先鋒——Samuel指出，機(jī)器學(xué)習(xí)算法的本質(zhì)是讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)訓(xùn)練數(shù)據(jù)的內(nèi)在規(guī)律，并用這些規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)，這種基于訓(xùn)練數(shù)據(jù)產(chǎn)生模型的算法具有涌現(xiàn)性的特征。通用模型在大規(guī)模算力和數(shù)據(jù)的加持下，不僅可以自動(dòng)指定任務(wù)的執(zhí)行方式、提取數(shù)據(jù)的內(nèi)在特征，還可以涌現(xiàn)出一些預(yù)料之外的功能。Steinhardt將通用模型的涌現(xiàn)性進(jìn)一步解釋為由于參數(shù)數(shù)量增加而引起的行為上的質(zhì)變，這種質(zhì)變可以引起系統(tǒng)的快速改變，在產(chǎn)生新功能的同時(shí)也可能產(chǎn)生新的風(fēng)險(xiǎn)。

同質(zhì)性。同質(zhì)性，與異質(zhì)性（heterogenization）相反，指的是構(gòu)成物體或人的單元在質(zhì)量、結(jié)構(gòu)、狀態(tài)等特征上的單一或相似性。在通用模型語(yǔ)境下，同質(zhì)性指的是模型構(gòu)建方法的相似性。主要表現(xiàn)在?2?個(gè)方面：①橫向的同質(zhì)化，指的是類(lèi)似的網(wǎng)絡(luò)架構(gòu)（如 Transformer）已經(jīng)被廣泛用于諸多領(lǐng)域的模型開(kāi)發(fā)中。如文本、圖片、視頻、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)等，使得模型的能力可以惠及諸多領(lǐng)域。②縱向的同質(zhì)化，指的是類(lèi)似或同一模型被廣泛用于解決下游任務(wù)。通用模型領(lǐng)域模型建構(gòu)的同質(zhì)化主要源于模型強(qiáng)泛化性所帶來(lái)的開(kāi)發(fā)、優(yōu)化、應(yīng)用等方面效率的提升。此外，通用模型作為一種中間模型，其問(wèn)題也會(huì)被下游模型所繼承，帶來(lái)“一榮俱榮，一損俱損”的效果。

衍生特性

通用模型還有兩個(gè)衍生特性：大規(guī)模數(shù)據(jù)訓(xùn)練和任務(wù)泛化。①大規(guī)模數(shù)據(jù)訓(xùn)練不僅是模型功能涌現(xiàn)性的重要前提，也對(duì)提高模型整體適用性、準(zhǔn)確度和效率發(fā)揮了積極作用。②通用模型任務(wù)泛化的特性，指的是模型可以作為具有“通才”能力的中間模型，被使用者遷移處理各種不同的、甚至未知的任務(wù)，而類(lèi)似網(wǎng)絡(luò)架構(gòu)在多種模態(tài)模型（文字、圖片、視頻等）中的運(yùn)用更是拓寬了模型的下游應(yīng)用領(lǐng)域。在這個(gè)意義上，通用模型可以被看作是一種促能技術(shù)（enabling technology）。

通用模型的倫理挑戰(zhàn)

通用模型的上述特性推進(jìn)了人工智能技術(shù)的發(fā)展和規(guī)模化落地，但也帶來(lái)一系列倫理挑戰(zhàn)，包括涌現(xiàn)性伴隨的功能不確定、魯棒性欠缺所導(dǎo)致的可靠性問(wèn)題與認(rèn)知風(fēng)險(xiǎn)；大規(guī)模數(shù)據(jù)訓(xùn)練面臨的隱私安全、偏見(jiàn)、毒性、公平性問(wèn)題；同質(zhì)性和任務(wù)泛化對(duì)上述問(wèn)題在橫向和縱向上的放大和加深；使用海量算力對(duì)能源的消耗和環(huán)境的影響。總的來(lái)說(shuō)，通用模型面臨的倫理挑戰(zhàn)主要表現(xiàn)在?3?個(gè)層面。

算法層面：不確定性與真實(shí)性、可靠性問(wèn)題

從認(rèn)識(shí)論角度看，通用模型的涌現(xiàn)性直接呈現(xiàn)出的是魯棒性欠缺，導(dǎo)致算法的不確定性和不可解釋性，其結(jié)果也影響到算法的真實(shí)性和可靠性，而同質(zhì)性則放大了這些問(wèn)題在橫向和縱向上的影響。

Hendrycks?等將機(jī)器學(xué)習(xí)的魯棒性解釋為系統(tǒng)面對(duì)黑天鵝事件和對(duì)抗性威脅時(shí)表現(xiàn)出的能力。以交通燈為例，遵守信號(hào)燈行駛在絕大多數(shù)場(chǎng)景下是安全的，但是也有極少數(shù)特殊情況。比如，當(dāng)十字路口橫向來(lái)車(chē)闖紅燈時(shí)，縱向行駛的車(chē)輛如若還按綠燈行駛就會(huì)造成車(chē)禍。考慮到通用模型的通用性質(zhì)，現(xiàn)階段大部分模型在制定安全性指標(biāo)時(shí)會(huì)將一套復(fù)雜的人工智能安全性原則匯總到一個(gè)概括性的綜合指標(biāo)中，而不對(duì)其進(jìn)行更細(xì)粒度的區(qū)分；但在具體應(yīng)用場(chǎng)景中，往往需要考慮更細(xì)粒度的安全問(wèn)題，如信號(hào)燈故障及其他突發(fā)、極端情況。

不同于黑天鵝事件，對(duì)抗性威脅通常是針對(duì)算法或模型漏洞和弱點(diǎn)的故意性攻擊，操作方式通常是刻意在樣本中加入人類(lèi)無(wú)法察覺(jué)的干擾。2015?年，谷歌的研究人員發(fā)現(xiàn)，對(duì)抗樣本可以輕易地欺騙GoogLeNet?模型。研究人員制作了兩張熊貓圖片，并在其中一幅的像素層面加入細(xì)微干擾作為對(duì)抗樣本，對(duì)人類(lèi)肉眼來(lái)說(shuō)，這兩張圖幾乎是一模一樣，而機(jī)器學(xué)習(xí)模型卻以高置信度將對(duì)抗樣本誤讀為長(zhǎng)臂猿。類(lèi)似的情況還有，OpenAI?的研究人員發(fā)現(xiàn)其實(shí)驗(yàn)室最新的通用視覺(jué)模型可以輕易被欺騙。例如，如果在一顆青蘋(píng)果上貼上“ipod”標(biāo)簽，那該模型有?99.7%?的概率將圖中物體識(shí)別成?ipod，而不是青蘋(píng)果。

產(chǎn)生對(duì)抗威脅的直接原因是模型與人類(lèi)處理信息方式的不同，人類(lèi)是基于各種可理解的特征來(lái)識(shí)別圖片中的內(nèi)容，如熊貓的黑眼圈、黑耳朵等。而模型的識(shí)別方法是基于對(duì)大規(guī)模數(shù)據(jù)樣本的擬合學(xué)習(xí)，得出一個(gè)可以將所有圖片與標(biāo)簽相關(guān)聯(lián)的參數(shù)框架，然后再將這種關(guān)聯(lián)泛化到其他任務(wù)中。但是這種關(guān)聯(lián)本質(zhì)上源于模型的涌現(xiàn)性，具有不確定性，有時(shí)是不可靠的。而由于通用模型作為“中介”和“促能”技術(shù)的重要意義，在下游的應(yīng)用中起到了“母體”的作用，模型的細(xì)小誤差可能對(duì)下游大規(guī)模應(yīng)用帶來(lái)影響。

究其根本，產(chǎn)生對(duì)抗性威脅的深層原因是模型無(wú)法從事實(shí)上區(qū)分信息的真實(shí)性，從而產(chǎn)生虛假的、誤導(dǎo)性的或低質(zhì)量的結(jié)果。并且，深度神經(jīng)網(wǎng)絡(luò)架構(gòu)可能使每次推理結(jié)果都不同且可解釋性低，這不僅對(duì)了解模型能做什么、為什么這么做及如何做帶來(lái)困難，更是為模型的審核與合規(guī)帶來(lái)了一系列挑戰(zhàn)。“大數(shù)據(jù)+海量參數(shù)+大算力”提升了模型的總體表現(xiàn)，但是似乎并沒(méi)有讓模型做到像人一樣的理解。這在類(lèi)似下棋等娛樂(lè)場(chǎng)景并不會(huì)對(duì)人類(lèi)生活產(chǎn)生負(fù)面影響。但是，對(duì)于諸如醫(yī)療診斷、刑偵司法、自動(dòng)駕駛等重要領(lǐng)域，模型功能的涌現(xiàn)性、應(yīng)用的同質(zhì)化和可解釋問(wèn)題可能帶來(lái)潛在風(fēng)險(xiǎn)。

數(shù)據(jù)層面：隱私安全、偏見(jiàn)、毒性與公平性問(wèn)題

現(xiàn)階段，通用模型在數(shù)據(jù)層面的主要倫理風(fēng)險(xiǎn)分?2?類(lèi)：①訓(xùn)練樣本中含有的偏見(jiàn)和毒性（toxicity）問(wèn)題；②數(shù)據(jù)所涉及的隱私安全問(wèn)題。

通用模型訓(xùn)練所用的數(shù)據(jù)量大且多為無(wú)標(biāo)注數(shù)據(jù)，樣本中易存在偏見(jiàn)和毒性問(wèn)題，可能對(duì)個(gè)體或群體帶來(lái)歧視和不公，且通用模型的同質(zhì)化特征可能會(huì)放大或深化這些問(wèn)題。偏見(jiàn)可以理解為一種態(tài)度或行為上的傾向，在現(xiàn)實(shí)生活中常表現(xiàn)為對(duì)特定人群的區(qū)別對(duì)待，可能造成直接或間接的歧視和不公。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院將人工智能偏見(jiàn)分為?3?類(lèi)：①系統(tǒng)偏見(jiàn)，指由歷史、社會(huì)造成的對(duì)某些群體的偏袒或貶低；②統(tǒng)計(jì)偏見(jiàn)，指由于樣本的代表性缺陷而導(dǎo)致的統(tǒng)計(jì)上的偏差；③人類(lèi)偏見(jiàn)，指人類(lèi)決策者思維的系統(tǒng)性錯(cuò)誤，這種偏見(jiàn)通常是隱式的、與過(guò)往經(jīng)驗(yàn)相聯(lián)系。毒性或有害言論與偏見(jiàn)類(lèi)似，但特指粗魯、不尊重或不合理的言論，如侮辱、仇恨、臟話(huà)、人身攻擊、性騷擾等。從來(lái)源上說(shuō)，偏見(jiàn)和有害語(yǔ)言都是復(fù)雜的歷史產(chǎn)物，在人類(lèi)社會(huì)中難以徹底消除；但如不加以注意，人工智能就可能會(huì)拓寬、深化、合并甚至標(biāo)準(zhǔn)化這些問(wèn)題，或者帶來(lái)新的問(wèn)題。在通用模型的語(yǔ)境下，語(yǔ)料庫(kù)和模型輸出的毒性、偏見(jiàn)程度存在明顯相關(guān)性。當(dāng)樣本中某些群體被缺乏、不實(shí)或過(guò)度代表時(shí)，模型結(jié)果就可能使部分人群——特別是邊緣群體遭受不公正的對(duì)待，繼承或加深社會(huì)刻板印象。例如，OpenAI?在用?ZS CLIP?模型鑒別?10?000?張?FairFace?數(shù)據(jù)庫(kù)的圖片時(shí)，結(jié)果顯示，通用模型對(duì)不同人群（如種族、性別、年齡等）的識(shí)別是不同的，如更容易將男性和?20?歲以下人群視為罪犯，更容易將女性識(shí)別為保姆。

隱私安全也是通用模型在數(shù)據(jù)層面的主要倫理挑戰(zhàn)之一，包括數(shù)據(jù)泄露、功能僭變（function creep）、偽造、詐騙等具體問(wèn)題。隱私是數(shù)字化世界的主要倫理問(wèn)題之一。通用模型研發(fā)和應(yīng)用涉及的隱私風(fēng)險(xiǎn)主要來(lái)源于原始訓(xùn)練數(shù)據(jù)中包含的個(gè)人信息和模型強(qiáng)大的推理能力。通用模型訓(xùn)練多采用網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)（如網(wǎng)頁(yè)、論壇、論文、電子書(shū)等），其中可能包含姓名、家庭住址、電話(huà)號(hào)碼等個(gè)人信息，甚至包含生物識(shí)別、宗教、醫(yī)療、行蹤軌跡等敏感信息，這些信息的泄露不僅違法，且直接侵害到個(gè)人的尊嚴(yán)、人身和財(cái)產(chǎn)安全。通用模型的“一損俱損”效應(yīng)也意味著，如果模型非法或不當(dāng)使用了隱私數(shù)據(jù)，下游所有應(yīng)用都會(huì)承擔(dān)這種隱私風(fēng)險(xiǎn)。惡意使用者還可能將泄露信息進(jìn)一步用于偽造、身份冒用、詐騙等不法目的，造成功能僭變（即泄露或超出原目的使用）。如近幾年興起的深度偽造技術(shù)，據(jù)?Sensity?的調(diào)查顯示，在公開(kāi)發(fā)布的深偽作品中，96%?都是虛假成人內(nèi)容，即將網(wǎng)絡(luò)圖片合成到情色視頻或圖片上，而受害者絕大多數(shù)都是女性。

算力層面：可持續(xù)發(fā)展與全球正義

在全球“雙碳”背景下，模型在算力層面所產(chǎn)生的能源和環(huán)境影響尤為值得重視。為應(yīng)對(duì)氣候危機(jī)，2015?年，178?個(gè)締約方簽署了《巴黎協(xié)定》，將控制氣溫上升作為長(zhǎng)期目標(biāo)，我國(guó)也于?2020?年明確了“雙碳”目標(biāo)。近年來(lái)，“軍備競(jìng)賽式”的通用模型研發(fā)所造成的環(huán)境問(wèn)題已經(jīng)備受矚目。Strubell?等梳理了幾種常用的深度學(xué)習(xí)語(yǔ)言模型在訓(xùn)練環(huán)節(jié)的碳足跡和計(jì)算花費(fèi)。結(jié)果顯示，訓(xùn)練這些模型產(chǎn)生的二氧化碳當(dāng)量（CO2e）從?0.012—284?噸不等。如在不做超參數(shù)調(diào)整的情況下，訓(xùn)練一個(gè)基于?Bert?的模型所造成的碳排放大致相當(dāng)于一次環(huán)美飛行所造成的排量；而訓(xùn)練神經(jīng)架構(gòu)搜索模型所需的計(jì)算費(fèi)用高達(dá)約?90?萬(wàn)—300?萬(wàn)美元不等。除了訓(xùn)練環(huán)節(jié)，模型在應(yīng)用過(guò)程中的環(huán)境問(wèn)題也不容忽視。圖靈獎(jiǎng)得主帕特森（David Patterson）等的研究顯示，多數(shù)公司在運(yùn)行深度神經(jīng)網(wǎng)絡(luò)模型時(shí)所消耗的能源和算力要多于模型訓(xùn)練階段。

算力背后的能源和環(huán)境問(wèn)題已經(jīng)引發(fā)關(guān)于環(huán)境后果和全球正義的討論。一方面，涉及代內(nèi)正義，因?yàn)橄硎艿酵ㄓ媚Ｐ捅憷耐前l(fā)達(dá)國(guó)家和人群，而被氣候變暖影響最嚴(yán)重的國(guó)家往往是落后的發(fā)展中國(guó)家。另一方面，能源消耗和環(huán)境污染也關(guān)涉代際正義，即對(duì)未來(lái)子孫的影響。

通用模型的中介性

美國(guó)著名計(jì)算機(jī)科學(xué)家格雷（Jim Gray）指出，傳統(tǒng)上，科學(xué)研究的范式主要是實(shí)證的、理論的和計(jì)算式的，而隨著仿真計(jì)算和數(shù)據(jù)收集工具的發(fā)展，大量的數(shù)據(jù)被收集起來(lái)，這也促使新的科學(xué)范式——數(shù)據(jù)密集型科學(xué)的產(chǎn)生。

預(yù)訓(xùn)練模型本質(zhì)上也是數(shù)據(jù)驅(qū)動(dòng)的，數(shù)據(jù)是模型知識(shí)的資料來(lái)源，模型的能力來(lái)自對(duì)大量無(wú)標(biāo)注訓(xùn)練數(shù)據(jù)中抽象共現(xiàn)模式（co-occurrence patterns）的學(xué)習(xí)。舉例來(lái)說(shuō)，如果“面包與果醬”在訓(xùn)練數(shù)據(jù)中出現(xiàn)的概率很高，那么在運(yùn)用該模型進(jìn)行文本生成的時(shí)候，如果用戶(hù)輸入“面包與”，模型會(huì)在提示欄中顯示“果醬”等其他高頻共現(xiàn)詞。Bender?等將大語(yǔ)言模型的這種映射行為稱(chēng)為“鸚鵡學(xué)舌”。這當(dāng)中包含兩個(gè)問(wèn)題：①通用模型的“鏡像”效應(yīng)在透過(guò)數(shù)據(jù)表征世界的時(shí)候，也會(huì)將訓(xùn)練數(shù)據(jù)中包含的社會(huì)問(wèn)題不加分辨地體現(xiàn)出來(lái)。對(duì)于通用模型來(lái)說(shuō)，這種能力的核心是在海量無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)通用的特征表示，提取出有價(jià)值的模式和規(guī)律，而不對(duì)數(shù)據(jù)內(nèi)容加以鑒別，這就意味著，如果訓(xùn)練數(shù)據(jù)中與某些詞匯（如“黑人”）相關(guān)聯(lián)的內(nèi)容多為負(fù)面的或刻板印象，則模型輸出的結(jié)果就可能直接體現(xiàn)這些問(wèn)題，并可能作為數(shù)字記憶將這些內(nèi)容固化。②由于通用模型的映射行為反映的是訓(xùn)練數(shù)據(jù)的內(nèi)在關(guān)聯(lián)，而不是全面豐富、動(dòng)態(tài)復(fù)雜的生活世界，選擇哪些數(shù)據(jù)集、依據(jù)什么樣的標(biāo)準(zhǔn)，以及如何界定核心概念都會(huì)對(duì)結(jié)果產(chǎn)生影響，導(dǎo)致模型結(jié)果可能存在可靠性問(wèn)題。以上兩個(gè)問(wèn)題反映出數(shù)據(jù)驅(qū)動(dòng)的模型可能存在的問(wèn)題，即通用模型作為一種“鏡像”可能無(wú)法準(zhǔn)確反映世界，還會(huì)影響人類(lèi)對(duì)世界的認(rèn)識(shí)。

通用模型的這種“鏡像”可以借用伊德（Don Ihde）的技術(shù)哲學(xué)來(lái)解釋。作為一種技術(shù)中介，通用模型可以調(diào)節(jié)人類(lèi)認(rèn)識(shí)和解釋世界的過(guò)程。伊德在探討技術(shù)在人與世界之間關(guān)系時(shí)提出技術(shù)與人的?4?種關(guān)系。在具身關(guān)系中，人類(lèi)與技術(shù)作為一個(gè)整體去經(jīng)驗(yàn)世界（如眼鏡），此時(shí)技術(shù)是人“身體的延伸”，即（人-技術(shù)）→世界，有助于放大某些感官意識(shí)。具身關(guān)系要求技術(shù)的知覺(jué)透明性，即人類(lèi)越了解技術(shù)，人與技術(shù)融合所能產(chǎn)生的效用越大。在詮釋關(guān)系中，人類(lèi)對(duì)世界的認(rèn)識(shí)是經(jīng)過(guò)技術(shù)工具表征轉(zhuǎn)換的（如儀表盤(pán)），即人→（技術(shù)-世界），人們認(rèn)識(shí)的世界是由技術(shù)詮釋的，技術(shù)是世界的表征。詮釋關(guān)系要求技術(shù)達(dá)到一定的發(fā)展程度，以精準(zhǔn)反映世界。在它異關(guān)系中，強(qiáng)調(diào)技術(shù)的自主性，即當(dāng)技術(shù)具有它者性（如人工智能）、成為認(rèn)識(shí)的客體時(shí)，透過(guò)技術(shù)展現(xiàn)的世界就變成了一種技術(shù)的加工物，表述為人→技術(shù)-（-世界）。在背景關(guān)系中，技術(shù)作為一種技術(shù)背景，成為日常生活的一部分（如暖氣），而人往往是在技術(shù)失效時(shí)才能意識(shí)到它的存在，即人→（技術(shù)/世界）。

在通用模型的語(yǔ)境下，伊德的“人-技術(shù)-世界”被“人-模型（數(shù)據(jù)）-世界”所取代。一方面，通用模型在某種程度上可以理解為數(shù)據(jù)和部分世界的“鏡像”，擁有表征相關(guān)事物復(fù)雜邏輯關(guān)系的能力，人類(lèi)透過(guò)模型來(lái)認(rèn)識(shí)世界。然而，模型的“鏡像”效應(yīng)也將映射出現(xiàn)實(shí)世界中偏見(jiàn)歧視等倫理問(wèn)題，對(duì)公平、自由、人格尊嚴(yán)等倫理價(jià)值造成挑戰(zhàn)。另一方面，作為“身體的延伸”，人類(lèi)又可能與模型融合在一起去經(jīng)驗(yàn)世界，但是融合的實(shí)際效用取決于技術(shù)的透明性，在通用模型語(yǔ)境下主要表現(xiàn)為可解釋性問(wèn)題，即是否可以從人類(lèi)的角度理解從輸入到輸出背后的映射邏輯。這關(guān)乎人類(lèi)是否可以信任模型，包括模型是否可靠，是否能夠符合具體的法律法規(guī)和倫理規(guī)范，是否可以用于科學(xué)研究等目的，以及是否可以部署到重要的生活領(lǐng)域，如幫助兒童學(xué)習(xí)知識(shí)，輔助法官判案等。傳統(tǒng)上，判定某個(gè)人或團(tuán)體的言論是否可靠的基本前提是他們知道自己在說(shuō)什么，即理解這些言論的意思和背后映射的價(jià)值規(guī)范、行為要求和社會(huì)影響。但是，深度神經(jīng)網(wǎng)絡(luò)的可解釋性和透明性較低，更多的是基于數(shù)據(jù)和參數(shù)的規(guī)模效應(yīng)給出的粗略結(jié)果。在某種程度上是用相關(guān)性代替了因果性，伴隨而來(lái)的就是上述信任的問(wèn)題。

綜上，通用模型在反映世界和讓人理解兩方面還存在一些問(wèn)題，作為人與世界關(guān)系的技術(shù)中介，通用模型在幫助人類(lèi)處理大規(guī)模下游任務(wù)的同時(shí)，也帶來(lái)了一系列的不確定性。通用模型的“鏡像”只是對(duì)訓(xùn)練數(shù)據(jù)的鏡像，而不完全是現(xiàn)實(shí)世界的鏡像，且人類(lèi)還無(wú)法完全理解、信任模型的預(yù)測(cè)邏輯，如若想讓模型的中介作用更加合理，人類(lèi)必須在環(huán)路之中發(fā)揮更大的作用。

治理措施及局限性

通用模型的社會(huì)與倫理維度關(guān)乎模型未來(lái)的技術(shù)走向、規(guī)則制定、接受度等一系列問(wèn)題，屬于通用模型發(fā)展的基礎(chǔ)問(wèn)題。目前，很多企業(yè)及高校都已啟動(dòng)針對(duì)通用模型社會(huì)和倫理影響的研究，并制定系列舉措對(duì)模型的研發(fā)和應(yīng)用進(jìn)行治理。

治理技術(shù)：上、下游倫理調(diào)節(jié)

當(dāng)前，應(yīng)對(duì)通用模型倫理挑戰(zhàn)的技術(shù)可以粗略劃分為上游手段和下游手段，主要是通過(guò)對(duì)上、下游訓(xùn)練數(shù)據(jù)進(jìn)行倫理調(diào)節(jié)以降低模型“鏡像”效應(yīng)的潛在負(fù)面影響。

上游手段主要對(duì)應(yīng)模型的預(yù)訓(xùn)練階段。最典型的舉措就是對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行清洗。如，DeepMind?在改進(jìn)?TransformerXL?模型的表現(xiàn)時(shí)，刪去了被?Perspective API?注釋為有毒的內(nèi)容。Perspective API?通過(guò)志愿者打分的方式來(lái)量化線上評(píng)論的分?jǐn)?shù)——如果?10?個(gè)評(píng)分者中有?6?個(gè)將評(píng)論標(biāo)記為有毒，就將該評(píng)論的毒性標(biāo)記為?0.6，代表詞條文本有?60%?的可能性被認(rèn)為是有害的，該評(píng)估模型目前已被廣泛用于處理通用模型的毒性問(wèn)題。由于毒性言論和偏見(jiàn)可能對(duì)特定人群造成直接或間接的不公且可能降低模型精度，改善這些問(wèn)題對(duì)提高模型公平性、可靠性等具有明顯益處。

下游手段主要指模型為適應(yīng)具體任務(wù)而進(jìn)行微調(diào)的階段。為改善模型在特定領(lǐng)域的表現(xiàn)，多數(shù)研究團(tuán)隊(duì)傾向于下游處理，即在已經(jīng)完成預(yù)訓(xùn)練的模型的基礎(chǔ)上用有指向性的小規(guī)模數(shù)據(jù)集進(jìn)行微調(diào)。目前，OpenAI、Google?等都使用了下游微調(diào)的手段來(lái)改善模型在特定社會(huì)和倫理維度上的表現(xiàn)，以增加模型在價(jià)值規(guī)范方面的敏感度和“理解力”，提高通用模型作為人與世界中介的倫理合理性。

治理機(jī)制：宏觀與微觀層面并行

通用模型的治理機(jī)制主要包括宏觀和微觀兩個(gè)層面。

在宏觀層面，通用模型治理要符合當(dāng)前人工智能治理的總體框架。政府、國(guó)際組織、企業(yè)等都針對(duì)人工智能的發(fā)展制定了系列治理機(jī)制。總的來(lái)說(shuō)，這些機(jī)制包括倫理原則（如我國(guó)的《新一代人工智能治理原則——發(fā)展負(fù)責(zé)任的人工智能》）、政策戰(zhàn)略（如美國(guó)的《美國(guó)人工智能倡議》）、法律法規(guī)（如歐盟的《人工智能法（草案）》）、標(biāo)準(zhǔn)（IEEE?的?P7000系列）等。通用模型的治理隸屬于相關(guān)主體發(fā)布的人工智能治理框架，同時(shí)受到行業(yè)組織、技術(shù)團(tuán)體、新聞媒體、公眾等多元主體的監(jiān)督。

在微觀層面，有必要針對(duì)通用模型的特性制定專(zhuān)門(mén)性治理機(jī)制。目前通用模型的專(zhuān)題治理以模型研發(fā)、應(yīng)用的頭部機(jī)構(gòu)為主導(dǎo)，主要做法是針對(duì)模型的發(fā)布、應(yīng)用制定一系列制度措施，包括：①分階段開(kāi)放模型。OpenAI?分?4?個(gè)階段、由小至大開(kāi)放了?GPT-2，以逐步了解模型特性，減少被濫用的可能性。②只針對(duì)特定對(duì)象開(kāi)放，并與合作者簽訂法律協(xié)議以規(guī)定雙方的權(quán)利和義務(wù)。③制定模型應(yīng)用的具體規(guī)則。OpenAI?在開(kāi)放?GPT-3?早期模型時(shí)會(huì)審查所有使用案例，并及時(shí)中止可能產(chǎn)生危害的應(yīng)用，降低潛在風(fēng)險(xiǎn)。

上述治理機(jī)制和技術(shù)都在一定程度上降低了通用模型潛在的社會(huì)和倫理風(fēng)險(xiǎn)，但是這些措施仍具有一定的局限性。①現(xiàn)階段針對(duì)通用模型的專(zhuān)題治理機(jī)制欠缺系統(tǒng)性，沒(méi)有與人工智能的總體治理框架緊密結(jié)合。如果審查下游應(yīng)用案例的倫理權(quán)力被模型提供者壟斷，這種權(quán)力的集中不僅會(huì)降低倫理審查的效力，也提高了使用者的風(fēng)險(xiǎn)。②現(xiàn)階段的治理技術(shù)還是相對(duì)割裂和零散的，沒(méi)有將技術(shù)與倫理很好的融合。例如，作為應(yīng)用最廣泛的去毒評(píng)估模型，Perspective API?的眾包評(píng)審機(jī)制更多是基于統(tǒng)計(jì)和描述的方法，缺乏規(guī)范性和理論性依據(jù)。一方面，有害文本的判斷與個(gè)人經(jīng)歷、文化背景、內(nèi)容場(chǎng)景等有很強(qiáng)的關(guān)聯(lián)性，對(duì)用戶(hù)?A?或某個(gè)地域的群體不具冒犯性的言論可能會(huì)冒犯到用戶(hù)?B?或另外一個(gè)地域的群體。因此，需要在評(píng)估之前充分考慮評(píng)審規(guī)則的合理性、評(píng)審員的多樣性等問(wèn)題。另一方面，API?現(xiàn)有的打分方式無(wú)法區(qū)分有害文本的危害程度。現(xiàn)有的評(píng)分方式是基于文本被認(rèn)為有害的可能性，即雖然一些行為比其他行為更讓人感到冒犯，但模型只能區(qū)分一個(gè)行為的冒犯性與否，而不能體現(xiàn)冒犯行為之間的質(zhì)量差異。有必要在系統(tǒng)理論規(guī)范的指導(dǎo)下，探索更合理的分級(jí)機(jī)制。

總的來(lái)說(shuō)，現(xiàn)階段應(yīng)對(duì)措施的局限性與缺乏系統(tǒng)性考慮和缺乏理論性、規(guī)范性指導(dǎo)密切關(guān)聯(lián)。通用模型作為訓(xùn)練數(shù)據(jù)的“鏡像”，具有建模復(fù)雜問(wèn)題和映射社會(huì)問(wèn)題的能力，但卻存在對(duì)現(xiàn)實(shí)世界中事實(shí)與價(jià)值的粗糙處理，導(dǎo)致所謂的“長(zhǎng)尾效應(yīng)”，即從最普遍需求的角度來(lái)看，模型整體上表現(xiàn)優(yōu)異且符合各項(xiàng)指標(biāo)，但是對(duì)于差異化、特殊性、個(gè)性化的需求而言，模型仍然存在風(fēng)險(xiǎn)。為了使通用模型輸出的結(jié)果更符合人類(lèi)價(jià)值觀，在模型發(fā)展的早期就將倫理理論和規(guī)范介入是十分必要的。

展望：建立開(kāi)放式、全流程、價(jià)值嵌入的倫理工具

現(xiàn)階段應(yīng)對(duì)措施的局限性表明，下一階段的通用模型治理需要將以下?3?個(gè)因素納入考量。

要秉持開(kāi)放式的態(tài)度，充分評(píng)估數(shù)據(jù)和模型的倫理影響和風(fēng)險(xiǎn)點(diǎn)。這樣做的前提是建立擁有交叉學(xué)科背景的倫理委員會(huì)、透明的評(píng)審規(guī)則、合理的倫理權(quán)力分配機(jī)制和第三方審查機(jī)制。在此基礎(chǔ)上，從多角度評(píng)估數(shù)據(jù)和模型的潛在影響，特別是數(shù)據(jù)的多樣性、文化背景和模型應(yīng)用的時(shí)間和空間屬性，充分評(píng)估模型在特定場(chǎng)景下、對(duì)特定人群可能產(chǎn)生的影響，降低潛在的負(fù)面效應(yīng)。

從全流程的視角出發(fā)，將倫理考量納入通用模型及其生態(tài)系統(tǒng)建設(shè)進(jìn)程之中。一方面，要通過(guò)教育、培訓(xùn)等手段加強(qiáng)科研人員和使用人員的倫理素養(yǎng)，讓相關(guān)人群切實(shí)體會(huì)到科技倫理的重要性，負(fù)責(zé)任地研發(fā)、使用通用模型。另一方面，需要研發(fā)更系統(tǒng)的解決方案和上下游技術(shù)手段，對(duì)訓(xùn)練數(shù)據(jù)和模型表現(xiàn)進(jìn)行倫理調(diào)節(jié)，改善模型在各個(gè)環(huán)節(jié)的道德敏感度。

要充分探索“價(jià)值敏感設(shè)計(jì)”“負(fù)責(zé)任創(chuàng)新”等倫理方法在通用模型語(yǔ)境下的可行性。不僅要將倫理規(guī)范嵌入到技術(shù)研發(fā)中去，更要考慮如何通過(guò)對(duì)模型的倫理規(guī)制與技術(shù)對(duì)人的規(guī)制的雙向互動(dòng)，真正探索出合乎倫理的模型的研發(fā)之路，前瞻性地規(guī)避價(jià)值缺失、價(jià)值沖突、價(jià)值違背等價(jià)值問(wèn)題，保證其在合規(guī)、合倫理的框架下促進(jìn)人工智能的發(fā)展。

（作者：滕妍、王迎春，上海人工智能實(shí)驗(yàn)室治理研究中心；王國(guó)豫復(fù)旦大學(xué)哲學(xué)學(xué)院、復(fù)旦大學(xué)生命醫(yī)學(xué)倫理研究中心；《中國(guó)科學(xué)院院刊》供稿）

天天a∨天天翘综合网,国产精品视频一区二区首页,国内精品自在自线,国偷自产av一区二区三区

通用模型的倫理與治理：挑戰(zhàn)及對(duì)策

相關(guān)文章