2021年,“開源”被首次寫入國家“十四五”規(guī)劃,開源憑借開放、協(xié)作、共享的特點,已成為全球軟件開發(fā)和產(chǎn)業(yè)創(chuàng)新發(fā)展的主導協(xié)作模式,為信息技術高質(zhì)量發(fā)展提供了強大助力。與此同時,新一代人工智能、大數(shù)據(jù)、云計算、工業(yè)互聯(lián)網(wǎng)、區(qū)塊鏈等技術領域正結合開源,呈現(xiàn)出技術與產(chǎn)業(yè)協(xié)同共進共融的態(tài)勢。
如今,通過開源開放模式加速信息產(chǎn)業(yè)生態(tài)共建已經(jīng)成為業(yè)界共識。2023年9月21日,由中國信息通信研究院(以下簡稱“中國信通院”)和中國通信標準化協(xié)會聯(lián)合主辦的“2023 OSCAR開源產(chǎn)業(yè)大會”在北京舉行。會上,中國信通院云計算與大數(shù)據(jù)研究所所長何寶宏首次與業(yè)界分享對下一代開源的最新見解與觀點。
開源拒絕重演“公地悲劇” 25年來取得巨大成功
25年來,開源以“違反”經(jīng)濟學基本原理的方式,以共享代碼的方式大規(guī)模生產(chǎn)“數(shù)字公共品”。然而,在開源領域,經(jīng)濟學中的“公地悲劇”并沒有出現(xiàn)。“公地悲劇”是一個經(jīng)典的經(jīng)濟學問題,描述了個體在追求自身利益的過程中,導致公共資源過度使用和衰退的現(xiàn)象。
互聯(lián)網(wǎng)的快速發(fā)展正是得益于開源的成功。從早期的操作系統(tǒng)Linux、安全通信OpenSSL、數(shù)據(jù)庫My SQL、門戶工具Apache、排版引擎Webkit,到近年來的手持終端Android、網(wǎng)絡Open Daylight、云計算Open Stack、大數(shù)據(jù)Hadoop、容器Docker以及AI深度學習領域的TensorFlow和PyTorch等,這些借助開源互聯(lián)網(wǎng)而起的開源軟件,今日又成了互聯(lián)網(wǎng)的基石。可以說,互聯(lián)網(wǎng)與開源同根同源、相伴相生,既是Internet over Open Source,也是Open Source over Internet。
目前,開源許可協(xié)議類型有2700多種,主要差異性體現(xiàn)在對分發(fā)衍生軟件的限制不同。在全球活躍度的前1000個開源軟件中,超過60%使用MIT、Apache 2.0以及BSD寬松型許可協(xié)議。
何寶宏指出,如今開源已取得巨大成功。從生態(tài)規(guī)模看,全球開源生態(tài)成熟繁榮,全球開源軟件項目高速增長,覆蓋當前主流技術領域,全球開源貢獻者儲備規(guī)模龐大。從行業(yè)應用看,全球行業(yè)開源逐步興起,各行業(yè)應用開源模式建立產(chǎn)業(yè)開放供應鏈,提升生產(chǎn)效能。此外,開源模式正在引領科技實現(xiàn)越來越多的突破。
開源許可協(xié)議面臨新環(huán)境 從“通用開源”走向“場景化開源”
多年來,開源促進組織OSI(Open Source Initiative)維護著對開源的定義(OSD),以及其認可的開源許可協(xié)議列表,目標是促進和保護開源軟件及開源社區(qū)。一切不滿足OSI所規(guī)定的全部十條要求的開放許可協(xié)議,都會被開源權威機構OSI認為是“非典型性”開源。
開源許可協(xié)議從最早的GPL開始, 逐漸演進到GPLv2和v3,中間還有Apache、MPL、AGPL、LGPL等,但是近幾年來有一批新的許可協(xié)議出現(xiàn),引起了社區(qū)的一些激烈的討論。這些新的許可協(xié)議包括BSL、SSPL、Elastic以及一個比較特殊的附加條款Commons Clause。
但OSI的這10大原則,誕生于20多年前,聚焦的是軟件代碼,更多是關于軟件產(chǎn)品,屬于通用開源范疇。近年來,開源的這一經(jīng)典定義面臨著新的挑戰(zhàn)與重構,尤其是來自云計算、大數(shù)據(jù)、大模型和AIGC的挑戰(zhàn),讓開源早已不在局限于通用領域,更多轉向聚焦于數(shù)據(jù)、服務等場景化開源。
如今,云計算已經(jīng)催生了一批“非典型性”開源許可協(xié)議。早期的開源許可協(xié)議,未涉及到云服務場景的分發(fā)形式。市場現(xiàn)實是云廠商基于開源技術推出云服務,但貢獻甚少。于是,一批開源項目修改了開源協(xié)議,比如限制云服務模式的SSPL許可協(xié)議。
隨著大數(shù)據(jù)尤其是數(shù)據(jù)資產(chǎn)化,開放數(shù)據(jù)和數(shù)據(jù)流通成為一種新“開源”模式。數(shù)據(jù)通常是事實和信息的表達,而版權通常適用于原創(chuàng)創(chuàng)作的表達形式,版權通常不適用于數(shù)據(jù)資產(chǎn)。
AI大模型涉及的開放許可證類型更為復雜。僅Hugging Face上開源的人工智能模型就超過28萬,涉及66個開源協(xié)議,大致可以分為三類。第一類是通用開源軟件許可協(xié)議,比如Apache 2.0/GPL 3.0/MPL 2.0;第二類是知識共享許可協(xié)議,比如CC-BY-4.0;第三類是人工智能大模型開源許可協(xié)議,比如Llama/OpenRail等。
相對OSI經(jīng)典的開源定義,開源AI大模型都會對“古典”開源的定義做成新限制,多為用途和生成內(nèi)容的輸出。對于AIGC,更是存在新的爭議,比如:AIGC生成的代碼,可否參與開源貢獻?目前各方對此類問題試圖進行規(guī)范,比如:
2023年3月,美國版權局發(fā)布《AI版權認定聲明及登記指引》,純AIGC作品不受版權法保護,進行版權登記時需要披露AIGC部分。Apache基金會發(fā)布《第三方許可政策》,提出“AIGC的條款與開源定義保持一致”貢獻者注明創(chuàng)建貢獻時使用的工具,例如包含“Generated-by”。
事實上,AIGC涉及的版權和開放許可,還未形成廣泛共識。何寶宏指出,開放許可協(xié)議的基石可分為幾個階段:軟件著作權—>著作權—>知識產(chǎn)權—>知識產(chǎn)權+。涉及到開放數(shù)據(jù)和開源大模型許可協(xié)議,更需要考慮使用場景、商業(yè)收益和科技倫理問題。
迎接下一代開源 需與現(xiàn)實世界適配
當軟件從產(chǎn)品成為服務,當開放的對象從代碼延展到數(shù)據(jù)和模型,當開放許可的法律基礎從版權延展所有權,當代碼生成主體從自然人的程序員延展到AIGC,當開源與現(xiàn)實中的法規(guī)制度、隱私保護和科技倫理日益密切時,下一代開源將向何處去?
開源軟件促進會OSI(open source initiative)對于開源提出了十個條款,包括:自由再發(fā)布、源代碼公開、允許派生作品、作者源代碼完整性、不能歧視任何個人或團體、不能歧視任何領域、許可協(xié)議的發(fā)布、許可協(xié)議不能只針對某個產(chǎn)品、許可協(xié)議不能約束其他軟件、許可協(xié)議必須獨立于技術。
目前,OSI已啟動Open Source AI的定義討論工作,定義了開放數(shù)據(jù)和人工智能系統(tǒng)的基本原則,涉及數(shù)據(jù)安全、版權所屬、監(jiān)管要求、道德倫理、責任認定等多個方面。
總體而言,何寶宏認為,下一代開源需要從兩方面進行規(guī)范:一方面,開源應該與現(xiàn)實社會深度融合,遵守現(xiàn)實治理規(guī)則,如:監(jiān)測統(tǒng)計、自律公約、責任邊界、安全防護;另一方面,開源的發(fā)展也需要跟隨社會長期性和周期性的發(fā)展規(guī)律。
審核編輯 黃宇
-
開源
+關注
關注
3文章
3408瀏覽量
42713
發(fā)布評論請先 登錄
相關推薦
評論