GitHub Copilot 究竟是什么?
Copilot 是一種基于公開源代碼和文本訓(xùn)練的人工智能。它實時為程序員提供代碼建議。
Copilot 還使用 GPL 等 Copyleft 許可下的眾多 GitHub 存儲庫作為培訓(xùn)材料。
那么為什么它和“抄襲有關(guān)?”
這還和當年那一段“雷神代碼”有關(guān)。
有行業(yè)從業(yè)者稱,在利用GitHub Copilot 走平方根倒數(shù)速算法(Fast Inverse Square Root),結(jié)果出人意料。
它簡直“完美復(fù)刻”那段有名的代碼,就連當年那句“what the fuck”的注釋也用上了。
很難不讓人認為這是抄襲。
只能說微軟、GitHub、OpenAI 還想收費簡直做夢!
一些評論家指責 GitHub 侵犯版權(quán),因為 Copilot 本身不是在 Copyleft 許可下發(fā)布的,而是在測試后作為付費服務(wù)提供的階段。
這場爭論同時涉及幾個棘手的版權(quán)問題。
收費還是免費?
GitHub Copilot 在訓(xùn)練過程中必定使用過 GPL 協(xié)議下的代碼,那么機器學(xué)習(xí)系統(tǒng)產(chǎn)生的作品,甚至機器學(xué)習(xí)系統(tǒng)本身,都算是 GPL 協(xié)議中規(guī)定的衍生作品嗎?
如果是那么GitHub Copilot很難避免的就是免費開源,原因不言自明,如果不是那是不是說明開發(fā)者可以利用 GitHub Copilot 來“清除”代碼的 GPL 協(xié)議,從此再也無需遵循該協(xié)議?
工作原理
GitHub Copilot 由 OpenAI 研發(fā)的新 AI 系統(tǒng) Codex 提供支持,Codex 是 GPT-3 的延伸版本,該模型接受過公開源代碼和自然語言的訓(xùn)練,因此它理解編程和人類語言。
機器生成的代碼不是衍生作品
一些評論員將 GitHub Copilot 視為侵犯版權(quán),因為該程序不僅使用受版權(quán)保護的軟件代碼(其中很多是在 GPL 下發(fā)布的)作為培訓(xùn)材料,而且還生成軟件代碼作為輸出。根據(jù)批評者的說法,這個輸出代碼是訓(xùn)練數(shù)據(jù)集的衍生作品,因為如果沒有訓(xùn)練數(shù)據(jù),人工智能將無法生成代碼。根據(jù) GitHub 的常見問題解答,在少數(shù)情況下,Copilot 還會從訓(xùn)練數(shù)據(jù)集中復(fù)制短片斷。