2024-11-02 09:43来源:本站编辑
开源促进会(OSI)发布了“开放”人工智能的官方定义,为与meta等技术巨头的冲突奠定了基础,这些巨头的模型不符合规则。
OSI长期以来一直为开源软件的构成设定行业标准,但人工智能系统包括传统许可证不涵盖的元素,比如模型训练数据。现在,对于一个被认为是真正开源的人工智能系统,它必须提供:
查阅详情a 关于用于训练人工智能的数据,以便其他人可以理解和重新创建它,用于构建和运行人工智能的完整代码,训练中的设置和权重,这有助于人工智能产生结果这一定义直接挑战了meta的Llama,后者被广泛推广为最大的开源AI模型。Llama可以公开下载和使用,但它对商业用途有限制(对于拥有超过7亿用户的应用程序),并且不提供对训练数据的访问,导致它没有达到OSI的标准,即不受限制地自由使用、修改和共享。
meta发言人Faith Eischen告诉The Verge,虽然“我们在很多事情上与我们的合作伙伴OSI意见一致”,但该公司不同意这一定义。“没有单一的开源人工智能定义,定义它是一个挑战,因为以前的开源定义没有包含当今快速发展的人工智能模型的复杂性。”
“无论技术定义如何,我们将继续与OSI和其他行业组织合作,以负责任的方式使人工智能更容易获得和免费,”Eischen补充道。
25年来,OSI对开源软件的定义已经被开发人员广泛接受,这些开发人员希望在彼此的工作基础上进行构建,而不必担心诉讼或许可陷阱。现在,随着人工智能重塑格局,科技巨头面临着一个关键的选择:接受这些既定的原则,还是拒绝它们。Linux基金会最近也试图定义“开源人工智能”,这表明关于传统开源价值观如何适应人工智能时代的争论日益激烈。
“现在我们有了一个强有力的定义,也许我们可以更积极地反击那些‘开放清洗’的公司,他们宣称自己的工作是开源的,但实际上并不是,”独立研究员、开源多工具数据集的创造者西蒙·威尔森告诉the Verge。
拥抱脸公司首席执行官克莱姆·德朗格称,OSI的定义“极大地帮助了围绕人工智能的开放性展开对话,尤其是在涉及到训练数据的关键作用时。”
OSI的执行董事Stefano Maffulli说,他们花了两年的时间,咨询了全球的专家,通过合作的过程来完善这个定义。这包括与来自机器学习和自然语言处理领域的学术界专家、哲学家、知识共享领域的内容创作者等合作。
虽然meta以安全为由限制对其训练数据的访问,但批评者认为动机更简单:将其法律责任降到最低,并保护其竞争优势。许多人工智能模型几乎肯定是在受版权保护的材料上训练的;今年4月,《纽约时报》报道称,meta内部承认其训练数据中存在受版权保护的内容,“因为我们无法不收集这些内容。”针对meta、OpenAI、Perplexity、Anthropic等公司的侵权诉讼层出不穷。但除了极少的例外情况——比如披露培训数据的Stable Diffusion——原告目前必须依靠间接证据来证明他们的工作被剽窃了。
与此同时,Maffulli认为开源的历史正在重演。Maffulli告诉the Verge,“meta的论点与微软在上世纪90年代的做法相同”,当时微软将开源视为对其商业模式的威胁。他回忆起meta告诉他公司对Llama的大量投资,并问他“你认为谁能做同样的事情?”马弗利看到了一个熟悉的模式:一家科技巨头利用成本和复杂性来证明将其技术封锁起来的合理性。“我们回到了早期,”他说。
“这是他们的秘密武器,”马弗利在谈到训练数据时说。“这是一个有价值的IP。”