Open Future: 维基百科如何影响AI的未来

文章正文

发布时间：2024-11-18 23:47

「AI治理之他山之石」系列旨在通过快速的AI机器翻译，将海外最前沿的关于AI治理的思考和动态引入国内讨论。但请注意机器翻译的局限性，并以原文所表述之内容为准。

此篇是我们系列的第五篇，其由欧洲Open Future 基金会创始人Alek Tarkowski所写。Open Future近年来正致力于推动 AI 和开放（open）的交叉，梳理例如何为Open AI、AI大模型开源协议等议题。此篇中Alex提出针对大模型对开放信息（如维基百科）的数据依赖，维基百科应当在未来的AI发展中扮演更为关键的作用。

作者：Alek Tarkowski

原文：https://openfuture.eu/blog/how-wikipedia-can-shape-the-future-of-ai/

今年，Open Future 正在探索开放和AI发展的交叉点。我们正在研究如何将开放确立为一项原则，以增加这些系统的社会价值并使这些技术民主化。下面的文章是维基百科如何应对开放AI发展挑战的案例研究的第一部分。它阐述了一般论点，接下来将是关于维基人工智能使命的更具体建议。

随着我们探索围绕AI和开放性的问题，对基于公地的AI发展方法的需求变得越来越明显。今天，这项工作由AI研究公司（如HuggingFace、EleutherAI或Stability.AI）推动，这些公司将开放性视为一种价值观，并为机器学习技术的民主化提出了更广泛的愿景。

然而，他们并不是自由知识或数字共享生态系统的既定管理者和创造者。与此同时，机器学习系统的部署提出了开放的关键问题：开放内容被用来训练AI模型，AI技术及其输出的共享问题也出现了。

那么，开放活动家和组织的正确反应应该是什么？一个更加积极主动、强有力的开放和AI议程会是什么样子？

这方面的一些工作已经在做了。例如，多年来，知识共享一直在探索版权法和工具如何适用于生成AI领域。此外，Mozilla最近宣布推出Mozilla.ai，这是一家新的初创公司，任务是“建立一个可信、独立和开源的AI生态系统”

此外，当然还有维基百科和维基媒体运动。作为最大的自由知识库之一和支持它的生态系统（包括社会和技术）的管理者，维基百科在解决其中一些问题方面处于独特的地位。维基百科已经深深嵌入到新兴的AI系统中，成为许多AI训练数据集的关键组成部分。

维基的案例

2001年，一群活动家和知识工作者决定挑战一个有三百年历史的知识产业，创建一个不仅更好而且可以自由共享的新百科全书。今天，维基人——以及一般的开放倡导者和生产者——面临着类似的挑战。只是在这种情况下，现任者只有维基百科本身的一半历史。

机器学习系统如GPT模型正以前所未有的速度在今年被采用，并有望成为下一个通用技术，如互联网和网络。开放运动面临的挑战已经很明显：建立一个替代企业封闭机器学习系统的系统。并保护公地免受这些系统的剥削。

利害攸关的是内容生产和分发新生态系统的设计，这一生态系统极有可能塑造整个数字环境，并随之塑造我们的社会。正如过去的情况一样，致力于开放和自由知识价值观的强大参与者有机会打破商业垄断者控制的封闭生态系统的平衡。

这不仅仅是拯救一项新技术的灵魂。机器生成的内容生产将对自由知识生态系统和基于公地的对等生产模式产生重大影响。出于这个原因，维基媒体组织及其合作伙伴应该发起一项维基人工智能任务。

一个建立一个开放新途径的机会

目标仅仅是构建和部署“开放AI”吗？不一定，不仅仅是因为“openAI”这个名字已是想要主导这个生态系统的公司的商标品牌。

当前的时刻是一个问自己的机会：开放或对自由知识的承诺在今天意味着什么？我们应该建立一个像20年前维基人创建的那样开放的生态系统吗？还是有根本的区别？

我认为，我们需要一种新的开放。也就是说，在考虑“开放”时，我们需要更多地关注权力的问题及其失衡。传统的激进主义者对开放的看法是，它挑战权力的集中——但我们知道它也可以为他们服务。因此，开放的倡导者应该考虑民主化（或社会正义）的问题。传统上，更大的自由或平等被视为开放生态系统的自然结果。但事实证明，这并不那么简单——它们需要被视为通过设计引入然后管理的东西。

目标是解决安娜·马兹加尔所说的开放的意外后果。这是一个趋势，用户创造的公共价值被锁定在专有产品中，随后的利润被私有化。作为一种补救措施，马兹加尔提出了一种“开放的永久文化”，在这种文化中，共享的实践与对自由知识的贡献一样重要。换句话说，维基媒体对自由健康互联网的贡献不仅限于其知识输出——它也被视为一个公民、民主的空间。

在这方面，维基人可以从为2017-2020年制定和采用的新维基媒体运动战略中受益。该战略提出了一种既关注知识解放又关注公平和民主的方法。对我来说，这是开放活动家努力解决开放悖论的一个典型例子。

为什么开放活动家应该关心AI？

人们仍然可以争辩说，开放AI系统不应该是自由知识倡导者的目标。这一论点在很大程度上可以通过指出当今推动AI发展的炒作来提出。也许我们只是见证了在全球范围内鲁莽部署技术的多集传奇的又一章？

由聊天机器人驱动的必应搜索引擎的推出是一场惨败（从负责任的开发角度来看），一个精神错乱的聊天机器人是一个例子，说明了为什么需要对AI进行更大的节制（好像微软在2016年部署其第一个聊天机器人Tay时没有吸取教训一样）。科里·多克托罗最近形容谷歌的AI地位是由深深的恐惧驱动的——这不是一个好的领导地位。

这些中心化技术的下游部署，随着它们出现在越来越广泛的在线服务中，也显示出AI被兜售为蛇油的迹象。有一种明显的“把AI放在里面”的冲动，一次一个数字平台。

出于这些原因，开放运动中有一个强烈的立场反对这种炒作。活动人士对技术开发持谨慎态度，认为这是在帮助人类，而事实上，它往往是由商业利益驱动的。这在Web3的案例中很明显，开放倡导者甚至对该领域正在进行的进步对话感到厌倦。对生成性AI开发的类似批评是可以预料的。

还有一种感觉是，开放的生态系统可以以自己的方式、更慢的速度、更深思熟虑、更少炒作的方式发展——即使是以巨大的权衡为代价。乳齿象网络拥有强大的文化，使其与商业同行大相径庭，这是目前最好的例子。

开放运动当然应该批评AI的炒作。但现在不进入这个领域将是一个错误。原因是世界需要获得作为数字公共产品的开放和民主的AI系统。我之前已经暗示过，其中一个原因是我们需要像ChatGPT这样的封闭公司系统的替代品。其次，机器学习系统产生的社会价值将影响生活的许多领域——这往往被排除在许多关注当前挑战的辩论之外。管理得当的AI系统将支持同行生产和知识共享。

一个挑战一个机会

尤其是维基媒体运动应该解决自由知识生态系统中的AI问题，而不仅仅是因为它是管理这些生态系统的最重要和最大的参与者。维基百科作为大量可免费获得的内容，已经是这些系统的一部分——作为构建许多大型语言模型的数据集的核心组件。例如，艾伦研究所和华盛顿邮报最近的研究表明，维基百科是C4中使用的第二大内容来源，这是谷歌通过抓取1500万网页构建的训练集。它也是开源语言建模数据集Pile的主要数据源之一。据研究人员称，它与改进这些模型特别相关。

这种情况可以从两个方面来看待。一个方面是将其视为维基百科的生存风险，以及过去20年里一直在进行的更广泛的知识释放项目。维基百科已经被搜索引擎脱媒：谷歌在其显示的信息框中使用维基百科内容，因此，许多人不会点击维基百科本身。从传统的自由知识角度来看，这很好——内容应该自由传播。但它破坏了维基百科的可持续性，维基百科依赖于访问该网站的人获得财政支持和与百科全书的接触。

生成AI的发展可能会加剧这一风险。我们可能面临一个世界，在这个世界里，AI模型界面是知识的新守门人，人们正在提示聊天机器人而不是阅读百科全书。而专为解决这种封闭（或剥削）威胁而设计的类似共享条款似乎不再是可行的防御措施。由于AI开发生命周期的特殊性和复杂性，内容重用通常不符合该条款所依赖的概念，例如复制内容和创建衍生产品。

通过完全开放资源，并关注它们的结构和记录方式，维基百科正在从根本上为自己的生成AI取代做好准备。特别是如果在维基百科上训练的模型开始为百科全书创建内容——迅速将人类编辑挤出循环。知识仍然是免费的（有充分的理由和强烈的倡导者将AI结果保留在公共领域），但马兹加尔提出的永久文化模式将不复存在。

然而，这种情况也可以被视为一个机会。我的乐观来源来自观察2021年推出的维基媒体企业计划。它提供付费的企业级API，适合在维基百科内容之上构建商业解决方案。谷歌是它的第一批客户之一（第二个是互联网档案馆）。这项服务是自愿的，但它提供了一个解决去中介化挑战的模式，并提供了一个提高维基媒体可持续性的解决方案。因此，它应该被视为免费知识管理方面的一项重大创新。

从2023年的角度来看，这一举措应被视为确保AI发展领域公平价值链的一个重要发展。它解决了一个主要问题：当数据用于培训AI系统时，创建数据的人的工作没有得到补偿。

因此，我建议将维基媒体企业计划视为维基人工智能的基石。这一举措展示了对AI系统和自由知识采取积极、乐观的态度。

因此，我建议维基媒体企业计划应该被视为维基人工智能的基石。这是一个展示AI系统和自由知识的积极、乐观的方法的倡议。在这篇文章的第二部分，我将更详细地概述这种方法。

原标题：《AI治理之他山之石 | Open Future: 维基百科如何影响AI的未来》

标签