AI就像一个早熟的孩子。它通过吸收周围世界的数据,处理这些数据,并试图理解其中的含义。孩子们从各种媒体中学习,包括书籍、图片、声音、电视节目和互联网,而人工智能也是如此。就像一个迈着蹒跚学步的孩子一样,AI渴望获取更多知识,而且能够以惊人的速度学习。
但是,虽然孩子们可以自由地从他们能感觉到的任何事物中汲取线索,但人工智能没有这种奢侈。或者至少它不应该。理论上,人工智能应该只接受无版权数据的培训。在实际操作中,他们所获得的数据往往并非如此。正如多起知识产权侵权案件所表明的那样,人工智能有一个坏习惯复制别人的作业,然后把它复制成自己的。
随着人工智能的激增和对原始数据的渴望,这已经成为一个问题明显的一方面,我们希望生活在一个人工智能创新蓬勃发展的世界,每个人都能从互联网以来最具变革性的技术中受益。但与此同时,内容创作者和许可证持有人应该为他们的工作获得补偿,这是公平的——无论是人类还是机器对其进行了重新利用。
去中心化网络建立在透明和开放获取的核心web3原则之上,承诺为人工智能培训数据提供更公平的解决方案,使所有参与者都能从中受益。但是,它真的能兑现这一承诺,并促进一个更公平的人工智能行业,在这个行业中,版权索赔最终得到解决吗?
集中式AI无法停止复制争议的核心在于生成性人工智能模型如何获取知识。大多数大规模模型都是在从互联网上抓取的数据集上训练的,通常没有明确许可来自创作者。虽然人工智能公司认为这构成了合理使用,但许多出版商、艺术家和作家不同意,导致了一波法律诉讼和公众的强烈抗议。
这个问题不仅限于侵犯版权;这也是关于控制。当少数公司规定数据使用规则并从基于该数据训练的模型中获利时,该系统本质上缺乏问责制。此外,创作者几乎没有追索权来跟踪、管理或获得使用其知识产权的报酬。
ChatGPT和类似的生成模型的出现似乎是人工智能的决定性胜利,直到“合理使用”问题浮出水面。世界各地的出版商和艺术家指责这些大型人工智能实验室在未经明确许可的情况下对受版权保护的作品进行模型训练。这场争论已经从一场低语演变为一场关于谁拥有未来人工智能背后数据的全球对话。
ChatGPT的训练数据似乎包括从书籍到新闻文章的受版权保护的内容。尽管该公司声称合理使用,但批评者并不信服。如果我们依赖大型人工智能实验室进行自我管理——如果他们的幕后运作仍然不透明——我们真的能确保创作者的权利得到尊重吗?
虽然传统的设置依赖于人工智能实验室的内部道德委员会或许可协议来确定哪些数据可以使用或不可以使用,但去中心化的人工智能承诺了一个更透明的框架。贡献者、节点运营商和较小的“人工智能中心”共同决定数据的获取、模型架构和使用权限。换言之,没有一个实体可以规定哪些受版权保护的作品是公平的。至少这是理论。但这一愿景在实践中是什么样子的?
去中心化AI在行动
与数据收集和模型训练由单个实体控制的集中式模型不同,去中心化的人工智能将这些责任分布在整个网络中。这种设置允许对数据源进行透明的治理,使创作者能够选择参与或退出用于培训的工作。
通过智能合约和代币化,去中心化系统可以确保所有贡献者得到公平的补偿。更重要的是,这种方法提供了一个不可变的审计跟踪,可以验证数据集是否符合法律和道德标准。
奇点NET作为人工智能服务的孵化器,它展示了去中心化如何使人工智能开发民主化。该平台使开发人员能够访问人工智能工具,同时确保贡献者得到公平的奖励,并正在监督涉及DeFi、机器人、生物技术和长寿、游戏和媒体、艺术和娱乐(音乐)以及企业级人工智能等垂直领域的市场。
它也是ASI(人工超级智能倡议),专注于特定领域的人工智能模型。这些为机器人或医疗保健等行业量身定制的模型依赖于精心策划的数据集,在这些数据集中可以严格管理同意和合规性。ASI的蓝图涉及透明的数据管理和模型治理,以便每个特定领域的AI都有一个可跟踪的训练数据来源。
ASI对领域特定性的强调使其特别适合应对版权的复杂性。通过专注于利基应用的目标数据集,ASI避免了大规模抓取的陷阱,同时保持了高性能人工智能所需的鲁棒性。这种方法与去中心化人工智能的更广泛目标相一致:确保所有利益相关者——创作者、用户和开发人员——都能从行业增长的上行中受益。
SingularityNET和ASI旨在将有关数据使用和模型调优的决策交给分布式集体而不是单个公司实体。将其视为从“相信我们,我们会解决的”到“让我们以公开负责的方式共同解决”的战略支点
为什么去中心化AI很重要
通过将培训和验证过程分配给多个贡献者,去中心化网络可以对数据实施明确的、社区驱动的制衡。每一条内容都可以被追踪、验证,甚至在引起担忧时被排除在外。知识产权所有者有机会选择加入或退出,节点运营商可以执行基于共识的规则。这并不能完全消除复杂性——版权法仍然错综复杂——但它确实将透明度嵌入了网络的核心。
这股不断增长的去中心化人工智能浪潮旨在解决的不仅仅是版权问题:它针对的是人工智能系统的整个生命周期,从数据摄入到链上治理。其想法是,用于训练模型的任何内容都可以追溯到其来源,从而允许公平的许可协议或适当的补偿。从本质上讲,如果底层社区决定数据属于禁区,那么任何大型聚合器都不能躲在合理使用的背后。
在充满法律不确定性和大型科技告密者揭露的环境中,去中心化的人工智能可能只是补救措施。如果该行业希望在不疏远或损害创意社区的情况下继续创新,那么开辟一条更开放的道路至关重要。满足未来人工智能的需求并不一定意味着超越版权的界限。相反,它可以利用最好的分布式决策和web3技术,为创作者、开发人员和人工智能用户描绘一个更公平、更具包容性的未来。
通过将控制权交还给创作者和社区,去中心化的人工智能有可能重新定义我们在人工智能时代对所有权和数据的看法。