释放双眼，带上耳机，听听看~！

本文讨论了AI公司面临的数据需求规模和紧迫性，以及它们在获取数据时面临的问题。同时介绍了一些利用加密技术解决这些问题的初创公司。深入探讨了数据需求对互联网及其数十亿贡献者的威胁，以及预训练的GPT-3模型如何回答问题。

原文标题：The Data Must Flow原文作者：SHLOK KHEMANI原文编译：深潮 TechFlow

数据需求对AI公司的影响及解决方案
看看你是否能发现图像中所有精心策划的参考资料

过去两年里，自从一家相对不知名的初创公司 OpenAI 发布了名为 ChatGPT 的聊天机器人应用程序，AI 从幕后走向了台前。我们正处在机器智能全面渗透生活的关键时刻。随着对控制这种智能的竞争愈发激烈，驱动其发展的数据需求也在不断增加。这就是这篇文章的主题。

我们讨论了 AI 公司所需的数据的规模和紧迫性以及它们在获取数据时面临的问题。我们探讨了这种难以满足的需求如何威胁到我们所热爱的互联网及其数十亿贡献者。最后，我们介绍了一些利用加密技术来提出解决这些问题和担忧的初创公司。

在深入探讨之前需要说明一点：这篇文章是从训练大型语言模型（LLMs）的角度写的，并非所有 AI 系统。因此，我经常将「AI」和「LLMs」互换使用。

展示数据

LLMs 需要三种主要资源：计算能力、能源和数据。在大量资本的支持下，公司、政府和初创企业同时在争夺这些资源。在这三者中，对计算能力的争夺最为引人注目，这部分归功于英伟达股价的迅速上涨。

数据需求对AI公司的影响及解决方案
这就是预训练的 GPT-3 如何回答问题的

模型对齐的目标是使预训练模型对最终用户有用。换句话说，是将其从一个单纯的统计文本完成工具转变为一个理解和对齐用户需求并能进行连贯、有用对话的聊天机器人。

对话微调

这个过程的第一步是对话微调。微调是指在一个预训练的机器学习模型的基础上，进一步在一个较小的、有针对性的数据集上进行训练，以帮助其适应特定任务或用例。对于训练 LLM 来说，这个特定的用例是进行类似人类的对话。自然，这个微调的数据集是一组人类生成的提示-响应对，展示给模型如何行为。

这些数据集涵盖不同类型的对话（问答、摘要、翻译、代码生成），通常由高学历的人类（有时称为 AI 导师）设计，他们具有优秀的语言技能和主题专业知识。

最先进的模型如 GPT-4 估计在~100,000 对这样的提示-响应对上进行了训练。

数据需求对AI公司的影响及解决方案
提示-响应对的示例

从人类反馈中强化学习（RLHF）

可以将这一步视为类似于人类训练宠物狗：奖励好的行为，惩罚坏的行为。模型收到一个提示，其响应与人类标注者共享，标注者根据输出的准确性和质量对其进行评分（例如 1-5 分）。RLHF 的另一种版本是生成一个提示并产生多个响应，由人类标注者从最佳到最差进行排名。

数据需求对AI公司的影响及解决方案
RLHF 任务示例

RLHF 旨在引导模型朝着人类偏好和期望的行为发展。事实上，如果你是 ChatGPT 的用户，OpenAI 也会将你作为 RLHF 数据标注者！这发生在模型有时生成两个响应并要求你选择更好的一个时。

甚至是简单的点赞或点踩图标，提示你评价回答的有用性，也是模型的一种 RLHF 训练。

数据需求对AI公司的影响及解决方案

使用 AI 模型时，我们很少考虑到背后投入的数百万小时的人类劳动。这不仅仅是 LLMs 独有的需求。历史上，即使是传统机器学习用例，如内容审核、自动驾驶和肿瘤检测，也需要大量的人类参与进行数据标注。（这篇 2019 年《纽约时报》的优秀故事展示了 iAgent 印度办公室背后的幕后故事，这家公司专门从事人类标注）。

Fei-Fei Li 用来创建 ImageNet 数据库的 Mechanical Turk，被 Jeff Bezos 称为「人工的 AI」，因为它的工作人员在 AI 训练中发挥的幕后作用。

在今年早些时候的一个离奇故事中，亚马逊的 Just Walk Out 商店，顾客可以简单地从货架上拿取物品然后走出（稍后自动收费），并非由某种先进的 AI 驱动，而是由 1000 名印度合同工手动筛选店铺录像。

数据需求对AI公司的影响及解决方案

关键是，每个大规模 AI 系统在某种程度上都依赖于人类，LLMs 只增加了对这些服务的需求。像 Scale AI 这样的公司，其客户包括 OpenAI，通过这种需求达到了 110 亿美元的估值。甚至 Uber 也在重新安排一些印度工人在不驾驶车辆时标注 AI 输出。

在成为全栈 AI 数据解决方案的过程中，Grass 也正在进入这一市场。他们将很快发布一个 AI 标注解决方案（作为其主要产品的扩展），用户可以通过完成 RLHF 任务获得奖励。

问题是：Grass 通过去中心化的方式进行这一过程，相对于数百家在同一领域的中心化公司有哪些优势？

Grass 可以通过代币激励来引导工人网络。正如他们奖励用户分享其互联网带宽的代币一样，他们也可以奖励人类标注 AI 训练数据。在 Web2 世界中，支付给全球分布的零工经济工人尤其是全球分布的任务，用户体验远不及在像 Solana 这样的快速区块链上提供的即时流动性。

加密社区尤其是 Grass 现有的社区，已经有大量受过教育、互联网原生、技术娴熟的用户。这减少了 Grass 在招聘和培训工人上需要花费的资源。

你可能会怀疑，标注 AI 模型响应以换取奖励的任务是否会吸引农场主和机器人。我也曾这样想过。幸运的是，已经进行了大量研究，探索使用共识技术来识别高质量标注者并筛除机器人。

请注意，Grass 至少目前仅进入 RLHF 市场，而不帮助公司进行对话微调，这需要高度专业化的劳动力和更难以自动化的物流。

专门化微调

完成预训练和对齐步骤后，我们就得到了所谓的基础模型。基础模型对世界如何运作有一个通用的理解，并能在广泛的主题上进行流利的类人对话。它还对语言有很好的掌握，能够轻松帮助用户写邮件、故事、诗歌、文章和歌曲。

当你使用 ChatGPT 时，你是在与基础模型 GPT-4 进行互动。

基础模型是通用模型。尽管它们对数百万个主题有足够的了解，但它们并不专门研究任何一个。当被问及帮助理解比特币的代币经济学时，响应会有用且大多数情况下准确。然而，当你要求它列出类似 EigenLayer 这样的再抵押协议的安全边缘情况风险时，你不应该太相信它。

请记住，微调是指在一个预训练的机器学习模型的基础上，进一步在一个较小的、有针对性的数据集上进行训练，以帮助其适应特定任务或用例。之前我们讨论了在将原始文本完成工具转变为对话模型时的微调。同样，我们也可以微调结果基础模型，使其专门从事某一特定领域或任务。

Med-PaLM2 是 Google 基础模型 PaLM-2 的微调版本，旨在提供高质量的医学问题答案。MetaMath 是微调在 Mistral-7B 上的数学推理模型。一些微调模型专门研究广泛类别，如讲故事、文本摘要和客户服务，而另一些则专门研究细分领域，如葡萄牙诗歌、Hinglish 翻译和斯里兰卡法律。

要为特定用例微调模型，需要高质量的相关领域数据集。这些数据集可以来源于特定网站（如本新闻通讯中的加密数据）、专有数据集（例如一家医院可能会转录数千次的医生-病人互动），或专家的经验（需要详细采访以捕捉）。

数据需求对AI公司的影响及解决方案

随着我们进入拥有数百万 AI 模型的世界，这些细分的长尾数据集变得越来越有价值。这些数据集的拥有者，从大型会计公司如 EY 到加沙的自由摄影师，这些数据集的所有者都在争相购买这些正在迅速成为 AI 军备竞赛中最热门商品的数据集。Gulp Data 等服务的出现就是为了帮助企业公平地评估其数据的价值。

OpenAI 甚至发布了一项数据合作伙伴公开请求，寻求拥有「反映人类社会的大规模数据集，而这些数据集目前不易公开获取」的实体合作。

我们知道至少有一种很好的方法来匹配寻找细分产品买家和卖家的需求，那就是互联网市场。Ebay 为收藏品创建了一个，Upwork 为人类劳动创建了一个，数不胜数的平台为无数其他类别创建了平台。毫不意外，我们也看到了细分数据集的市场的出现，有些是去中心化的。

Bagel 正在构建「人工通用基础设施」，一套工具，使得「高质量、多样化数据」的持有者能够以无信任和隐私保护的方式与 AI 公司共享其数据。他们使用零知识（ZK）和完全同态加密（FHE）等技术来实现这一目标。

公司通常拥有高价值的数据，但由于隐私或竞争问题无法变现。例如，一个研究实验室可能拥有大量的基因组数据，但为了保护病人隐私不能共享，或者一个消费品制造商可能拥有供应链废物减少数据，但在不透露竞争机密的情况下无法披露。Bagel 利用密码学的进步，使这些数据集变得有用，同时消除了附带的担忧。

Grass 的住宅代理服务也可以帮助创建专门的数据集。例如，如果你想微调一个提供专家烹饪建议的模型，你可以要求 Grass 抓取 Reddit 的 r/Cooking 和 r/AskCulinary 等子版块的数据。同样，旅行导向模型的创建者可以要求 Grass 抓取 TripAdvisor 论坛的数据。

虽然这些不完全是专有数据源，但它们仍然可以成为其他数据集的有价值补充。Grass 还计划利用其网络创建存档数据集，任何客户都可以重复使用。

上下文级别数据

试着问问你喜欢的 LLM「你的训练截止日期是什么时候？」你会得到一个类似 2023 年 11 月的答案。这意味着基础模型仅提供该日期之前的可用信息。当你考虑到训练这些模型（甚至微调它们）是多么计算密集和耗时时，这一点是可以理解的。

要保持它们实时更新，你必须每天训练和部署一个新模型，这简直不可能实现（至少目前不可能）。

然而，对于许多用例来说，没有关于世界最新信息的 AI 是毫无用处的。例如，如果我在使用一个依赖于 LLMs 响应的个人数字助理，当被要求总结未读电子邮件或提供利物浦上场比赛的进球者时，这些助手将处于不利地位。

为了绕过这些限制并基于实时信息提供用户响应，应用程序开发者可以查询并将信息插入称为基础模型的「上下文窗口」的输入文本中。上下文窗口是 LLM 可以处理以生成响应的输入文本。它以标记为单位测量，表示 LLM 在任何给定时刻可以「看到」的文本。

所以，当我要求我的数字助理总结我的未读电子邮件时，应用程序首先查询我的电子邮件提供商以获取所有未读电子邮件的内容，将响应插入发送给 LLM 的提示中，并附加一个类似「我已提供 Shlok 收件箱中的未读电子邮件列表。请总结它们。」的提示。LLM 有了这个新上下文后，便可以完成任务并提供响应。将这一过程视为你复制粘贴一封电子邮件到 ChatGPT 并要求它生成响应，但这一过程在后台进行。

为了创建具有最新响应的应用程序，开发者需要访问实时数据。Grass 节点可以实时抓取任何网站的数据，为开发者提供低延迟的实时数据，简化了上下文增强生成（RAG）工作流。

这也是 Masa 今天的定位。就目前而言，Alphabet、Meta 和 X 是唯一拥有不断更新用户数据的大平台，因为它们拥有用户基础。Masa 为小型初创公司提供了公平的竞争环境。

这一过程的技术术语是检索增强生成（RAG）。RAG 工作流是所有现代 LLM 应用程序的核心。这一过程涉及文本向量化，即将文本转换为数字数组，这些数组可以被计算机轻松解释、操作、存储和搜索。

Grass 计划在未来发布物理硬件节点，为客户提供向量化、低延迟的实时数据，以简化其 RAG 工作流。

大多数业内人士预测，未来上下文级别查询（也称为推理）将利用大部分资源（能源、计算、数据）。这是有道理的。模型的训练总是一个时间限制的过程，消耗一定的资源分配。应用级别的使用，另一方面，可以有理论上无限的需求。

Grass 已经看到了这一点，大部分的文本数据请求来自希望获得实时数据的客户。

LLMs 的上下文窗口随着时间的推移而扩大。当 OpenAI 首次发布 ChatGPT 时，它的上下文窗口为 32,000 个标记。不到两年后，谷歌的 Gemini 模型的上下文窗口超过了 100 万个标记。100 万个标记相当于 11 本 300 页的书——大量的文本。

这些发展使得内容窗口可以构建的内容的影响远远超过了访问实时信息。有人可以，例如，丢入所有 Taylor Swift 歌曲的歌词，或者这份通讯的整个存档到上下文窗口，并要求 LLM 生成相似风格的新内容。

除非明确编程不允许，否则模型将生成一个相当不错的输出。

如果你能感受到这一讨论的方向，请准备好接下来要讨论的内容。到目前为止，我们主要讨论了文本模型，但生成模型在其他模态（如声音、图像和视频生成）上的表现也越来越出色。我最近在 Twitter 上看到了 Orkhan Isayen 的这幅非常酷的伦敦插图。

数据需求对AI公司的影响及解决方案

Midjourney，一个流行且非常出色的文本到图像工具，具有一个叫做风格调节器（Style Tuner）的功能，可以生成与现有图像风格相似的新图像（这一功能也依赖于类似 RAG 的工作流，但不完全一样）。我上传了 Orkhan 的人类创作的插图，并使用风格调节器提示 Midjourney 将城市改为纽约。这是我得到的：

数据需求对AI公司的影响及解决方案

四张图片，如果你浏览艺术家的插图，可能很容易被误认为是他们的作品。这些图像是在 30 秒内由 AI 基于单个输入图像生成的。我要求『纽约』，但主题真的可以是任何东西。在其他模态，如音乐中，也可以进行类似的复制。

回想我们之前讨论的部分，诉讼 AI 公司的实体之一是创作者，你可以明白他们为什么有道理。

互联网曾是创作者的福音，使他们能够与全世界分享他们的故事、艺术、音乐和其他形式的创意表达；使他们能够找到 1000 个真正的粉丝。现在，同一个全球平台正成为对他们生计的最大威胁。

为什么要支付 Orkhan 500 美元的佣金，而你可以通过 30 美元/月的 Midjourney 订阅得到一个足够好的相似作品？

听起来像反乌托邦？

技术的奇妙之处在于它几乎总是找到解决其自身所创造问题的方法。如果你翻转看似对创作者不利的情况，你会发现这是一个前所未有的机会，可以将他们的才华货币化。

在 AI 之前，Orkhan 可以创作的作品数量受到一天中时间的限制。通过 AI，他们现在理论上可以服务无限的客户。

要理解我的意思，让我们看看 elf.tech，这是音乐家 Grimes 的 AI 音乐平台。Elf Tech 允许你上传一首歌的录音，它会将其转变为 Grimes 的声音和风格。歌曲赚取的任何版税将由 Grimes 和创作者五五分成。这意味着作为 Grimes 的粉丝，或者她的声音、音乐或发行的粉丝，你可以简单地想出一首歌的点子，该平台会使用 AI 将其转变为 Grimes 的声音。

如果这首歌走红，你和 Grimes 都将受益。这也使得 Grimes 能够被动地扩展她的才华和杠杆她的发行。

TRINITI 是 elf.tech 的核心技术，由 CreateSafe 公司开发。他们的论文揭示了我们所预见的区块链和生成式 AI 技术最有趣的交集之一。

通过创造者控制的智能合约扩展数字内容的定义，并通过基于区块链的点对点支付访问微交易重新构想分发，使任何流媒体平台能够立即认证和访问数字内容。然后生成 AI 根据创造者指定的条款执行即时微支付并将体验流式传输给消费者。

Balaji 更简单地总结了这一点。

数据需求对AI公司的影响及解决方案

随着新媒介的出现，我们急于弄清人类将如何与之互动，当与网络结合时，它们成为变革的强大引擎。书籍推动了新教革命，广播和电视是冷战的关键部分，而媒体通常是双刃剑，可以用来做好事，也可以用来做坏事。

今天，我们所拥有的是拥有大量用户数据的中心化公司。这就好比我们信任我们的公司会为我们的创造力、精神健康和更好的社会发展做正确的事，把这么大的权力交给少数几家公司，但我们几乎不了解其中许多公司的内部运作。

我们正处于 LLM 革命的早期阶段。就像 2016 年的以太坊一样，我们几乎不知道可以用它们构建什么样的应用程序。是能与我奶奶用印地语交流的 LLM？能在各种信息流中找到高质量数据的代理？一种机制让独立贡献者分享特定文化的细微差别（如俚语）？我们还不太知道什么是可能的。

然而，很明显的是，构建这些应用程序将受到一个关键成分的限制：数据。

像 Grass、Masa 和 Bagel 这样的协议是其获取的基础设施，并以公平的方式推动其获取。人类的想象力是建立在它之上的限制。这对我来说似乎令人兴奋。

原文链接

欢迎加入律动 BlockBeats 官方社群：

Telegram 订阅群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方账号：https://twitter.com/BlockBeatsAsia

{{userData.name}}已认证

数据需求对AI公司的影响及解决方案

展示数据

对话微调

从人类反馈中强化学习（RLHF）

专门化微调

上下文级别数据

以太坊创始人Vitalik Buterin谈Layer 2对于以太坊的文化影响

AO技术原理与生态潜力解读 | Metrics Ventures研报

欧易APP下载及注册教程 – Android和iOS版本下载及注册步骤

欧易提币操作指南：链上提现和内部转账步骤详解

区块链挖矿奖励与交易手续费：收入结构与未来发展

零知识证明在区块链中的应用及其重要性

比特币期货合约：投机交易、对冲和套利策略详解

欧易C2C买币区详细操作指南

归档

分类目录

{{userData.name}}已认证

展示数据

对话微调

从人类反馈中强化学习（RLHF）

专门化微调

上下文级别数据

以太坊创始人Vitalik Buterin谈Layer 2对于以太坊的文化影响

AO技术原理与生态潜力解读 | Metrics Ventures研报

NuLink 数据隐私保护与技术应用探析

加密无政府主义与去中心化信任体系的演变

加密货币与人工智能的交叉点：挑战与前景

2024 年，你应该选择怎样的加密钱包？最佳钱包推荐