Sapien AI:数据标注服务的重要性及优化流程

释放双眼,带上耳机,听听看~!
了解Sapien AI项目的核心使命及其与传统Web2公司的区别,了解数据标注在AI行业中的重要性,以及Sapien AI如何设计和优化数据标注工作流程以确保数据质量。

Sapien AI:数据标注服务的重要性及优化流程
Sapien AI:数据标注服务的重要性及优化流程
Sapien AI:数据标注服务的重要性及优化流程
左一:Ilya Sutskever;右一:Geoffrey Hinton

我本身对使用 AI 就很感兴趣,同时在滑铁卢大学也有一帮从事机器学习的聪明朋友。我逐渐对 AI 的技术栈、运作方式、训练数据的生产过程,以及人类如何参与这些训练数据的生产产生了兴趣。这是一个非常自然的学习过程。

起初我并没有创办公司的野心,但在深入 AI 和机器学习领域大约 6 个月后,在滑铁卢大学机器学习研究生项目一位导师的指导下,我们开始发现一些存在问题的有趣领域,并看到了解决这些问题的机会。最终,我们创立了 Sapien 这家公司。

BlockBeats:您可以为不了解 Sapien AI 的人介绍一下这个项目的核心使命是什么吗?在当前的 AI 行业中,数据标注服务的重要性体现在哪里?

Trevor:数据标注极其重要。这也是 ChatGPT 这类主流大语言模型成功的主要原因之一,因为它们是首批使用工业规模的人类数据标注员来丰富数据集的模型。

时至今日,数据标注的重要性还在不断增加,因为这些模型之间的性能竞争非常激烈,而提升模型性能的最佳方式就是在数据集中加入更多的专业人类数据标注。

我们将数据处理视为一个供应链:首先是原始数据,然后需要对其进行结构化和组织。完成结构化后,就可以训练这些数据。训练完成后,就可以在其上进行推理。简而言之,这是一个在人工智能背景下将数据逐步增值的过程。

就像其他行业一样,我们开始看到 AI 行业的细分,不同的垂直领域正在涌现,某些公司在流程的特定步骤上表现出色。对我来说,最有趣的是第二步,即数据的结构化和训练准备,这一直是我最感兴趣的部分。

去中心化的 Scale AI,瞄准长尾市场

BlockBeats:是什么让 Sapien AI 不同于传统的 Web2 公司,如 Scale AI?

Trevor:这是个好问题。我们很欣赏 Scale,他们是一家了不起的公司,联合创始人都非常出色。我们认识其中一位。他们是世界上最大的 AI 公司之一,无论是从收入、市值还是使用量来看都是如此。

我们的不同之处在于,我们从第一性原理出发,思考在 2024 年,一个现代化的数据标注技术栈应该是什么样子。我们并不一定追求 Scale 所覆盖的那些用例,我们的目标是中端和长尾市场

我们努力让任何人都能轻松获得数据集的人工反馈,无论你是中端市场的开源模型,还是企业级模型,或者只是周末进行研究的个人。如果你想提高模型性能,需要随需应变的人工反馈,那就来找我们。

你可以把我们看作是 Scale AI 的一个更分布式或去中心化的版本。这意味着我们的标注员更加广泛,他们不局限于某个特定位置,而是可以在任何地方远程工作。某种程度上,这种分散性可以让我们在数据标注质量上做得更好,因为多样性不仅仅是为了实现多元化,还可以提升数据训练的质量。

例如,如果你在一个设施中让一群背景相似的人标注数据,很可能会产生有偏见或文化倾向的数据输出。因此,我们从一开始就努力使其尽可能多样化和稳健。由于更加去中心化,我们在某种程度上也能获得更高质量的标注员。如果你必须去菲律宾某个特定地点工作,你能吸引到的人才是有限的,但通过远程优先的方式,我们可以从任何地方找到标注员。

我并不是说 Scale 没有做这些事情,但我们在思考如何服务于模型市场的其他部分。因为我们认为这个市场会不断增长,将会出现大量需要人工反馈的私有和许可模型。

BlockBeats:Sapien AI 的数据标注工作流程是如何设计和优化的?有哪些关键环节确保数据质量?

Trevor:我们的平台运作方式类似于一个双边市场。你可以把它想象成数据标注界的 Uber,一个去中心化的版本。一方面是需求方,就像 Uber 中的乘客,对我们来说就是需要在其模型中获取人类反馈的企业客户。比如,他们正在构建一个大语言模型,想要对模型进行微调,这时就需要人工参与。

他们来找我们,将原始数据集上传到网络。我们根据数据集的几个不同变量(如复杂度、数据模态、数据格式等)给出报价。对企业客户来说,这个过程是非常自助的。

另一方面是供应方,即标注人员,他们相当于我们的 Uber 司机。目前,这实际上是行业的瓶颈,我们需要尽可能多的标注员加入网络。因为需求基本上是无限的,就像 Uber 一样,总有人想搭车,这个需求永远不会结束。在 AI 领域,这些 AI 模型对消耗更多数据的需求也是持续不断的。

我们非常关注供给侧,致力于让任何人都能轻松地进行数据标注。我们发明了一些新技术,并且仍在不断改进这些技术,以确保在分布式模式下实现大规模的高质量标注。最初我们提出的问题是,在没有中心化管理的情况下,能否确保高质量的标注?这实际上是我们所谓的「数据标注三难问题」:我们能否让客户的成本更低,让标注员的收入更高,同时提高整体质量?

我们在这个领域进行了多次实验,取得了一些非常有趣的结果。我们尝试了均值回归、异常检测等不同的新机制,并混合使用了一些概率模型,这些模型可以在很大程度上推测标注员的工作质量。我们还在研发一些更新的技术。不过到目前为止,我们对未来五到十年数据标注的发展前景感到非常兴奋。我们认为,数据标注将会变得更加去中心化、更自助化和更自动化。

BlockBeats:能否更详细介绍一下你们的产品和技术,特别是那些能确保数据质量的部分?我知道你们有质押机制来防止标注员作恶,还有其他技术吗?

Trevor:是的,我们正在尝试许多不同的方法。我们有声誉系统,还有质押与惩罚机制。标注者在质押一定的资金后,如果未能达到标准,可能会被罚款。这些机制还处于早期实验阶段,但我们发现,仅仅这种激励机制就可以显著提高质量的遵守度,甚至可能提高多个标准差。不过,这一系列质量控制是由不同算法的加权平均来实现的,我们也在不断微调这些算法。同时,我们自己也在使用机器学习来优化这一过程。比如,我们使用 ML linter 工具和「红兔子」测试,即向标注者提供虚假数据,以测试他们是否诚实标注。

这是一个大问题:如何知道人们是否在对网络进行女巫攻击(即试图作弊并操纵系统)?我们必须时刻警惕这一点。这也是我们喜欢某些 Web3 激励机制的原因,因为这些机制最初就是为了解决类似的女巫攻击问题、拜占庭将军问题而发明的,目的是让遵守规则符合每个人的最佳利益。如果你自私,你就会遵循网络协议。

我们还处于早期阶段。对一些大客户,我们实施了更传统的质量控制方法,同时我们也在快速向这个新的前沿数据世界迈进。

BlockBeats:您觉得 Sapien AI 作为一个去中心化数据标注平台的最大优势是什么?

Trevor:正如我所说,我们的平台更加自助化,这使我们能够服务更广泛的客户群。对于标注员来说,我们的要求也非常宽泛。我们希望任何人都能成为标注员,因为我们相信 AI 的下一个时代或下一章将是从人类那里提取更多现有知识。不仅仅是基础层面的东西,比如「这是一个停车标志」、「这是一辆汽车」之类人类和机器都能轻易识别的内容,而是更多关于推理的内容。

Scale 公司的 Alex Wang 谈到过这个问题:互联网上的数据是推理的结果,但并没有真正描述推理的过程。那么,我们如何更深入地了解人们的思维?这需要更多的工作,需要更专业的标注。这有可能帮助我们加速通用人工智能(AGI)的发展。

所以,我们的更大使命是:我们能否在企业内部的私有数据集中,在专业人士的头脑中,解锁更多知识?这些专业人士在某些垂直领域(如医疗或法律)拥有模型尚未掌握的专业知识。

我们仍在努力使我们的平台尽可能具有流动性,尽量保持供需平衡。我们希望实现动态定价,就像 Uber 那样。这些机制使我们更像一个真正的双边市场,一边满足数据需求,一边帮助标注员加入。这些都是我们构建平台的一些独特方式。在质量保证方面,我们实时使用了我之前提到的那些技术。我们希望我们的标注员尽可能多地获得实时反馈,因为这能为所有人创造更好的体验。

Label to Earn,零工经济的未来

BlockBeats:我注意到 Sapien AI 与游戏公会 Yield Guild Games(YGG)达成了合作,所以 Sapien AI 的去中心化标注机制是否可以理解为一种「label to earn」游戏?

Sapien AI:数据标注服务的重要性及优化流程
Sapien AI:数据标注服务的重要性及优化流程
game.sapien.io游戏界面

数据本身也很有趣。你可能需要标注一些非常有趣的图片,比如为我们的时尚数据做标注等。我们计划支持各种不同类型的模态和数据集。我们计划随着时间的推移不断添加更多的功能。

未来蓝图:构建全球最大的人工数据标注网络

BlockBeats:除了 YGG,你们还计划在未来与哪些加密项目合作?

Trevor:我们有一些有趣的想法,比如为数据标注创建一个数据标准。目前,这一领域还比较混乱,每个客户的需求都不一样,我们必须与每个客户进行定制集成,因为他们的数据格式和数据模态各有不同。

因此,我们正在与去中心化数据领域的其他人合作,处于建立这一标准的早期阶段,并计划将其作为公共产品发布。我们在 Polymath 时也做过类似的事情,我们发布了 ERC-1400,它现在成为了以太坊上代币化的默认标准之一。

所以我们有一些关于创建标准的想法,并计划与过去帮助过我们的团队以及一些行业合作伙伴共同推动这一进程。这将使去中心化 AI 变得更加真实,也会让它更具互操作性,意味着数据可以更容易地在不同的步骤之间流动,因为没有一个人能够完成所有事情。

BlockBeats:Sapien AI 主网和移动应用的具体发布日期是什么时候?

Trevor:目前我们还没有具体的发布计划。我们现在专注于我们的核心 Web2 产品市场匹配。我们的增长非常好,现在已经有来自 71 个国家的标注员。今年我们在需求端的收入几乎每个月都在翻倍。

我们只想继续成长,不断了解我们的客户,持续为他们提供服务。随着时间的推移,我们会对各种不同的策略和技术保持开放态度。

BlockBeats:我看到 Base 联合创始人 Rowan Stone 已经加入 Sapien AI 担任首席业务开发官,Sapien AI 会建立在哪条区块链公链上?是否有发行原生代币的计划?

Sapien AI:数据标注服务的重要性及优化流程

Trevor:这些都是很有深度的问题,我很欣赏。Rowan 非常棒,他和 Jesse Pollak 一起创立了 Base,Jesse 绝对是个传奇人物。Rowan 有着丰富的经验,在构建工业级 Web3 产品方面无人能及。在我看来,他是首屈一指的。他参与领导了「Onchain Summer」活动,这是我记忆中最成功的活动之一。

他正在帮助我们制定某些领域的市场策略。但是,就像我刚才说的,我们目前非常专注于为现有客户提供服务,这是我们的主要焦点。在选择任何 Layer 1 或其他方面,我们还没有做出任何承诺或决定。但在未来,我们会继续考虑各种可能性。

BlockBeats:Sapien AI 在未来有什么计划或目标?您希望在接下来的几年中实现哪些里程碑?

Trevor:我们的使命是将全球人类数据标注员的数量增加 100 倍,并让任何人都能轻松接入这个网络。我们想建立世界上最大的人类数据标注员网络。我们认为这将是一个非常有价值的资产,所以我们想要建立并控制它,但最终会开放它。我们希望任何人都能接入并完全无需许可。

如果我们能够构建全球最大的人工数据标注网络,这将解锁大量潜在的 AI 能力,因为我们拥有的高质量数据越多,AI 就越强大,也越能为所有人所用。

我们希望它能为所有人服务,而不仅仅是那些负担得起数百万人类标注员网络的大型语言模型公司。现在,任何人都可以使用这个网络。你可以把它看作是一个「标注即服务」的平台。

去中心化的背后:创业者的任务是解决问题

BlockBeats:最后我想问问您对整个行业的观察和看法。您认为目前加密 AI 领域还存在哪些尚未被开掘的潜力?

Trevor:我对这个领域非常兴奋,这也是我们创立 Sapien AI 的原因。这里有好的一面,也有需要防范的一面。

好的一面是,去中心化的 AI 可能会更加自主化,更加民主化,更加易于访问,也更加强大。这意味着 AI 代理可以有自己的原生货币进行交易,这也意味着你可以拥有更多的隐私,并且可以通过 ZK 技术确切地知道模型中包含什么。

在防范方面,我们面临的是一个非常可怕的世界,在这个世界里,AI 变得越来越集中化,只有政府和少数几家大型科技公司才能接触到强大的模型。这是一个相当可怕的场景。因此,开源和去中心化的 AI 是一种防御手段。

对我们来说,我们更专注于数据方面,去中心化数据。这并不意味着你不能去中心化 AI 堆栈的其他部分,比如计算和算法本身。就像 Transformer 是算法方面的第一个创新,我们已经看到了更多的创新,但总是有改进的空间。

去中心化并不意味着你应该这么做,仅仅因为你可以去中心化某些东西并不意味着你就应该这么做。最终必须要有真正的价值。但就像金融和 Web3 空间的其他部分一样,AI 肯定可以从去中心化中受益。

BlockBeats:对于想要进入加密 AI 领域的创业者,您最想给出什么建议?

Trevor:我建议要尽可能多地学习,真正理解技术栈和架构。你不一定要成为机器学习博士,但了解它的工作原理并进行研究很重要。从这里开始,随着时间的推移,你会逐渐更有机地理解问题。这是关键。

如果你不了解它的工作原理,就无法理解问题所在。而如果你不知道问题在哪里,你就不应该成为创业者,因为创业者的工作就是解决问题。

所以这与其他任何初创公司没有什么不同,你应该理解这个领域。你不必是该领域的全球顶尖专家,但要足够了解它,以便能够理解问题,然后尝试解决这些问题。

资讯

美联储议息会议对加密资产投资的影响及未经验证的观点

2024-9-10 12:05:00

资讯

如何打入韩国市场?韩国加密货币交易所生态系统解析

2024-9-10 12:11:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索