EP 139 - How to efficiently convert raw data into high-value training data for Al - Tigran Pe trosyan, Co-Founder & CEO, SuperAnnotate

播客 > Ep. 139 - How to efficiently convert raw data into high-value training data for Al

Ep. 139

How to efficiently convert raw data into high-value training data for Al

Tigran Pe trosyan, Co-Founder & CEO, SuperAnnotate

Friday, July 29, 2022

数据标注是机器学习的隐形冠军。这是标记图像、视频、文本和其他数据的过程，以便为训练模型做好准备。数据注释的质量决定了洞察力和噪音之间的差异。

在本周的节目中，我们采访了SuperAnnotate的联合创始人兼首席执行官Tigran Petrosyan 。我们将讨论如何管理和扩展您的注释工作流程、快速发现数据中的质量问题以及将新数据集无缝集成到现有管道中。我们还探讨了专门机构和 AI 如何合作以准确标记 AI 培训所需的大量数据。

关键问题：

如何管理注释过程的关键步骤——注释、管理、自动化、策划和集成？
如何在不影响质量的情况下更快地交付 ML 项目？
您应该如何平衡内部团队、自由职业者和自动标记的努力，以实现正确的成本结构和绩效？

音频文字.

Erik：Tigran，感谢您今天加入我们。

Tigran：很高兴来到这里。

Erik：你建立的伟大公司。这让我与之合作的许多公司都心痒难耐，所以它确实是一个及时的产品。但在我们开始讨论之前，我很想知道你是如何成为公司首席执行官的。我的意思是，你有一个有趣的背景。看起来你学习物理，你正在攻读博士学位，并且看起来与生物医学成像有关。然后我猜在那个过程中，不知何故，你意识到这是一个问题。你跳出你的博士，你立即跳进了这家公司。所以，在这里与我们分享一下背景故事，你是如何找到进入博士课程四年的路，然后说可能有更好的方式来消磨你的时间？

蒂格兰：是的，当然。我最初来自亚美尼亚。我搬到瑞士攻读物理学硕士学位，然后攻读物理学生物医学成像方面的博士学位。我开始看到计算机视觉方面的很多问题，尤其是生物医学成像方面。我什至被邀请参加一些 TEDx 活动，其中谈到了——有趣的是，我在谈论算法将使放射科医生的工作变得更容易、更快，以及更好的诊断。但我完全不知道我会在以后做一些直接有助于它的事情。但主要想法来自我兄弟的博士论文。我哥哥正在斯德哥尔摩攻读博士学位。他将他的算法和图像分割应用于注释符号，并意识到他的技术使其比空间中的任何其他技术都更快、更准确。在一次会议上，他甚至看到很多人对在我们这个领域的一些最大公司购买技术感兴趣。所以，这引发了我们思考如果我们自己可以做到这一点呢？我们强迫自己参加了一次创业活动，只是伪造了一个应用程序，就好像我们是一家公司一样。我是 CEO，他是 CTO，围绕它构建了一个故事，然后参加了活动。那是在亚美尼亚，在我们的祖国。这是一个非常区域性的大型创业活动。我们赢得了那场比赛。它促使我们真正创办了一家公司，获得了一些资金。我雇佣了一些当地人，然后最终获得了更多资金，并扩展到美国、欧洲和世界其他地方。所以，这是一个快速的背景故事，我们是如何开始的。

埃里克：这是一个很棒的故事。与您的兄弟一起经营业务并通过赢得与假公司的竞争来开始业务是一种奢侈。它让你有信心相信你有一个有趣的想法。我很好奇。为什么要从欧洲转向美国？

Tigran：我认为这个国家——我们在东欧，在亚美尼亚。这是一个构建产品的好地方，但我认为离客户更近总是好的。我们的大多数客户在美国，也在欧洲，但主要在美国。另外，当你建立业务发展基础设施时，我认为美国是最好的地方。这是我的个人意见。所以，这促使我们在这里构建它。我认为另一个原因是我们在开始时很快就使用了加速器。它是名为 SkyDeck 的伯克利加速器。我认为这对我们未来的增长来说是一个很大的触发器。我们对硅谷周围的地区感到兴奋，看到围绕技术的所有炒作以及周围有这么多才华横溢、聪明的人。那里有很多。这很疯狂。

Erik：是的，山谷是一个很好的起点。我看到你已经搬到迈阿密了。在硅谷建立关系后，这可能是一个迁移的好地方。我敢打赌你现在经常旅行。

蒂格兰：是的，这是真的。

Erik：你提到你的客户在美国。您是否主要与构建算法的科技公司合作，或者您是否与可能被称为最终客户的工业公司合作，这些公司正在为自己构建这些解决方案？您的客户群是什么样的？

Tigran：我认为这是两者的结合。所以，如果你把它分成两部分，比方说，有一些大型企业对如何构建 ML 应用程序以优化和处理有一些想法——他们想要的任何类型的流程，无论是自动化一些文档文本识别还是将一些相机，他们可以识别仓库中的某些东西，无论如何。他们尝试思考想法，并建立了一些团队——内部团队、数据科学团队。他们需要数据管理基础设施，培训数据管理基础设施。他们来找我们。还有很多其他公司是独立的，比如价值从几百万到几亿到几十亿不等的初创公司，他们只专注于特定应用，无论是识别眼动追踪，还是一些仓库自动化，或者像自动结账这样的零售自动化系统或机器人。它专注于特定的应用程序，但它们只是一家初创公司。他们不像一个大企业集团，但他们仍然有一个数据科学团队。他们有自己的问题要解决，然后他们可以将这些解决方案卖给其他企业。所以，我们在双方都努力。因此，构建这些产品的数据科学团队是独立的还是大企业的一部分并不重要。

埃里克：好的。知道了。因此，您正在构建一个注释技术和服务平台。让我们为人们介绍一下这实际上意味着什么。我的意思是，这是一个非常横向的需求，对吧？基本上，任何处理大型数据集的人都需要弄清楚如何注释他们的数据。那么，你能带我们过去吗？过程是什么？需要完成哪些步骤？我认为我们的观众是比较精明的。很多人可能对此有些熟悉，但我认为大多数人不会在这里拥有任何深厚的专业知识。

蒂格兰：是的，当然。为了提供更广泛的视角，假设我们想要构建任何机器学习应用程序。假设您的相机想要识别视野周围的任何物体或任何文本识别、光学字符识别、语音识别。因此，为了构建通用流程，您需要收集原始数据。比方说，一些普通的音频文件、任何类型的音频、图像或视频。所以，这是一个原始数据收集。第二部分是构建训练数据或注释。这就是所谓的训练数据，因为您在这些数据上进行训练以构建模型。因此，您必须构建注释。比方说，对于自动驾驶，对于汽车，你在汽车、树木、车道或其他任何地方放置盒子。然后你想让你的相机识别周围的物体。这可能是最引人注目的应用程序。然后，一旦你构建了这些数据，就会有一种叫做机器学习模型的东西。你运行那个模型。这是一个模型构建方面。然后这些就像大型矩阵一样，其中包含有关您的对象检测的一些信息。假设您标记了 10,000 张汽车图像。那么你有 80% 的检测汽车的准确率。然后，一旦你有了那个模型，你就必须了解模型的表现——不同的情况，准确度是多少——并决定给什么贴更多标签。因为您以正确的方式标记的越多，您的对象检测就越好。因此，迭代地，一旦您使用模型构建注释，了解接下来要标记什么，再次标记，构建模型。因此，通常情况下，它会以一种最终部署在您的设备中的方式进入无限循环。我的意思是，您也可以将其部署到测试的方式上。但一般来说，如果你真的想要有非常高的准确率和检测，你需要以一种非常聪明的方式不断地标记数据，以确保在与你相关的所有边缘情况下，你都拥有最佳的对象检测精度。商业。这就是我们进来的地方，在注释训练数据基础设施方面。因此，我们不是在构建模型或进行部署，而只是确保所有这些公司都有正确的基础设施来构建和管理这些训练数据，了解模型的工作原理，接下来要标记什么，如何对这些训练数据集进行版本控制或注释，最终，基本上，得到一些分析，不仅仅是注释附带的任何东西。此外，这个区域有很大一部分。真正找到可以标记这些数据的合适人选。因为标签可以通过许多不同的方式完成。它可以手动完成。比方说，有人只是在汽车上放了一个正方形。是人工标注。它可以是自动的。你也可以有一些预建的模型，比如，好吧，这是一辆汽车还是一辆三辆？注释者必须批准、不批准，或者可以自动，例如，如果准确率超过 90%，则接受并批准。它也可以通过预测事项来完成。你建立一个模型，你做预测，你确认注释，然后最终做一些迭代改进，最终设置你的模型，并将你的模型设置到设备中。所以，无论你怎么做，你仍然需要管理这些数据，了解注释是如何工作的，模型是如何执行的，你如何对这些数据进行版本控制，以确保模型不断改进。这就是我们基本上将所有循环关闭到端到端培训数据基础设施的地方，其劳动力可以通过市场或劳动力进行标记。

埃里克：好的。得到你。所以，数据是这个过程的原材料。基本上，你在市场上拥有一种技术，可以使这些数据可用，将其转化为可以采取行动的东西。你给出的例子，它们主要是视觉的。我想，这可能是这里的大多数用例。但是您是否还涵盖其他类型的数据？您是否涵盖机器数据？您是否涵盖音频数据？视觉之外是否有任何需要大量注释的可扩展用例？

Tigran：是的，我们从视觉数据开始。因此，我们添加了更多视频类型的数据、图像和视频。我们添加了增长很快的文本数据。我们将扩展的另一个领域是——还有其他类型的数据，例如 AIJO、LiDAR 上的 3D 点云数据。那么，在构建训练数据基础架构时，我们是否要确保涵盖所有类型的数据？

Erik：所以，那是操场。这里有什么挑战？公司在尝试理解数据时面临哪些问题？

Tigran：如果你能想象，比如说，为了建立真正高质量的模型，你需要大量的数据。假设您可以开始使用 1,000 个图像标签。这很简单。你有一些开源工具。你只要一一贴上，人工标注。你会得到一些模型性能，比方说，准确率为 85%。但是，如果您真的想认真对待您的机器学习管道或您的对象检测精度，这还远远不够。当您真正开始扩展到数万、数十万数据，并且大多数情况下，需要标记数百万数据时，问题就出现了。最大的问题是，首先，我需要标记什么以及如何标记。因为有很多方法可以标记数据。你可以放一个盒子。您可以在它周围放置一个边缘多边形或在它周围放置一个分段。如果是其他应用，例如原因检测和运动检测，则必须放置一些关键点。您必须在每个阶段或人工岗位上放置多少关键点？你怎么能那样做？第二大挑战是我实际需要标记的数据。比方说，照明。例如，如果是自动驾驶，我需要标记不同城市、不同位置和不同的不同照明条件——有很多情况，你需要考虑标记什么。第三个挑战是我如何确保标记数据的质量很高。这可能是我们行业中最大的挑战。因为，假设您可以检查 1,000 张图像。你贴了很好的标签。比方说，就质量而言，比方说，你在汽车周围放了一个盒子。如果人们放的话，也许边缘不够紧。因为周围有很多噪音。也许有人错误地放了一棵树而不是一棵树。因为如果你大规模地这样做，你很有可能会犯错误。尤其是，人们迫切需要经常重复这样做。所以，那里出错的可能性很大。另一个重要的部分有时是指导。假设您需要在数千张或数万张图像中标记 20 种不同的事物。您需要用说明标记的方式以及如何标记，这可能会变得非常复杂。这就是许多质量挑战的来源——拥有正确的基础设施，与数据科学家、注释团队、他们的经理、预先标记的自动预测算法进行协作的迭代过程，确保没有不良数据进入管道.这种基础设施变得非常非常困难。最后但并非最不重要的一点是，找到对您正在从事的工作类型非常熟练的合适团队。例如，做注释可能很简单，但如果你有一大张说明，那就很复杂了。由于他们的经验，不同的团队擅长不同类型的数据标记。那么，我如何找到合适的团队来标记我需要的数据以确保高质量？这也是我们的服务团队市场进入的地方，我们在这里找到合适的团队并将其连接到合适的客户。我们管理这些团队以确保高质量。所以，这是一个很长的答案。希望这包含了我们的太空行业即将面临的许多挑战，尽管乍一看可能看起来很简单。

埃里克：这很有趣。这是在人类规模或当你开始玩东西时看起来很简单的事情之一。那么复杂性在于体积，正如你所说，对吧？如果你想重复做一件事以达到非常高的准确性，那么突然做一百万次会变得非常复杂。让我们来看看你是如何解决这个问题的。所以，我不知道这是否是正确的思考方式。在您的网站上，您将技术分解为注释、管理、自动化、策划和集成。这是思考需要在这里完成的工作的好方法，还是有不同的方式来思考需要完成的工作？

Tigran：是的，这是一个很好的看待它的方式。所以，注释只是第一个简单的方面。你有一个地方，人们可以用他们的账户和他们的角色签到。他们获得了分配的数据集，并根据他们学到的一些指令开始标记。基本的东西。管理是你拥有的部分，比方说，数十或数百不同角色的人一起做这个标签。你需要管理这些团队，了解他们的工作，他们的表现，了解，发现一些质量问题，当他们发现错误时他们如何相互沟通，你如何将某些问题传播给整个团队，以及你如何实际管理这些团队.所以，这就是整个团队和数据管理基础设施的用武之地，如果你想大规模地做这件事，这一点非常重要。然后自动化是你真的不想在那里标记每一个数据的地方。例如，一旦您开始尽早构建某些数据集，您就可以测试模型的执行情况，然后设置某些预测。因此，出现了自动贴标，有时是半自动贴标或自动贴标，您希望进一步加快该过程，为自己节省时间，当然也为客户节省成本。所以，我们要做的是——有两种不同的方式。首先，这在我们的行业中更为普遍，客户通常是为自己构建最佳模型的人。这是他们不断做的事情。因此，我们通过我们的系统设置了一条管道，让他们创建自己的模型结果或预测。它自动进入我们的平台。因此，这只是他们的模型创建的注释。然后我们的人员或我们的系统可以发现错误或将其带给合适的人进行标记。根据客户的模型，我们进行预测，然后进行标注和修正。然后第二个是，我们在内部使用我们自己的模型来做一些自动标记，基本上是创建预测。我们的人就是这样做的。有时客户不想为此烦恼，然后我们自己做。第三种，基本上是一种迭代训练和预测的方式，挺好玩的。所以，你做，比方说，一批 100 张图像。您运行模型，然后进行预测。然后你会看到它是如何工作的。然后你做接下来的 1000 张图像，然后再次运行预测。然后不断地，你做的越多，你希望你的模型变得更好，你变得越来越快。

埃里克：明白了。那么，在自动化方面，我们今天在哪里？我的意思是，在我看来，现在的情况可能是，对于高灵敏度解决方案，您需要一个人来处理大量数据。五年，我不知道，十年后，也许自动化适用于绝大多数场景，你只需要一个人来做最初的事情。在自动化这个过程的能力方面，我们在哪里？

Tigran：对于当前的用例，如果你看一下它，如果你只关注一个特定的用例，如果你想到它，肯定会变得越来越自动化。人为干预会越来越少。问题是——所以你不断地想要改进你的模型。有时，即使是 1% 的改进也可能需要与之前相同数量的数据，比如说 97%。所以，这就是问题所在。它不是线性的。这是提高模型性能需要多少数据的一种非常对数的方式。在这些边缘情况下，人为干预尤其重要。当然，有很多方法可以实现自动化。但在接下来的至少五年内，这个行业似乎并没有放缓。这是除了用例变得越来越多的事实之外。所以，你可以想象每家公司都在它们之上构建一些 ML、AI 应用程序，以及一些围绕它的基础设施。对于每个应用程序，您都需要适当的培训、数据管理基础设施。比方说，公司的通用基础设施需要 AWS。然后对于 AI 应用程序，您需要训练数据基础设施。所以，你带来的应用越多，你带来的数据类型就越多，你需要标注的也越来越多。只是它的规模变得非常高。那里的数据比可以标记的要多得多。因此，人为干预似乎并没有放缓。当然，自动标签有很大帮助。循环中的那个人似乎仍然是该过程中非常重要的一部分。我将来也能看到，无论是合成数据还是自动标签数据，或者——合成数据当然是该领域另一个重要的问题解决者。但无论输入什么数据，您仍然需要整个基础架构。您需要对数据进行管理、版本控制、了解哪些有效，哪些无效。我认为这就是平台方面的空间，拥有训练数据基础设施。那么人类的贡献可能会在 10 年内减少。到目前为止，我认为，这只是人工智能和机器学习应用程序巨大发展的开始阶段。

埃里克：明白了。好的。然后你已经从管理中脱颖而出了。那里有什么区别？当你整理数据集时你会做什么？

Tigran：所以，如果你是一名数据科学家，你所做的基本上就是审查这些数据并了解哪些对你的模型有效，哪些对你的模型无效。因此，假设您在街道上标记了 100 万张用于自动驾驶的图像。所以，当你说，好吧，给我看，比方说，过滤所有具有某些特定特征的数据时，curate 就来了。好的，告诉我所有的，我不知道，街道左侧车道上的黄色汽车。然后查看模型在该特定数据集子集中的表现，查看模型中的一些参数，看看它是如何表现的。你基本上管理数据并了解它是如何工作的。首先，出于质量目的，只是为了确保数据被正确标记。其次，一旦你有了基于数据的模型，你就可以一起比较模型。您可以了解某些模型特征。它正在管理或审查数据的健康状况。这是数据科学家花费大量时间的重要部分。这是数据的整体视图，您只需查看特定数据子集、查看一些分析、比较模型性能，帮助您了解数据的健康状况、模型的健康状况以及接下来要标记的内容。这也是我们系统中的内容。

Erik：那么你在这里的最后一个元素是集成。那么，这是否与客户的算法相结合？你在这里做什么？

Tigran：所以，另一个重大挑战是——因为作为客户，你真正需要的是，比方说，你有注释训练数据基础设施，并且你有自己的机器学习管道。这两个可以坐在不同的地方。之前发生的事情是，客户将数据发送到某个地方。然后，一旦它被标记，他们就会下载数据。然后他们将系统放入某个地方，然后运行一些模型。然后他们创建更多数据。他们发回并关闭所有手册。我们的系统现在可能发生的事情是，所有数据——流入、流出、关于何时发送数据的一些触发器、需要标记的内容、需要标记的人——所有这些都可以自动化。这就是所谓的 Python SDK 函数，只需简单的一行代码，您就可以将所有训练数据基础设施和机器学习管道自动化在一起，以创建无缝流程，以确保您不必做大量的手动工作.因此，这成为其中非常非常重要的一部分。一个有趣的案例是，好吧。让我比较一下，比方说，三个不同的注释器在同一个图像上工作。我只想使用三个都做了完全相同注释的那个，因为我想减少数据中的错误或任何偏差。这也可以自动化。你只使用通过这个共识的那些。这只是一种情况，但是对于如何在训练数据端和 ML 端设置管道，您可以想到一千种方法。这需要通过我们构建的一些功能来正确设置。这就是集成的用武之地。集成的另一部分通常是，数据集是私有云还是 AWS、谷歌云、Azure 或任何其他系统。我如何确保这个基础设施与我们的基础设施完美连接？因此，您会看到整个文件夹结构和正确设置的整个流程。它是安全设置的，因为您不希望 — 特别是在客户方面，您不希望您的数据暴露给其他一些系统。这就是我们所做的。此外，我们确保数据非常安全地连接到我们的系统，被标记，并且永远不会存储在我们的系统中。

埃里克：明白了。好的。听起来，从您在这里的描述来看，我们将在注释和管理方面拥有几个不同的用户组。也许我们正在与标记数据的大型团队合作。然后自动化和管理，听起来更像是数据科学家的工具，然后可能为产品所有者或管理它的团队集成。谁将是这方面的不同关键用户，他们如何互动？

Tigran：非常非常好的观点。你在第一层是对的。需要构建训练数据的是人、团队——所以注释者、质量保证专家、他们的经理。然后，一旦你有了数据，当然，数据科学家和他们的领导者实际上正在查看数据并设置他们的性能并了解什么有效，什么无效。然后我们遇到了这样的案例，即使是 C 级人员、产品负责人、C 级人员实际上也会与平台进行交互，只是为了看看发生了什么，有更好的分析。有趣的是，您还可以查看每个链接的团队如何工作并比较他们的表现并了解哪些团队在工作，以及如何为您的工作带来最好的东西，检查质量。所以，我们已经全面看到了它。但主要用户是数据科学家、机器学习工程师和注释团队共同构建这个基础设施。

Erik：那么你就有了你之前提到的这个市场。这真有趣。只需在您的网站上查看，您在不同国家/地区都有团队。他们有相当大的团队，所以从几百人到几千人不等。然后他们开始关注不同的主题，如 NLP、图像识别、视频等。那么，我猜这些基本上是在成本较低的国家设立的机构吗？基本上，我不知道是全职或合同雇员的代理机构，然后接受培训以进行注释。看起来就是这样的结构。该行业如何运作？就他们而言，这是一个拥有全职员工的公司组织，还是一个松散的人员网络，主要是受过培训的自由职业者，可能与不同的机构合作？今天的市场是什么样的？

Tigran：更多的是在后面。所以，他们基本上是公司，非常成熟的公司，训练有素。您可以在这个市场上看到两种方式。有一些众包类型的公司，他们只是——人们可以在世界任何地方注册。通常，这些公司甚至不认识他们。所以，他们只是得到一个任务，然后把标签拿回来。然后对于每项任务，他们都会得到一份工作。这不是我们所做的，因为这可能适用于非常简单的任务。但是一旦指令变得有点复杂，就很难从众包平台中获取高质量的数据。所以，这就是我们在某种程度上所做的，我们审查了全球 300 多个团队，专业管理的团队。当然，这些团队中的大多数恰好位于东南亚。但我们在欧洲、东欧、美国、南美、非洲、任何地方都找到了团队。我们在我们的系统中训练他们。当然，另一个关键部分是以您了解他们的工作条件的方式审查这些公司，他们是否违反任何当地法律。例如，在某些客户中，他们需要为这些团队提供庞大的安全基础设施。例如，为了确保他们的数据不会泄漏到任何地方，他们需要在设施中使用某些特定的摄像头，以及某些认证标准。因此，我们已经审查了所有这些团队的所有内容，以确保我们为合适的客户找到合适的团队。当然，另一个重要因素是确保您知道他们在哪里接受培训以及他们的技能是什么。某些团队擅长一件事，而其他团队则不然。那么，我们如何确保将合适的技术人员带给合适的客户呢？我们在这个领域做的另一件事是，作为客户，您不想处理两个不同的实体。比方说，一个是给你一个平台。好的。现在让我审查并找到另一个你要处理的团队来做注释。因此，在这个市场上，我们找到了合适的团队，我们的服务运营团队实际上管理团队，以确保我们按时或按时工作。我们保证质量，基本上，它附带的一切。

埃里克：好的。凉爽的。所以，技术和服务。基本上，一个联系人，客户经理。你为什么不给我们举个例子？这看起来像什么——你与一家公司进行了初步对话，以了解他们的需求是什么。你问什么样的问题？您如何确定范围，确保您正确理解这种需求，然后逐步将它们与技术和注释合作伙伴相匹配？如果您可以与我们分享一些结果，那么您只会想到一两个例子。

Tigran：当公司准备好扩大规模时，我们通常会介入。例如，他们已经完成了一些早期工作，比如说大约 100,000 张图像。他们已经建立了一些初始模型。他们明白有一些独特的东西。他们正在建设，并且有需要。他们在需要时进行扩展，比方说，从数万到数百万数据。理想情况下，这就是我们进来的地方。因此，我们在早期对话中尽早进行审查，以了解团队的 AI 成熟程度。因为如果团队非常早，那么理想情况下，他们需要在扩展之前进行一些测试并尽早建立自己。当他们真正准备好与数据基础设施一起扩展并且对机器学习有一些了解时，我们宁愿加入。有些公司试图说，好吧，我们将一起构建你所有的数据、模型和一切。它更像是一项咨询服务工作。我们不这样做。当他们已经准备好扩展他们的训练数据基础设施并且不断地知道他们需要改进他们的模型时，我们就会进来。这就是我们进来的地方。通常，它可以从平台产品开始。比方说，他们得到了一个平台。他们可以在内部进行标记，或者我们可以带上我们的团队。最终，他们对策展的运作方式有了更好的了解。有趣的是，很多公司甚至都不知道。这是一个如此新的地方。他们甚至不知道实际上有一个系统可以让您无需考虑策展方面的所有这些基础设施。您不必构建它。它已经在那里了。有时，当他们看到他们可以用这个系统做什么时，我们会看到如此迷人的面孔，因为他们以前没有想到这一点。例如，在 CRM 工具中，您知道会发生什么以及他们需要做什么，因为这是一个如此古老的成熟市场。但是我们的空间在平台、机器学习数据平台基础设施方面是如此的新，以至于人们甚至不知道会发生什么。因此，需要在早期阶段进行相当多的教育，并在开始时明确入职，以确保他们理解正确。

埃里克：这很有趣。我的意思是，会发生这种情况。它经常出现在我在这里的播客上进行的对话中，公司所在的地方——我正在与许多成立不到五年并建立相对复杂技术的公司交谈。因此，在这种情况下，您基本上是在向客户解释您如何做的事情比他们好 5 倍，而他们不需要自己构建基础设施，这是一个正在发生的对话。什么是——我的意思是，不仅仅是为了宣传你的成果。但是，如果有人从构建的家庭解决方案转向更多具有可扩展劳动力的标准化平台等等，他们可能会期待什么结果？您试图为您的客户实现的经济目标是什么？

Tigran：因此，第一件事是，我们确保数据的质量，无论他们拥有什么，与我们的输出相比，由于其系统的构建方式和我们审查的方式，我们的输出比任何其他公司都要好得多服务团队，以及我们在数据进入管道之前添加自己的质量保证专家的方式。所以，这是我们确保的第一件事。第二件非常重要的事情是，在数据进入管道之前，客户可以获得充分的灵活性和透明度。因此，他们拥有策展的所有视图，他们的管理员访问权限。通过这种方式，通常，您从数据到模型的速度至少快两倍。因为您是系统的一部分，可以提供反馈。注释器可以在开始时手动工作，具体取决于用例。而且，如果我们将某些任务自动化，数据也可以比在其他平台上使用的速度快 2 倍、3 倍，有时甚至 5 倍。因此，他们可以根据用例节省大量时间和金钱。很难说哪个用例有多少，因为每个用例都非常独特，以至于我们在与我们合作的第一个月内就看到了 5 倍的改进。这一切都与您如何快速从数据到模型部署有关。我们真正向客户展示的是，您可以在最初的几个月内将速度提高 2、3、5 倍。

Erik：所以，你试图在这里移动的重要杠杆是质量、数据质量和管道时间。我们不需要深入了解成本细节，但如果你能分享一下如何——成本结构是什么样的？因为我猜你正在处理的项目规模大不相同。是在音量附近吗？我猜你有不同的技术产品。那里可能有不同的模块。但是发出 RFQ 会是什么样子？您将如何构建报价？

Tigran：这取决于它是否只是一个平台产品，或者它也有来自市场的人来标记数据。如果它是一个平台，它基本上是他们需要多少用户和他们需要多少数据的组合。它更关注用户数量而不是数据量。因为我们有一个集成，在某种程度上，我们不存储他们的数据，所以我们不会为此产生任何额外的成本。无论规模如何，这对许多公司来说都非常有吸引力。它只需要这么多用户，他们可以真正工作，做很多复杂的事情。因此，当谈到这个平台时，我们称之为平台方法，我们使用端到端软件和集成的服务市场。根据他们早期承诺的金额，他们可以免费获得平台，或者可以将一些软件费用和平台费用组合在一个包中，并以一些年度承诺为基础。但我们有时也会做的是，我们会进行一些试验或试验阶段，其中的标签——比如说，数据的某些部分得到集成，只是为了确保客户在进行大规模承诺之前了解价值。所以，我们基本上都做这两个。在这种情况下，更多的是关于标记了多少数据以及每个成本是多少。我们总是做一些基准测试来了解它需要多少时间。然后我们总是为每个注释定价，或者有时只是注释者的一个小时工作。

埃里克：明白了。我看到了一个针对早期创业公司的免费计划。因此，对于一家试图验证一些有价值的数据集的年轻公司来说，这是一个很好的支持。我知道对于一个小团队来说，这可能是一项繁重的工作。凉爽的。所以，我认为，我们在这里涵盖了很多。至少，我学到了很多 Tigra。那谢谢啦。任何我们尚未触及的对人们来说很重要的事情？

Tigran：在这一点上，我什么都没有想到。我想我们真的接触了很多。也许我可以提一下，如果有人只是有兴趣探索他们可以使用我们的系统和与我们合作的机会，最简单的方法就是访问我们的网站，单击按钮请求演示或开始。我们的团队将与您联系，了解您的需求，并真正确保您可以进行正确的设置。您不必立即开始——这是一种低接触的方法，因此您无需立即支付数十万即可开始使用。也可以是——我们总是在签订合同或试图从人们那里赚钱之前先提供价值。所以，我不会害怕。只要到那里然后请求演示，我们会处理它。

埃里克：太棒了。所以，这就是 superannotate.com。我也会把它放在节目说明中。蒂格兰，感谢您今天抽出时间与我们交谈。

Tigran：和你聊得很开心，Eric。乐趣。

还未创建账户?

音频文字.

联系我们