跳过导航
普拉卡什Narayanan 普拉卡什·纳拉亚南著
2021年10月22日

数据是新的石油——信息时代最有价值的资源。企业中不断增长的数据量正迅速成为一场洪水。国际数据公司(IDC)预测,到2025年,全球数据将超过175 zettabytes。虽然数据是一种宝贵的资产,但它需要像石油一样,用专门的工具提炼或提取,才能有真正的价值。如果我们分析企业内源头,我们发现只有20%的人居住在结构化格式,如excel文件,文本文件,像Oracle这样的数据库,SQL server等,剩下的80%在难以提取结构化格式(如电子邮件、PDF文件、Web页面、word文档,扫描图像、JPEG、GIF文件,等等。这种非结构化数据非常重要,因为公司往往会忽视它,从而大大低估了他们的数据。

能够提取和利用结构化和非结构化数据的公司可以驱动业务流程自动化,以获得更高的生产率和收入。随着机器人流程自动化(RPA)的出现,所有依赖结构化数据的手工、单调、重复的流程都可以在一定程度上实现自动化。当RPA机器人必须处理企业中80%的半结构化和非结构化数据时,它们的扩展就变得很困难。与RPA机器人相比,涉及半结构化和非结构化数据的自动化流程需要更高级的功能。这个功能需要处理非结构化数据并将其转换为结构化格式,以便工作流中的简单RPA机器人能够处理这些数据。这就是智能或认知自动化技术提供的解决方案。

Gartner定义了一个新术语——智能文档捕获(IDP)——用于分类工具,这些工具使用的技术包括计算机视觉、光学字符识别(OCR)、智能字符识别(ICR)、自然语言处理(NLP)、以及机器学习(ML),以克服处理半结构化和非结构化数据的自动化过程中的挑战。领先的RPA供应商,如Automation Anywhere (AA)和Uipath,已经为他们现有的RPA平台添加了IDP功能,从而实现了RPA机器人和IDP支持的机器人之间的互操作性(在Automation Anywhere中称为“IQ Bot”,在Uipath中称为“文档理解”)。


RPA和数据捕获

文档提取是最适合RPA的许多过程的主要部分。通过正确的文档提取过程,我们可以从RPA的投资中获得最大的ROI。对于这类用例,Automation Anywhere有一个复杂的IDP解决方案——IQ Bot,它使文档提取过程尽可能的无缝。虽然听起来很简单,但文档提取并不容易。文档有不同的格式、语言、结构和清晰度。扫描的文档可能更难处理,特别是如果它们包含手写的内容。AA专门设计的IQ Bot让从这种非结构化文档中提取数据的整个过程变得更容易。如果没有像AA的IQ Bot、Uipath的Document Understanding、Hyper Science Platform这样的IDP解决方案,RPA项目将需要知识工作者来读取文档和提取数据。IDP是解锁RPA值的关键;没有它,端到端自动化将只是一个愿望。

IQ Bot将RPA与计算机视觉、自然语言处理(NLP)、模糊逻辑、ML等人工智能技术相结合,自动对商业文档和电子邮件中的信息进行分类、提取和验证。


IQ机器人是如何工作的?

让我们看看IQ Bot在遇到从非结构化格式(如护照、Aadhar卡、税务表格、条形码、清单、工程图纸、照片图像、发票、采购订单、法律文件等)中提取数据时是如何工作的。

预处理:IQ Bot使用降噪、二值化和去偏态等技术,这些技术对于提高文档的质量至关重要。在文档是扫描副本或低质量文档的情况下,这些技术有助于降低噪声并提高文档提取的准确性。

智能文档分类:为了提取相关数据,需要对大型文档进行分类。为了做到这一点,IQ Bot使用了NLP、有监督和无监督的ML、OCR和谷歌视觉。

数据提取:IDP的关键部分是撤离。上述步骤提高了数据提取的准确性。IQ Bot使用ML从文档中提取特定数据。在相关的上下文中训练机器人,使其能够提取所需的信息。精确的提取提高了端到端自动化任务的百分比,大大减少了人工干预的需要。

后期处理:一旦我们从文档中提取数据,就会使用人工智能驱动的技术来根据特定的规则和条件验证提取的数据。这进一步提高了提取结果。

IQ机器人的特点

  1. 指示板,用于显示跨流程的进度。
  2. 允许识别和分类不同的文档类型和格式。
  3. 支持基于api的集成—api允许您将文档上传到IQ Bot并下载处理过的文档。
  4. 能够在每次验证中学习并促进持续改进。
  5. 用户可以在OCR引擎之间进行切换——支持google Tesseract4、ABBYY FineReader、Microsoft OCR引擎——同时利用本地文档分类、自动校正和提取功能。
  6. 扩展的国际语言支持:190种语言,包括但不限于日语、韩语、中文(简体)和中文(繁体)等亚洲语言。
  7. 数据库加密:可以对存储在数据库表和列中的IQ Bot文档数据进行加密,以保护潜在的敏感信息。
  8. 允许机器人共享域配置,以节省设计过程中的时间。
  9. 使用计算机视觉和ML来检测模式,并将文档分类到组中,以减少训练冗余。
  10. 提供指示机器人的准确性和可靠性。
  11. 当开发者需要修改AI工作流时,可以使用Python脚本添加自定义逻辑。

IQ机器人的好处

  1. 企业用户的设置速度快10倍:企业用户可以轻松设置IQ机器人,而不需要技术知识。它提供了一个带有自动分组/映射特性的直观界面,以支持更多自动化用例。
  2. 80%以上的直接处理(STP)率:与仅提供50% STP率的普通OCR/ICR解决方案相比,这将最大限度地减少知识工作者对文档的手工处理。更高的STP速率意味着更高的自动化工具维护成本。
  3. 直接节省成本:通过大幅削减处理大量数据的成本来降低费用。
  4. 人工智能技术确保了高精确度,即使是低分辨率的文档:最小分辨率为300 dpi;然而,经过反复训练和不断改进,机器人能够以更高的精度处理低分辨率。
  5. 从人在循环的反馈中学习。
  6. 提供端到端自动化,因为它与RPA集成,无需更改工作流。

国内流离失所者的力量

有了正确的工具和技术,企业可以利用数据的力量来推动转换。cyent的数字解决方案套件,如我们的IntelliCyient RPA/Automation Tech Studio,帮助企业利用工业4.0技术设计端到端流程自动化的自动化工作流。市场领先的IDP工具通过将IDP处理非结构化文档的能力与RPA机器人相结合,帮助企业实现自动化和更高的ROI。

让我们知道你对这篇文章的看法。

请在下方留言。

跟我们

了解更多如何通过我们的服务和解决方案发挥最大影响

*请联系供应商、求职者或校友使用适当的形式