Skip to main content
11 min read

企业级知识库有哪些特殊之处,讲讲安全合规与知识健康

作者:卢向东,杭州萌嘉网络科技有限公司创始人。团队长期专注于企业 AI 落地与 AI 知识引擎实践,是国内较早探索 RAG 企业应用落地的团队之一。产品 TorchV 已成功服务浪潮信息、微众银行、物产中大、台州银行、适途汽车、中汇税务师事务所等客户。

企业级知识库的一些实践,合规和知识健康。

我在上一篇文章《五分钟讲明白企业知识库,AI时代为什么它会这么重要(附视频)》中大致讲了企业知识库的一些特点,和多数人认为“RAG即是知识库”的概念存在哪些不同,有几位朋友私信说对于一些重要的特点只是一笔带过太敷衍了。那么今天这篇文章我们就从中挑选两个点来展开讲讲企业知识库的这些特点:

  • 安全合规;
  • 知识健康。

一、安全合规

安全合规我认为是由“安全”与“合规”组成的,安全的内容会非常多也非常分散,包括多级权限控制设备控制白名单多次登录失败限制防泄露(下载日志、水印等)防prompt注入攻击等。关于安全,本文就不展开来说,我们直接说说合规

因为合规这个场景可能是大部分AI从业者不一定会碰到的,特别如果你只做产品,没有实际落地经验的话。但在面向强监管的行业客户的AI落地实施中却会被看作重中之重,类似银行、证券基金、保险、支付、生物制药、医疗服务等,在AI落地的时候都非常需要做好合规,不然可能会面临巨额罚款或司法诉讼。

在企业AI落地中,我自己的感觉合规的设置是很标准的,基本上就是处理好三个问题:

  • 合规依据在哪里?
  • 合规检测怎么做?
  • 合规用在哪些场景?

1)合规依据

image-20260607142702605

我们以银行来举例,合规依据肯定来自于法律,来自于银监会等机构颁布的各种法规条例。但这些资料往往不是直接拿来使用的,银行需要根据自身的情况或者性质完成进一步地拆分,形成内部的合规依据细则。在细分的过程中,AI参与度不高,但我们也遇到过反向检查的需求:把银行内部完成的待发布合规依据反向去匹配上层的法规条例,检测是否有冲突。但这不是本文要讲的内容。

2)合规检测

在我们接触到的合规检测场景中,往往合规会被用在最后的输出环节。比如手机银行APP的客户服务中,根据客户提问给出的回答或者产品推荐的内容中,在最终输出给客户之前需要做合规检测。常见的检测内容包括:

  • 禁止承诺或暗示理财产品的保本和收益率;
  • 禁止鼓励客户超出还款能力的借贷行为;
  • 禁止提供具体的买卖时机、投资组合建议;
  • ......

类似的合规问题会有很多,且每个银行都包含了自己的独特性,这里不一一展开。当然,这是关于法规条例方面的合规检测,还有其他的一些是功能性的,比如免责声明的追加、违禁词的控制,以及答案完整性校验等等。

就上述的手机银行APP客服场景中,我们在Agentic RAG的问答过程中是做了“检测-判断-循环”的设计的。除了我们提到的合规结果完整性,还包括了内容可读性检查,准确率证据链完整度等多方面的判断。会让Agent根据以上方面因素的权重占比对结果进行最终打分,如果分值超过8.5且合规部分满分,才可以对外输出,否则带着Agent判断结果进行循环(最多三次终止)。

以上就是对合规检测过程的一个大致描述,实际过程会更加复杂。

3)合规场景

除了我们上面提到的对客服务场景,合规也会在理财产品描述合规检查,内部合规细则反向自检等方面进行应用。未来的合规场景应该会越来越多,而且在安全生产、医疗、制药等更多行业中被采用。

二、知识健康

首先我们来看看企业在落地AI会发生什么。当企业内部通过了知识库/知识中台建设方案时,必然是希望让知识库能被充分使用起来的。一旦知识库被各部门、各项目团队频繁使用,每周都会有大量新文档入库,加上后续可能还有数量更加庞大的Agent产生的各种过程资料和结果。知识库里面马上就会出现大量重复知识、冲突知识、过期知识等等,然后我们发现刚上线时候准确率非常高的知识库检索召回,在三个月之后就已经断崖式下降。

解决这个问题的方式很多,但是最核心的方法依然是如何保证知识库里面的知识是长期健康有效的。我们在实际的实施中,使用的是知识健康模块来自动监测各类知识问题,然后形成结论给到相应的知识维护者进行修复。

image-20260607194028306

知识健康模块如果从功能上看其实是比较简单,主要就是以下几方面组成:

  • 监测系统:通过监测计划(如每周定时检测,如每周二凌晨)触发,根据用户在使用中的“点踩”触发,也可以是Agent执行主动终止等行为触发知识健康检查。当然,具体的检测方法这里就不介绍了,比较技术性。
  • 健康数据:将数据按多维分类进行存储,如知识库分类、问题分类、事件分类、优先级分类、状态分类和维护人分类等。为后续的待办列表和Dashboard提供内容;
  • Dashboard:展示总体的知识健康数据,如综合得分、问题分类数据、四维评分和趋势数据等。另外也提供对知识库的影响状态,在知识库卡片中显示目前的健康程度对知识使用的影响,如存在不可信概率、高危、健康等状态的显示。
  • 问题治理(列表):检测出来的知识健康问题会被分派给有相应权限的知识维护者,形成他的待处理列表,如下图所示。

image-20260607205305056

三、总结

本文尽量在小篇幅的内容中为大家介绍企业级知识库在安全合规和知识健康方面的一些实施经验,他们包含了企业非常关心的安全与持续可用的诉求。

企业级知识库的特点还有很多,比如在证据链上会实现贯穿的证据显示,而不是仅仅展现原文引用;比如循环迭代的能力,系统可以在不断使用中记录哪些是高频使用场景,提醒知识维护者进行针对性增强;比如开放能力,知识库在企业AI落地环境中除了自身提供检索召回、知识使用Agent等功能外,依然需要开放很多API与客户的其他系统进行对接。这些功能后续有机会再详细讲解。

相关文章

知识加工驱动知识库整个生命周期的三个阶段

我觉得在知识库里面,以知识加工来驱动知识库三个生命周期的阶段。...

AI时代,企业的业务底座正在从数据库变成知识引擎

很多企业这两年都在做AI,买了大模型,接了API,搭了开源的RAG系统,也做了几个Demo...

大多数公司没有为AI做好准备,这里有一些方法论

企业是否已经为AI准备好了?7类问题自测;...