大模型除了好玩之外有啥用?

其中一个很好的应用方向就是构建基于大模型的知识库

无论是个人还是企业,无论生活还是工作,在信息大爆炸的时代,我们都积累了大量的信息(文档)。如何高效检索,成了一个大问题。

传统知识库的检索方式往往比较弱,只能基于关键词检索,返回结果也比较死板。

而结合了大模型强大的语意理解能力之后,检索体验和效率就会有巨大的飞跃。

今天结合大模型知识引擎LKE,来尝试创建一个自己的知识库应用

这个应用主要是实现的功能就是,把各类文档制作成知识库,然后通过 DeepSeek 进行快速高效检索和呈现。

文章主要是分为两块:一个是如何制作,一个是效果测试。

首先,我们来快速创建一个知识库应用。

关于这个大模型知识引擎 LKE,在之前的两篇文章中已经提到过。就不做过多介绍了。

直接根据这个网址打开这个平台就可以了。

https://lke.cloud.tencent.com/lke

第一次使用,注册,认证,可能要点时间,但是并没有门槛,都可以快速通过。目前这个阶段,全部可以免费体验,是0成本学习技能的好时候。

1.创建应用

进入大模型知识引擎之后的第一步,是创建一个应用。

在应用管理中,点击新建应用,设置图标和输入应用名称,点击新建。

2.切换模型

应用创建完成之后,就需要进行具体的设置了,首先是切换模型

根据上图操作,将生成模型,切换成 DeepSeek-R1。这样就能用上 R1 强大的中文理解和推理能力了。

这里的思考模型,主要影响意图识别的效果。

这里的生成模型,主要用于阅读理解和答案生成。

R1 和 V3 的区别:

R1是强化学习(RL)驱动的推理模型,在数学、代码和推

理任务中与 OpenAl-01 表现相当。与DeepSeek助

手深度思考模式为同款模型

V3是拥有6710亿参数的混合专家(MoE)语言模型,采

用多头潜在注意力(MLA)和 DeepSeekMoE 架

构,结合无辅助损失的负载平衡策略,优化推理和

训练效率。

3.创建知识库

点击顶部的菜单,切换到知识管理界面。

这个界面主要就是管理各种文档。

知识库的类型这里其实还有两个大类。

一个是文档类。

适合大量文档的场景。

一个是问答类

问答类主要是一问一张,特别适合那种问答场景。

我们以文档为例子,开始创建知识库。

所谓知识库,就是很多知识聚集在一起就成了知识库。而知识具体的载体就是各种文件或者在线网页

点击导入功能,可以从网页或者本地文件中导入。

网页导入

只需要输入一个网址,点击获取网页内容就可以了。比如我贴了一个关于“iPhone 16 Pro Max – 技术规格” 的网址。让他抓取详细的参数信息。

导入文档

点击箭头区域或者直接把文件拖动到这个区域,然后点击导入文件,就可以了。

目前支持的文档类型下:

  • 文档支持pdf、doc、docx、ppt、pptx,单个文件不超过200MB;
  • xlsx、xls、md、txt、csv,单个文件不超过20MB;
  • 图片支持jpg、png、jpeg,单个文件不超过50MB

基本涵盖了常见文档。

我这里只选了 txt,pdf来做测试。选了几本金庸小说,然后选了几个电脑主板的PDF文档。

知识库上传完成之后,需要经过几个阶段的处理。

主要包括解析,学习,待发布。(还有一个审核~~)

这个过程和上传内容的字符量有关系。测试阶段,不要上传太大的文件,会消耗很多 token配额。

等文档状态变成已经学习,待发布的时候,就证明知识库已经就位了,可以使用了。

4.启用知识库

回到应用配置界面,启用一下知识库。其实,这两项都是默认开启的。

右上角还有一个高级设置

点击高级设置之后,可以调整检索策略,文档设置,问答设置

检索策略

混合检索:同时执行关键词检索和向量检索,推荐在需要对,字符串和语义关联的场景下使用,综合效果更优。

语意检索:推荐query与文本切片重叠词汇少,需要语义匹配的场景

文档设置

文档召回数量:检索返回的最高匹配度的N个文档片段

文档检索匹配度:根据设置的匹配度,将找到的文本片段返回给大模型,作为回复参考。值越低,意味着更多的片段被召回,但也可能影响准确性,低于匹配度的内容将不会被召回。

问答设置

问答回复方式:直接回复和润色后回复。

问答召回数量:同上

问答检索匹配度:同上

可以根据实际需求,和实际测试情况,调整这些参数。刚开始可以全部使用默认配置。

5.测试知识库

当文档学习完成,参数设置完毕,就可以开始测试你的知识库应用了。

我就针对 iPhone16Promax提一个问题。

原来网页信息如下:

问答情况如下:

点击参考来源,可以查看原文片段

首先,我问的是 iPhone16,没加 promax 这个后缀。一个是我偷懒了,一个是测试一下它能否基于文档找到 promax 的信息。

其次,我没问“外观”这个关键词,而是直接问颜色。也是要考验它是否直接做关键词匹配,还是有自己的理解能力。

从思考过程来看,首先它找对了位置,其次它还想了一下 iPhone16 和 promax 的问题。

最终的回答完全准确,而且做了一个备注(这是 iPhone16promax 的规格)。

虽然这个问题看似很简单,但是已经可以体验大模型加持后的检索能力了。

更多测试,我们留在文末,现在先把流程走完。

6.发布知识库

当你感觉测试得差不多了,就可以点击右上角的发布了。

点击发布的意义,主要在于,发布之后,当前的配置就对后续的接口生效了。如果不发布,那么所有修改只是在测试界面有效,不会影响已发布的应用。

发布这个过程很快就会完成。

完成之后会有提示。

然后可以去发布管理->调用信息界面。

获取体验链接,可以直接立即体验,也可以分享链接,分享二维🐎

7.体验知识库

复制上面的链接,就可以打开一个单独对话页面了。

界面很简洁,可以发送问题,也可以发送图片,输入框运行输入 12000 个字。如果是个人使用,其实用这个界面就可以了。

结合上一期讲的DeepSeekR1 联网功能,别看操作简单,没花一分钱,但是功能却很给力了。

8.后续操作

可以根据应用接口和Appkey 等信息,接入任何系统。比如网址,桌面软件,手机APP。

由于这是针对企业用户的服务,一般来说腾讯不会也不敢偷你数据,对于数据安全级别不是很高的场景,完全可以通过这种方式快速构建个人或者公司的大模型知识库。

除此之外主要是看后续收费情况,贵的话,只能弃了。便宜,就可以直接用起来。

9.更多测试

在上面的测试中,我只测试了从网页导入的 iPhone 规格参数的问题。其实我还上传了好几份电脑主板的用户手册,搞了一个装机的分类。

那么我们就来问一点主板相关的问题吧。

比如主板上有多少风扇接口

有多少个 SATA 口?

有多少个 M2 接口

支持哪些型号的CPU

因为内部有设定,如果有文档,必须先查看文档,没有文档,就大模型自己回答。

那些有参考的文档的基本就是基于我们自己的数据来回答的。由于没有启用联网功能,所以绝对可以排除它联网查询这个资料的可能性。

如果要排除大模型自己的知识储备,我们可以自己编一个数据测一测它。

下面是我让 DeepSeekR1 编的 iPhone20 的参数:

然后,开始问相关问题:

iPhone20 实在是太强了🥲。

300W 磁吸充电,五分钟充满。

24GDDR6X 内存。

0.8纳米180亿晶体管

64核心NPU,宙斯引擎,算力 1200TOPS。

……

上面的信息应该是全对,一个字母都不差。

上面的问题都偏理工科,理工科的人也特别需要这中知识库。

下面,来点趣味测试。

聊聊金庸的小说《神雕侠侣》。

不查不知道,一查吓一跳。原来尹志平都改名甄志丙了….

想当年,看神雕,意难平,就是因为这个男人。

最后一个提问,它都思考完了,但就是不给结果。。。

大家都是成年人,何必呢!!!

这么测下来,整体效果还是可以的。

主要是实现过程也很简单!

如果,你对某些问题不满意,或者想拒绝回答一些问题,也可以在后台效果调优功能里面进行设置。

本文主要是是分享一种实现大模型知识库的方案,并作了一些简单的测试。有这方面需求的人,可以根据自己的数据和使用场景,去试试看。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。