利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（上）

幻觉是在处理大型语言模型时常见的问题。LLMs生成流畅连贯的文本，但经常产生不准确或不一致的信息。防止LLMs中出现幻觉的一种方法是使用外部知识源，如提供事实信息的数据库或知识图谱。
矢量数据库和知识图谱使用不同的方法来存储和表示数据。矢量数据库适合基于相似性的操作，知识图谱旨在捕捉和分析复杂的关系和依赖关系。
对于LLM中的幻觉问题，知识图谱是一个比向量数据库更好的解决方案。知识图谱为LLM提供了更准确、相关、多样化、有趣、逻辑和一致的信息。因此，使用知识图谱可以减少LLM中的幻觉，使其在生成准确和真实的文本时更加可靠。但关键是文档需要清楚地展示关系，否则知识图谱将无法捕捉到它。
向量数据库
向量数据库是一组高维向量的集合，用于表示实体或概念，例如单词、短语或文档。向量数据库可以根据实体或概念的向量表示来度量它们之间的相似性或关联性。
举个例子，向量数据库可以告诉你“巴黎”和“法国”比“巴黎”和“德国”更相关，基于它们的向量距离。
知识图谱
知识图谱是一组节点和边，用于表示实体或概念以及它们之间的关系，例如事实、属性或类别。知识图谱可以根据节点和边的属性来查询或推断不同实体或概念的事实信息。
举个例子，知识图谱可以告诉你“巴黎”是“法国”的首都，基于它们的边标签。
知识图谱组件
顶点/节点：表示知识领域中的实体或对象。每个节点对应一个唯一的实体，并由唯一的标识符进行标识。例如，在关于Chennai Kings的知识图谱中，节点可以具有诸如“Philadelphia Phillies”和“Major League Cricket”这样的值。
边：表示两个节点之间的关系。例如，一条“compete in”的边可以将“Chennai Kings”节点连接到“Major League Cricket”节点。
知识图谱中的基本数据单元
三元组是图中的基本数据单元。它由三个部分组成>
主语：三元组所关于的节点。
宾语：关系指向的节点。
谓语：主语和宾语之间的关系。
在以下三元组示例中，“Chennai Kings”是主语，“compete in”是谓语，“Major League Cricket”是宾语。
— [compete in]->,知识图谱数据库可以通过存储三元组来高效地存储和查询复杂的图数据。
查询图数据库
查询涉及遍历图结构并根据特定标准检索节点、关系或模式。下面是一个简单的示例，展示了如何查询图数据库：假设你有一个代表社交网络的图数据库，其中用户是节点，而它们的关系由连接节点的边表示。你想要找到给定用户的朋友圈。
从参考用户开始：在图数据库中，通过查询特定的用户标识符或其他相关标准来识别代表参考用户的节点。
遍历图：使用图形查询语言从参考用户节点遍历图。编写一个查询，指定要探索的模式或关系。在这种情况下，您想要找到朋友的朋友。示例Cypher查询：MATCH -[:FRIEND]->-[:FRIEND]-> RETURN fof这个查询从参考用户开始，沿着FRIEND关系找到另一个节点，然后再沿着另一个FRIEND关系找到朋友的朋友。
检索结果：在图数据库上执行查询，根据查询模式检索出相应的节点。如果需要，还可以获取检索到的节点的特定属性或附加信息。
呈现结果：将检索到的朋友的朋友显示给用户或按照需求进一步处理数据。这些信息可以用于建议、网络分析或其他相关目的。
图数据库提供了更高级查询功能，包括过滤、聚合和复杂模式匹配。具体的查询语言和语法可能有所不同，但总体过程涉及遍历图结构以检索与所需条件匹配的节点和关系。
查询向量数据库
通常涉及搜索相似向量或根据特定条件检索向量。以下是查询向量数据库的简单示例：假设你有一个包含客户配置文件的向量数据库，这些配置文件表示为高维向量，你想找到与给定参考客户相似的客户。
定义参考客户向量：首先，为参考客户定义一个向量表示。这可以通过提取相关特征或属性并将它们转换为向量格式来完成。
执行相似性搜索：使用合适的算法，如k-最近邻或余弦相似度，在向量数据库中执行相似性搜索。该算法将根据相似性分数识别参考客户向量的最近邻居。
检索相似客户：检索与上一步中识别的最近邻居向量对应的客户配置文件。这些配置文件将根据定义的相似性度量表示与参考客户相似的客户。
呈现结果：最后，将检索到的客户配置文件或相关信息呈现给用户，例如显示他们的名字、人口统计信息或购买历史。此信息可用于推荐、定向营销活动或个性化体验。
知识图谱的优势
相比于向量数据库，知识图谱提供了更精确和具体信息。向量数据库表示两个实体或概念之间的相似性或关联性，而知识图谱能够更好地理解它们之间的关系。例如，知识图谱可以告诉你“埃菲尔铁塔”是“巴黎”的地标，而向量数据库只能表示这两个概念的相似程度。这可以帮助LLM生成更准确和相关的文本。
知识图谱支持比向量数据库更多样化和复杂的查询。向量数据库主要基于向量距离、相似度或最近邻来回答问题，这些仅限于直接相似度测量。相比之下，知识图谱可以处理基于逻辑运算符的查询。这可以帮助LLM生成更多样化和有趣的文本。
知识图谱比向量数据库能够进行更多的推理和推断。向量数据库只能提供直接存储在数据库中的信息。相比之下，知识图谱可以从实体或概念之间的关系推导出间接信息。例如，知识图谱可以根据“巴黎是法国的首都”和“法国位于欧洲”的事实推断出“埃菲尔铁塔位于欧洲”。这可以帮助LLM生成更符合逻辑和一致的文本。
LlamaIndex
LlamaIndex是一个编排框架，用于简化将私有数据与公共数据集成以构建使用大型语言模型的应用程序。它提供了数据摄取、索引和查询的工具，使其成为生成式AI需求的一种多功能解决方案。
嵌入模型
嵌入模型需要将文本转换为所提供文本的信息的数字表示形式。该表示形式捕获了所嵌入内容的语义含义，使其适用于许多行业应用。在这里，我们使用了“thenlper/gte-large”模型。
LLM
大型语言模型需要根据提供的问题和上下文生成响应。在这里，我们使用了Zephyr 7B beta模型。
代码实现
1、安装所有依赖库
pipinstallllama_indexpyvisIpythonlangchainpypdf
2、设置日志
3、导包
SimpleDirectoryReader：用于读取非结构化数据。
LLMPredictor：用于使用大型语言模型生成预测。
ServiceContext：提供协调各种服务所需的上下文数据。
KnowledgeGraphIndex：用于构建和操作知识图谱。
SimpleGraphStore：用作存储图数据的简单仓库。
HuggingFaceInferenceAPI：用于利用开源LLM的模块。
4、引入LLM
5、引入embedding
6、装载数据
利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（上） (https://ic.work/) AI 人工智能第1张

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（上）

相关推荐

伟测集成电路芯片测试基地竣工，晶圆级与成品测试项目全面启动。

俄罗斯光刻机突破，350nm技术成功实现，引领科技新篇章。

中国团队突破，全可编程拓扑光子芯片研制成功，引领科技新潮流。

上海新政力推人工智能、算力芯片，科技新风向，不容错过！

美国拟限AI大模型出口，全球科技格局生变，速览最新动态！

博世2024传感器新品：SCS智能互联与两大创新系列，引领行业变革。

OpenAI发布AI图片检测工具，准确率98%，并研发AI音频水印，引领新潮流。

AI医院小镇登陆清华，AI医生超人类，数天诊治万人，快来体验未来医疗！

谷歌AlphaFold 3预测生命分子，登Nature，免费开放，加速科研亿年！

OpenAI掌门人谈AI：末日说夸张，对技术革命持乐观审慎态度。

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

基于脱硝系统改造的自动化优化分析

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

PLL锁相环：工作原理简述，高效同步控制的核心技术。

国产替代奋进高端，创新引领，开启替代新篇章。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

STM32单片机简介

国产化加速，GE医疗MR东半球总部落户，共创医疗新篇章！

最近更新

安富利荣获云尖信息2024年度优秀供应商奖

博世与芯驰科技全面深化战略合作围绕车用半导体核心技术

中科曙光助力北京航天总医院打造24小时在线的AI医疗助手

燧原科技出席2025年“智算申城”高峰论坛

‌TouchGFX是什么？‌TouchGFX有哪些优异功能？

微控制器基本结构是什么样的？STM32WL33系列无线微控制器功耗设计如何？

盘点影响着信号完整性的致命因素

何为微控制器？微控制器的工作流程具体是什么样的？

你了解Stellar系列MCU吗？Stellar系列MCU专为集成式应用设计！

车规MCU有哪些分类？车规MCU有哪些特点？

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（上）

相关推荐

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

基于脱硝系统改造的自动化优化分析

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

PLL锁相环：工作原理简述，高效同步控制的核心技术。

国产替代奋进高端，创新引领，开启替代新篇章。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

STM32单片机简介

国产化加速，GE医疗MR东半球总部落户，共创医疗新篇章！

最近更新

安富利荣获云尖信息2024年度优秀供应商奖

博世与芯驰科技全面深化战略合作 围绕车用半导体核心技术

中科曙光助力北京航天总医院打造24小时在线的AI医疗助手

燧原科技出席2025年“智算申城”高峰论坛

‌TouchGFX是什么？‌TouchGFX有哪些优异功能？

微控制器基本结构是什么样的？STM32WL33系列无线微控制器功耗设计如何？

盘点影响着信号完整性的致命因素

何为微控制器？微控制器的工作流程具体是什么样的？

你了解Stellar系列MCU吗？Stellar系列MCU专为集成式应用设计！

车规MCU有哪些分类？车规MCU有哪些特点？

博世与芯驰科技全面深化战略合作围绕车用半导体核心技术