热点在线丨LangChain：为你定制一个专属的GPT

LLM（大语言模型）是一项变革性的技术，它将人类的各类知识和逻辑能力打包进入了一个体积庞大的模型当中。但是通常来说，包括当前公认效果最好的LLM GPT-4都会有一个问题——事实问题错误，也常被称之为幻觉。幻觉（Hallucination），或者说人工智能幻觉是人工智能的自信反应。当模型输出欺骗性数据的倾向时，其使用的的训练数据并不能证明输出的合理性。人工智能幻觉的危险之处之一是模型的输出看起来是正确的，其实它本质上是错误的。基于这种前提条件下，若是直接将LLM利用于生产环境中（例如客服答疑，新形式文档等）时，那么事实幻觉就可能会造成极其严重的影响。但是通过LangChain，我们可以通过将其它计算资源和自有的知识库结合。依托于当前的各类产品，在整合了当前的语料资源库后，各类LLM都会进入到一个新的实用化发展阶段。

LangChain介绍

(资料图片)

LangChain是一个用于开发基于语言模型的应用程序开发框架。总的来说，LangChain是一个链接面向用户程序和LLM之间的一个中间层。

它在 2023 年 3 月获得了 Benchmark Capital 的 1000 万美元种子轮融资，在近期又拿到了红杉2000-2500万美金的融资，估值已经提升到了2亿美金左右。

LangChain 可以轻松管理与语言模型的交互，将多个组件链接在一起，并集成额外的资源，例如 API 和数据库。其组件包括了模型（各类LLM），提示模板（Prompts），索引，代理（Agent），记忆等等。当前GitHub上的热门项目Auto-GPT和Babyagi所使用的链式思考能力都是由LangChain启发而来。LangChain项目主页图

LangChain工作流程

本次重点介绍LangChain搭配自有的知识库让LLM发挥更大功能的流程。

在缺少了上下文的情况下，即使是目前公认最顶级的LLM GPT-4也无法回答部分需要特定领域的知识。

而要是想仅用自有知识库来训练出LLMs又是不可能的，这个时候最好的方法就是利用LangChain的模块来改善LLM的使用，通过输入自己的知识库来“定制化”自己的LLM。

Question Answering over specific documents是一个写在LangChain主页的主推功能。翻译过来就是基于特定文档的问答。

准备自定义数据

准备好需要LLM学习的内容，它可以是一个纯文本文件或者其他类型的文本（不同类型的文本需要不同的文档加载器）。

拆分文档

一般来讲，每个文档都是由复杂长短句、多种语法结合写作而成的。在进行输入之前，就必须对这些文字进行解构处理。对于英文LangChain一般会使用RecursiveCharacterTextSplitter处理。由于中文的复杂性，会使用到jieba等处理工具预处理中文语句。文本嵌入(Embeddings)处理完文本之后，就可以对文本进行嵌入（Embeddings）了。通过调用OpenAI的Embeddings API将文本向量化。在这步处理之后，文本就已经不再是文字，而是以向量化存储的信息。再使用一个开源的Embeddings数据库ChromaDB保存Embeddings数据，就可以达到使用数据长期存储和快速调用。

图：将原文本嵌入

使用链（Chain）对矢量数据库进行问答

在拥有了嵌入数据之后，我们就可以利用LangChain的强大链功能来执行我们的问答。这时就可以通过自然语言对于文档内容进行提问了。通过LangChain回答问题/完成任务

LangChain可能的应用场景

当前的AI热潮吸引了很多人，而除了ChatGPT这类问答还有New Bing这种搜索服务外，并没有什么可以将LLM商业化的案例。甚至可以说只有New Bing才是目前唯一一个成功的商业化案例。

LangChain为所有人提供了一个新的商业化方案。此前有将LLM导入客服软件中应用的方案，但是由于LLM容易出现事实幻觉而无法实施。同时，将所需内容通过Prompt导入LLM的想法也由于LLM的对话（Context）输入限制而不可能实施。LangChain则通过将数据向量化避免了使用输入限制，从而将所需内容导入LLM进行问答。当下的人工成本逐渐提升，例如淘宝客服等人工密集型产业的成本逐步提升。当前的智能问答距离可用仍有较远的距离。通过已经预训练好的LLM是一个快速降本增效的方案。基于每个产品的数据，可以将数据引入LLM中，让LLM接替客服工作，准确、快速的回答客户的定制化问题，同时语气贴合自然口吻，避免了情绪化工作。基于文档的工作还可以在各类公司培训和智能化文档方面提供作用。很多产品文档随着时间的积累变得越来越复杂，多层跳转也会让人学习起来效率低下且不适。此时基于LangChain就可以将文档重新梳理，输出为大纲类，在使用的时候可以随时通过问答的形式将内容输出。类似于新员工培训和产品说明书等等场景都可以有所应用。这就极大的拓宽了文字类LLM的使用场景。基于LangChain的问答除了直接与人交互的方面外，还可以导入特定领域的知识库，实时更新LLM的内容，让LLM的知识时刻处于最新的状态。依赖于此，LangChain除了可以完成自然语言文档搜索外，还可以基于及时的资源进行快速开发。导入资源后LangChain开发出的网页

当前LangChain的局限性

目前，由于整个AI生态还处于一种快速发展期，各类工具和平台还没有完全成熟，因此LangChain的各类链和模块的定制性和功能都还不够强大。对于有高性能场景需求和定制化任务的可能需要自己重新修改。

事实合法性也是未来需要解决的一个痛点。LLM的各类越狱层出不穷。虽然在引入了嵌入之后LLM只会对文档内容进行问答，但是仍然需要有一套额外的监督系统防止出现任何非法的回答。同时当前LangChain还有使用难度较高等问题。目前的各类AI工具都面临着普通用户无法轻松驾驭等等的问题，而LangChain的问题更盛。普通产品或者开发者的上手学习成本较高，使用起来难度很大。这一切都需要社区和商业资本的共同投入才有可能解决。

结语

LangChain是当前众多的AGI实验性工具的基石项目。基于链（Chain）的LLM调用思维势必会贯穿未来LLM的发展生态。提前关注AI发展动向，关注LangChain的开发进度，会对未来的AI应用落地有极大的帮助。

推荐内容

热点在线丨LangChain：为你定制一个专属的GPT

世界快讯:多家公司高调跨界白酒 财报中为何不见踪影

环球热消息：4月20日擒牛姐盘中提示

三号任务暗示继续加息，黄金反弹难以为继！

每日头条!科技股下跌就歇菜 美女只要富二代

全球焦点！倒计时100天！成都大运会场馆抢先看

全球热推荐：嫩滑鱼片汤

星纪元STERRA领衔，四款新车亮相，星途品牌上海车展开启新征程

全球焦点！2023上海·静安现代戏剧谷，让你和春天有个约会！

每日看点！普华永道闫琳：2022年市场大幅波动，保持稳健仍为大多数理财产品的投资策略

环球微动态丨直击2023上海车展 技术推动变革 汽车“新四化”趋势跑出加速度

焦点讯息：线上线下齐发力 潮州小店“搅动”本地消费“一池春水”

A股161家一季报业绩披露 盈利和增长占大多数 一季报行情将持续上演？

【午报】16股涨停！数字经济延续强势 金山办公涨超7%

保险观察|汇丰人寿启动新一轮增资计划，注册资本将扩至23.1

天天速递！赛维时代IPO：近两年净利润连续下滑 股权高度集中存内控风险

微头条丨美银调查：全球经济衰退和信贷紧缩是最大风险 做多中国股票跻身热门交易

多晶硅光伏板和单晶硅光伏板哪个好？

淄博破圈启示：鼓励更多城市成为网红 哪怕是土味网红

快报：华润溢价8.95%竞得上海集中供地青浦区西虹桥地块

焦点热议:重大技术突破！6G概念沸腾了！股价跟着业绩走 这些股票大涨

每日热文：国泰君安副总裁龚德雄辞职，高管减持计划提前终止

环球精选！4月20日午间评论

重点聚焦!加加上网导航官网_加加上网导航首页

中东部将迎“俯冲式”降温 明起新一轮降雨接踵而至

环球观焦点：农业农村部：化肥供应总量充足，价格运行基本平稳

2023五一档电影新片预售票房突破5000万元

【环球聚看点】杉杉股份：2022年双主业驱动高速增长

天天快播：黄金尬住了？我看未必啊

世界百事通！《陈阿牛》：黄金94-95做空；日内跟随做空。

影视接力游戏，CPO高温不退

环球最新：联想t61笔记本 联想t61

世界通讯！信达证券：周大福(01929)港澳客流逐步恢复 看好“五一”假期及下半年旺季持续修复

焦点播报:四川九寨沟县：森林火情系雷击引起 目前未造成人员伤亡

世界今日讯！农业农村部：生猪养殖有望在二季度末实现扭亏为盈

农业农村部：农民种豆意愿有所回升 大豆意向面积是稳中略增

微速讯：大盘震荡整理，上升趋势没有改变

每日动态!股海泛舟：加速末端就是这样！

王杨：黄金1997直接干空，反弹就是纸老虎！

抢钱俱乐部：黄金1960到2010震荡，反弹跑步空不变

【全球速看料】王鹏点金：回补缺口！

农业农村部：支持脱贫地区打造区域公用品牌，到2025年塑强50个精品区域公用品牌

环球快播：广州粤港澳大湾区研究院郑永年：为了跨越“中等技术陷阱”，大湾区需加速人才融合

减持！王健林也出手了 此前多为被动稀释股权

天天最资讯丨图灵看市4.20-白银探底回升、或再测前高

金都城：低位V型反转，偏弱形态依旧尽显！

阿东说金：4.20黄金1996直接空，原油继续看74

当前信息：薛晓庆：继续伺机布空金价

方萍萍：2023年04月20日原油交易策略

环球快看：河南：支持郑州数据交易中心创建国家级数据交易场所

热门看点：4月20日盘前重要产业新闻

天天视讯！平安证券：绿氢产业爆发在即，关注电解槽和材料环节

世界视讯！被“烤”红的淄博：能否借势走出城市转型新路

中信证券：铸造锻压行业迎国家政策推动 龙头公司或充分受益

【世界快播报】抢钱俱乐部：黄金1960到2010震荡，反弹2005依然空！

世界要闻：4月20日周四早间市场信息

热头条丨热点前瞻：数据要素+纺织服装+有色铝+虚拟现实

看热讯：销量占优难补亏损，瑞驰难为母公司加分

环球热门:王导：黄金主力洗盘结束，100美金波段开始

工信部将强化中小企业在产业链供应链上的配套能力

A股快递公司3月经营数据出炉 物流业景气度加速回升

焦点要闻：珍惜投资AI的窗口期！广发基金冯骋：前瞻性布局科技创新趋势

世界短讯！科技、消费股大混战

世界速递！种植牙集采落地 广东种植牙耗材平均降价55%

环球热文：高标准农田建设的宜春实践

500倍利好 科技股继续嗨

净值回撤影响逐步消退 银行理财市场一季度企稳回升

环球观天下！地产规划定位应该更纯粹

数字基建扩容提速

王杨：黄金反弹不过纸老虎，1992直接空！

【天天速看料】【4月19日】晚间行业研究及明日交易策略

全球焦点！消费参考丨影视业“争议”大模型

广交会·产业新动能③丨新兴市场渐成新能源领域重要市场 储能产业加速延链升级

减持快手？腾讯：并没有 总持股不变 向外部股东无偿分配5100万股

北京银行再交优质答卷丨资产规模和利润双双重回两位数增长

天天消息！【股帅】看盘随笔及精选股池(2023.4.19）

环球通讯！抚仙湖文旅开发再“关”10年 涉土地清算范围项目开发商回应：该退地的退地，该争取的争取

观点：杨涛：加快金融与科技融合是科技推动下社会分工深化的必然趋势

孟晚舟发声！AI算力到2030年将增长500倍

世界快讯:多家公司高调跨界白酒财报中为何不见踪影

每日头条!科技股下跌就歇菜美女只要富二代

环球微动态丨直击2023上海车展技术推动变革汽车“新四化”趋势跑出加速度

焦点讯息：线上线下齐发力潮州小店“搅动”本地消费“一池春水”

A股161家一季报业绩披露盈利和增长占大多数一季报行情将持续上演？

【午报】16股涨停！数字经济延续强势金山办公涨超7%

天天速递！赛维时代IPO：近两年净利润连续下滑股权高度集中存内控风险

微头条丨美银调查：全球经济衰退和信贷紧缩是最大风险做多中国股票跻身热门交易

淄博破圈启示：鼓励更多城市成为网红哪怕是土味网红

焦点热议:重大技术突破！6G概念沸腾了！股价跟着业绩走这些股票大涨

中东部将迎“俯冲式”降温明起新一轮降雨接踵而至

环球最新：联想t61笔记本联想t61

世界通讯！信达证券：周大福(01929)港澳客流逐步恢复看好“五一”假期及下半年旺季持续修复

焦点播报:四川九寨沟县：森林火情系雷击引起目前未造成人员伤亡

农业农村部：农民种豆意愿有所回升大豆意向面积是稳中略增

减持！王健林也出手了此前多为被动稀释股权

中信证券：铸造锻压行业迎国家政策推动龙头公司或充分受益

A股快递公司3月经营数据出炉物流业景气度加速回升

世界速递！种植牙集采落地广东种植牙耗材平均降价55%

500倍利好科技股继续嗨

净值回撤影响逐步消退银行理财市场一季度企稳回升

广交会·产业新动能③丨新兴市场渐成新能源领域重要市场储能产业加速延链升级

减持快手？腾讯：并没有总持股不变向外部股东无偿分配5100万股

环球通讯！抚仙湖文旅开发再“关”10年涉土地清算范围项目开发商回应：该退地的退地，该争取的争取

天天讯息：商旅需求集中爆发五一酒店订单火热

湖北45所高校新增专业106个数字经济、人工智能相关专业成热门

世界聚焦：恒尚节能5亿元投资项目去哪募投项目部分建设用地或被第三方占