把langchain跑起来的3个方法

2023-07-04 17:03 由京东云技术团队发表于 #其他

使用LangChain开发LLM应用时，需要机器进行GLM部署，好多同学第一步就被劝退了，那么如何绕过这个步骤先学习LLM模型的应用，对Langchain进行快速上手？本片讲解3个把LangChain跑起来的方法，如有错误欢迎纠正。

Langchain官方文档地址：
https://python.langchain.com/

基础功能

LLM 调用

支持多种模型接口，比如 OpenAI、HuggingFace、AzureOpenAI …
Fake LLM，用于测试
缓存的支持，比如 in-mem（内存）、SQLite、Redis、SQL
用量记录
支持流模式（就是一个字一个字的返回，类似打字效果）

Prompt管理，支持各种自定义模板

拥有大量的文档加载器，比如 Email、Markdown、PDF、Youtube …

对索引的支持

文档分割器
向量化
对接向量存储与搜索，比如 Chroma、Pinecone、Qdrand

Chains

LLMChain
各种工具Chain
LangChainHub

详细地址可参考：
https://www.langchain.cn/t/topic/35

测试Langchain工程的3个方法：

1 使用Langchian提供的FakeListLLM

为了节约时间,直接上代码

import os
from decouple import config
from langchain.agents import initialize_agent
from langchain.agents import AgentType
from langchain.agents import load_tools

这里mock下ChatGPT,使用mockLLm

#from langchain.llms import OpenAI
from langchain.llms.fake import FakeListLLM
os.environ["OPENAI_API_KEY"] = config('OPENAI_API_KEY')

REPL 是 “Read–Eval–Print Loop”（读取-求值-打印-循环）的缩写，它是一种简单的、交互式的编程环境。

在 REPL 环境中，用户可以输入一条或多条编程语句，系统会立即执行这些语句并输出结果。这种方式非常适合进行快速的代码试验和调试。

tools = load_tools(["python_repl"])
responses=[
    "Action: Python REPL\nAction Input: chatGpt原理",
    "Final Answer: mock答案"
]
llm = FakeListLLM(responses=responses)
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)
agent.run("chatGpt原理2")

2 使用Langchian提供的HumanInputLLM，访问维基百科查询

from langchain.llms.human import HumanInputLLM
from langchain.agents import load_tools
from langchain.agents import initialize_agent
from langchain.agents import AgentType
from wikipedia import set_lang

使用维基百科工具

tools = load_tools(["wikipedia"])

这里必须要设置为中文url前缀，不然访问不了

set_lang("zh")

初始化LLM

llm = HumanInputLLM(prompt_func=lambda prompt: print(f"\n===PROMPT====\n{prompt}\n=====END OF PROMPT======"))

初始化agent

agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)
agent.run("喜羊羊")

3 使用huggingface

https://huggingface.co/docs

1.注册账号

2.创建Access Tokens

Demo：使用模型对文档进行摘要

from langchain.document_loaders import UnstructuredFileLoader
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain import HuggingFaceHub
import os
from decouple import config

from langchain.agents import load_tools

这里mock下ChatGPT,使用HUGGINGFACEHUB

os.environ["HUGGINGFACEHUB_API_TOKEN"] = config('HUGGINGFACEHUB_API_TOKEN')

导入文本

loader = UnstructuredFileLoader("docment_store\helloLangChain.txt")

将文本转成 Document 对象

document = loader.load()
print(f'documents:{len(document)}')

初始化文本分割器

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap = 0
)

切分文本

split_documents = text_splitter.split_documents(document)
print(f'documents:{len(split_documents)}')

加载 LLM 模型

overal_temperature = 0.1
flan_t5xxl = HuggingFaceHub(repo_id="google/flan-t5-xxl", 
                         model_kwargs={"temperature":overal_temperature, 
                                       "max_new_tokens":200}
                         ) 

llm = flan_t5xxl
tools = load_tools(["llm-math"], llm=llm)

创建总结链

chain = load_summarize_chain(llm, chain_type="refine", verbose=True)

执行总结链

chain.run(split_documents)

作者：京东科技杨建

来源：京东云开发者社区

热门相关：洪荒二郎传重生野性时代天神诀回眸医笑，冷王的神秘嫡妃前任无双

Nftables栈溢出漏洞(CVE-2022-1015)复现

Nftables 是一个基于内核的包过滤框架，用于 Linux操作系统中的网络安全和防火墙功能。nftables的设计目标是提供一种更简单、更灵活和更高效的方式来管理网络数据包的流量。 ...阅读全文

分布式事务的几种实现方式

## 基础理论 ### CAP理论一致性（Consistency）：在分布式系统中所有的数据备份，在同一时刻都保持一致状态，如无法保证状态一致，直接返回错误；可用性（Availability）：在集群中一部分节点故障，也能保证客户端访问系统并得到正确响应，允许一定时间内数据状态不一致；分区容 ...阅读全文

华为云河图KooMap 共筑数字孪生底座共建产业标杆

摘译：7月7日至9日，华为开发者大会2023(Cloud)将在东莞溪村盛大举行，由华为云河图KooMap带来的关于数字孪生主题的技术分论坛、圆桌闭门会和精彩成果展示 7月7日至9日，华为开发者大会2023(Cloud)将在东莞溪村盛大举行。作为全球开发者期待的行业盛会，本届大会将在全球40+会场举办 ...阅读全文

北斗卫星时钟同步服务器（卫星授时服务）天线安装意见

北斗卫星时钟同步服务器（卫星授时服务）天线安装意见北斗卫星时钟同步服务器（卫星授时服务）天线安装意见京准电子科技官微——ahjzsz 卫星天线介绍一、电气特性 1、线的长度：30米 2、线的规格：SYV-50-3 3、规格：BNC、TNC、N型接头 4、工作频率、频宽：1575.42MHz、 ...阅读全文

《山月记》—— 中岛敦

我深怕自己本非美玉，故而不敢加以刻苦琢磨，却又半信自己是块美玉，故又不肯庸庸碌碌，与瓦砾为伍。于是我渐渐地脱离凡尘，疏远世人，结果便是一任愤懑与羞恨日益助长内心那怯弱的自尊心。其实，任何人都是驯兽师，而那野兽，无非就是各人的性情而已。于我而言，这种妄自尊大的羞耻心就是野兽，就是猛虎。它毁了我 ...阅读全文

摘抄

中岛敦《山月记》我深怕自己本非美玉，故而不敢加以刻苦琢磨，却又半信自己是块美玉，故又不肯庸庸碌碌，与瓦砾为伍。于是我渐渐地脱离凡尘，疏远世人，结果便是一任愤懑与羞恨日益助长内心那怯弱的自尊心。其实，任何人都是驯兽师，而那野兽，无非就是各人的性情而已。于我而言，这种妄自尊大的羞耻心就是野兽，就是猛 ...阅读全文

详解共识算法的Raft算法模拟数

摘要：Raft算法是一种分布式共识算法，用于解决分布式系统中的一致性问题。本文分享自华为云社区《共识算法之Raft算法模拟数》，作者： TiAmoZhang 。 01、Leader选举存在A、B、C三个成员组成的Raft集群，刚启动时，每个成员都处于Follower状态，其中，成员A心跳超时为1 ...阅读全文

kernel pwn入门

Linux 内核是 Linux操作系统的核心组件，它提供了操作系统的基本功能和服务。它负责管理计算机硬件和软件资源，并为应用程序提供必要的基础支持。Linux内核是一个模块化的系统，可以根据需要加载和卸载各种驱动程序和功能模块。 ...阅读全文

【笔试实战】LeetCode题单刷题-编程基础 0 到 1【二】

博客推行版本更新，成果积累制度，已经写过的博客还会再次更新，不断地琢磨，高质量高数量都是要追求的，工匠精神是学习必不可少的精神。因此，大家有何建议欢迎在评论区踊跃发言，你们的支持是我最大的动力，你们敢投，我就敢肝 ...阅读全文

数据结构与算法（一）：稀疏数组

# 问题引入在五子棋游戏或类似的游戏中，我们可以把整个棋盘想象成是一个有规律的二维数组，其值由0、1、2三个数字组成，0代表空白区域，1代表白子，2代表黑子。这种情况：即当一个数组中大部分元素为0或者为同一值时，存储该数组数据可以使用稀疏数组来对原始数组进行精简，以减少原始数组中无用数据所占的空间 ...阅读全文