AI

AI

AI 相关

Dify 创建 Flux AI 免费绘图应用
AI

Dify 创建 Flux AI 免费绘图应用

本文介绍了如何利用 Dify 创建 Flux AI 免费绘图应用。只需要在 Dify 中输入提示词和图片分辨率,Dify 会直接返回图片。文中还介绍了如何获取硅基流动的免费 API,以及如何自定义 Dify 的绘图插件。 一、Flux AI 简介 AI 绘画,开源中知名度最高的肯定是 Stable Diffusion。在 2024年8月1日,来自 Stable Diffusion 团队的成员成立了黑森林实验室公司(Black Forest Labs),致力于开发最先进的开源生成模型,用于图像和视频。目前公司有 4 款 AI 绘图模型:[1] * FLUX1.1 [pro] :2024年10月1日发布的最先进且高效的版本,代号“蓝莓”,是目前市面最强的 AI
12 min read
李沐交大讲座——大语言模型及个人成长分享
AI

李沐交大讲座——大语言模型及个人成长分享

李沐在交大分享了关于大模型的实践经验和未来的预测,以及个人工作和成长的一些经验,感觉很有收货,摘录了一些重点,感兴趣可以看原视频。 李沐:BosonAI联合创始人,前亚马逊首席科学家,曾任AI创业公司Marianas Labs CTO、百度深度学习研究院主任研发架构师。 大语言模型的现在和的未来 语言模型的最核心的三个要素是算力、数据和算法:语言模型像炼丹,数据就像炼丹材料,算力就像炼丹炉等设备,算法就像丹方。以前的深度学习就像一个丹就治一个病,现在希望为丹注入灵魂,解决很多问题。 带宽:带宽是最难也是最重要的,大模型分布式训练需要通过光纤连接,光纤目前带宽在400G左右,会成为瓶颈,光纤传输延迟也需要考虑。现在的趋势是把GPU放到一起,距离足够近,英伟达的GB200就是这个思路。密集的GPU会带来电力和散热问题,散热需要使用水冷,水冷对基建有更高的要求。 内存:内存比算力更关键,大模型需要大量内存处理数据。当前单芯片内存约 192 GB,内存不够,模型就做不大,模型上限将依赖内存突破。 算力 * 算力提升主要依赖摩尔定律,随着工艺进步和浮点数精
6 min read
安装 Dify 并集成 Ollama 和 Xinference
AI

安装 Dify 并集成 Ollama 和 Xinference

本文介绍了通过 Docker 安装 Dify,然后集成 Ollama 和 XInference,并利用 Dify 快速搭建一个基于知识库问答的应用。 一、Dify 简介 Dify 是一款开源的大语言模型(LLM)应用开发平台,旨在帮助开发者快速构建和部署生成式 AI 应用。以下是 Dify 的主要功能和特点 [1]: * 融合 Backend as Service 和 LLMOps 理念:Dify 将后端即服务(Backend as Service)和 LLMOps 的理念结合,使开发者能够快速搭建生产级的生成式 AI 应用。 * 支持多种模型:Dify 支持数百种专有和开源的 LLM 模型,包括 GPT、
7 min read
Xinference 本地运行大模型
AI

Xinference 本地运行大模型

本文介绍了如何使用 Docker 部署 Xinference 推理框架,并演示了如何启动和运行多种大模型,包括大语言模型、图像生成模型和多模态模型。还讲解了嵌入和重排模型的启动方法,为后续 Dify 调用嵌入和重排模型做为铺垫。 一、Xinference 简介 Xorbits Inference (Xinference) 是一个开源的分布式推理框架,专为大规模模型推理任务设计。它支持大语言模型(LLM)、多模态模型、语音识别模型等多种模型的推理。以下是 Xinference 的主要特点 [1]: * 模型一键部署:极大简化了大语言模型、多模态模型和语音识别模型的部署过程。 * 内置前沿模型:支持一键下载并部署大量前沿开源模型,如 Qwen2、chatglm2、等。 * 异构硬件支持:可以利用 CPU 和 GPU 进行推理,提升集群吞吐量和降低延迟。 * 灵活的 API:提供包括 RPC 和 RESTful
6 min read
Ollama 结合 Open-WebUI 本地运行大模型
AI

Ollama 结合 Open-WebUI 本地运行大模型

本文介绍了如何使用 Ollama 在本地运行大型语言模型,以及利用 Open-WebUI 提供的图形化界面与大语言模型进行交互。 一、Ollama 简介 Ollama 是一个开源框架,专门设计用于在本地运行大型语言模型(LLM)。它的主要特点和功能如下: * 简化部署:Ollama 旨在简化在 Docker 容器中部署 LLM 的过程,使得管理和运行这些模型变得更加容易。安装完成后,用户可以通过简单的命令行操作启动和运行大型语言模型。例如,要运行 Gemma 2B 模型,只需执行命令 ollama run gemma:2b。 * 捆绑模型组件:它将模型权重、配置和数据捆绑到一个包中,称为 Modelfile,这有助于优化设置和配置细节,包括 GPU 使用情况。 * 支持多种模型:Ollama 支持多种大型语言模型,如 Llama 2、Code
7 min read
Hugging Face 模型下载及使用
AI

Hugging Face 模型下载及使用

这篇文章介绍了Hugging Face平台和它的核心产品。演示了如何在AWS EC2实例上,从Hugging Face Hub下载并运行Qwen2-0.5B-Instruct模型。最后,还展示了如何用Gradio图形化界面与Qwen LLM进行聊天对话。 一、Hugging Face 简介 Hugging Face是一家美国公司,成立于2016年,起初是为青少年开发聊天机器人应用程序。后来,Hugging Face转型为专注于机器学习的平台公司,推出了多款促进NLP(自然语言处理)技术发展的产品。主要产品有: 1. 预训练模型:Hugging Face提供了一系列优秀的预训练NLP模型,如BERT、GPT、RoBERTa等,这些模型在多项任务中表现出色。 2. Transformers库:Hugging Face开发了名为transformers的Python库,支持PyTorch和TensorFlow等深度学习框架,提供了加载、微调和使用预训练模型的便捷工具。 3. NLP工具:他们提供了多种NLP相关工具,如文本生成、文本分类和命名实体识别,帮助开发者快速构建N
9 min read
AWS EC2 GPU 实例简介及费用对比
AI

AWS EC2 GPU 实例简介及费用对比

本文介绍了AWS EC2 GPU实例的性能与费用对比,帮助大家选择适合自己需求的实例类型。文中对比了全球区和中国区的实例价格,并推荐了几种性价比较高的实例类型。还简要介绍了各类GPU实例的特点和性能差异,为需要在AWS上运行大模型的场景提供一些参考。 一、实例性能与费用对比 想要在本地运行大模型(LLM),一定少不了GPU,这里介绍一下目前在AWS上全球区和中国区所有带英伟达的 GPU EC2实例 [1]。 我整理了一张表格,用与对比各个实例的性能参数与价格。对于性能主要考虑显卡的型号、显卡数量、总GPU内存大小。 对于实例价格,AWS 全球区域选取了俄亥俄州区域(us-east-2)作为参考 [2],表格展示了每小时的按需费用,以及按照汇率7.2折算成人民币的价格。中国区选取了宁夏区域(cn-northwest-1)作为参考 [3],有些实例类型宁夏区域未上线,费用使用/表示。 从GPU大小和费用来看,下面几个实例类型是比较推荐的: * g4dn.xlarge:配备1个NVIDIA T4显卡,共16GB GPU。是带有NVIDIA显卡最便宜的实例,适合运行
5 min read