如果您拥有自己的AI,100%本地,没有互联网和私人呢?本指南向您展示了如何在PC上运行LLM,即使不作为专业人士也是如此。
知道可以拥有自己的chatgpt,它可以直接在计算机上运行,而不会依赖在线服务?大型语言或LLM(大型语言模型)不再保留给云巨人。今天,使用正确的PC或Mac以及一些提示,您可以在家中安装它们。
为了什么 ?要保持数据私密,请避免使用昂贵的订阅或简单地在酱汁上破解AI。在本指南中,我们逐步向您解释一切。
什么是LLM?就像chatgpt吗?
和, 或者大语言模型(法语中的大型语言模型),它是在文本山上训练和生成人类语言的AI。具体而言,这意味着他可以讨论,回答问题,写东西甚至代码,有点像一个伟大的虚拟助手。原则是给出了指令(一个迅速的),并使用其数十亿个参数(类型的学习连接)来实现连贯的响应。 Chatgpt是由Openai创建的LLM的著名例子,但还有许多其他人,例如Llama,Mistral或Deepseek,通常是免费的和开源的。
走得更远
那么,它完全像chatgpt吗?不完全。 Chatgpt是LLM的超环和优化版本,护栏(限制)保持安全,并在云中准备就绪。可以在本地安装的LLM通常更为原始:它们取决于您如何配置它们和齿轮(PC或Mac)。它们可以具有强大的功能,甚至可以自定义 - 您可以通过自己的文本进行训练 - 但是它们并不总是具有与Chatgpt相同的清漆或访问权限。您还可以拥有与chatgpt一样直观的界面,这取决于您的需求。
为什么要在家安装LLM?
让我们从最大的优势开始:机密性。当您使用在线AI时,您的对话通常会在遥远的服务器上进行。 Chatgpt,Grok或Gemini的几次故障已经发生,这些服务远非100%可用,尤其是100%安全。
2023年在OpenAI的故障表明,用户历史记录可能会错误地逃跑 - 如果您谈论敏感数据,那不是很放心。有了当地的LLM,一切都保留在家里。您的计算机上没有任何东西。这是对企业或隐私偏执的权重论点。
然后是自治。无需互联网运行您的房屋AI。无论您是在乡村还是在飞机上,都会做出回应。在速度方面,如果您的计算机设备齐全,则避免来回网络,这有时会减慢云服务的速度。如您所见,即使在优化的MacBook M1上,本地LLM也超过了经典的PC响应能力。此外,还没有供应商施加的服务器故障或配额,您可以自由作为空气。
和成本,所有这些?乍一看,您必须在设备上进行一些投资(我们进一步谈论),但是从长远来看,它通常比为生成的单词支付云API的利润更高。毫不奇怪的是,发票或意外率提高。一旦您的PC或GPU准备就绪,您的AI只需花费几瓦。
最后,顶部的顶部是:您可以自定义模型。更改其设置,通过您自己的文本进行训练,甚至将其连接到您的个人应用程序 - 通过本地LLM,您可以控制。
但是要当心,这不是魔术。您需要一台固定道路的机器,并且安装可以恐吓初学者。最巨大的模型,即数百亿个参数的模型仍然无法触及常规PC-在那里,我们正在谈论超级计算机。也就是说,对于当前用途(聊天,写作,代码),较轻的开源型号可以解决问题。
选择哪些型号?
在模型方面,有一个选择。以DeepSeek R1为例。该开源型号于2025年初发布,制作了一个盒子,其70亿(7B)和670亿(67B)版本的参数制作了盒子。它在推理和生成代码方面非常强大,其7B版本在正确的PC上将镍变成镍。另一个恒星:由Meta创建的Llama 2。由于其灵活性和免费许可,即使是专业使用,它在7B,13B和70B上可用。 7B非常适合启动,70B需要重型材料水平。
还有Mistral 7b,法语。凭借其73亿个参数,在某些测试中的击败是两倍,同时保持光线。如果您拥有带有8 GB视频内存(VRAM)的图形卡,则非常适合。
Mistral Small是Mistral AI的最后一家LLM,这是著名的法国初创公司。该模型于2025年初以其“小3.1”版本发布,旨在轻巧有效,具有240亿参数(24b)。这个想法是,它足够强大,可以与诸如GPT-4O Mini之类的模型竞争。具体而言,只要您有一点可用的RAM,它就可以在PC或Mac上工作,而无需破坏硬件。
Google还拥有其开源LLM,称为Gemma,这是一个优化的本地执行模型家族。 Gemma 2B和Gemma 7b设计用于在适度的机器上操作,包括Mac M1/M2/M3/M4以及带有RTX GPU的PC。
LLM开源LLM每个月都在延长。让我们提到,从而GPT4ALL通过统一接口将数十个现成的模型汇总在一起。 GPT4All支持1000多种流行的开源车型,包括DeepSeek R1,Llama,Mistral,Vicuna,US和其他许多人。
简而言之,如果您拥有适当的机器,则可以选择从CPU上执行的小型超轻型模型,以便在CPU上执行几乎等于Chatgpt。整个过程是选择满足您需求(语言,任务类型,性能)和设备的一种。
物质级别,不需要超级计算机,即使它们变得越来越个性化,等今年启动...甚至。
走得更远
具有最近处理器(Intel i7属或AMD Ryzen 7),至少16 GB的RAM和NVIDIA图形卡(最低8 GB的VRAM最低限度)的PC。如果您的RTX 3060 GPU或更好,那就是幸福 - 多亏了Cuda,它加速了一切。
请注意a不是强制性的,而是强烈建议从交互式性能中受益。对于LLM,视频内存(VRAM)是必不可少的:它必须至少包含部分模型参数。上下文窗口的大小(对话的内存)也取决于可用的VRAM ...这就是为什么8 GB的VRAM最小值是最小值的原因。实际上:4位Llama 7b型号消耗〜4 GB电车,13B〜8 GB,30B〜16 GB,一个70B〜32 GB,甚至NVIDIA与RTX工具的聊天甚至需要RTX 30/40,至少具有8 GB VRAM和16 GB的RAM系统。
走得更远
在,由于金属等优化,即使没有专用的GPU,也没有专用的GPU,带有16 GB RAM的M1/M2芯片也可以很好地工作。显然,我们越有一个最近有力的手臂芯片,而我们拥有统一的RAM……越好。
走得更远

使用您的Intel PC,一切都可能
新的联想瑜伽珠宝已经到了。这些革命性的2合1计算机结合了英特尔的力量和出色的多功能性,已经以不可抗拒的价格在Boulanger提供。
贮存 ?在SSD上计划10至40 GB用于模型文件。这样,您已经可以在不挣扎的情况下运行Mistral 7b或Llama 2 13B。强烈建议使用SSD更快地将模型加载到内存中……如果您打算尝试几种型号,则需要几十个免费。
在我们的机器上安装LLM
如上所述,这完全取决于您的需求,目标和技术水平。
等级 | 客观的 | 工具的示例 |
🟢初学者 | 简单界面,准备使用 | LM Studio,GPT4All,与RTX聊天 |
🔵中介 | 命令行,更精确的控制 | Ollama,Llama.cpp,局部 |
🔴高级 | 人才,微调 | 拥抱面孔变压器,文字生成-webui |
我想你现在很兴奋,所以让我们去练习。
初学者:视觉接口
这里的想法是下载模型并像聊天机器人一样使用它,而无需浏览命令行。
LM Studio
如果您正在寻找无需命令行的Ready -to -use解决方案,并且看起来像Chatgpt的宜人界面,那么LM Studio可能是最佳选择。此应用程序允许您下载模型,将其扔掉并与它聊天几下。
在Windows,MacOS和Linux上,安装很快。只需访问官方网站,lmstudio.ai, 的对应于您的系统并执行它。

LM Studio
在Mac上,只需在应用程序文件夹中滑动应用程序即可。在Windows上,启动可执行文件,并且是经典的安装步骤。 LM Studio开放后,该界面可为您提供语言模型。专门的部分向您展示了可用的模型,并提供了描述和建议。为了在绩效和响应质量之间保持良好的平衡,Mistral 7b是一个很好的起点。它的重量仅为几个GO,并且在最近的机器上转弯。
下载模型后,请前往“ CAT”选项卡。您可以输入任何问题,AI立即在本地回答,而无需浏览远程服务器。如果您想进一步推动,LM Studio允许您调整参数,例如响应长度,模型的创造力甚至对话内存的管理。
GPT4ALL
如果您想要替代方案,GPT4ALL提供了类似的方法。它的界面更为基本,但使用易于使用。同样,您可以下载诸如Llama 2或DeepSeek之类的开源型号,并与直观的CAT界面在本地使用它们。
安装同样容易:自从gpt4all.io,要安装它,然后选择一个开始聊天的模型。

GPT4ALL
与RTX聊天
如果有NVIDIA RTX图形卡,您也可以尝试与RTX聊天,NVIDIA直接提供的解决方案。
它经过特殊优化,以利用RTX GPU,并允许您运行具有令人印象深刻的流动性的Llama 2或Mistral 7b的模型。下载完成并且安装与视频游戏一样简单。该应用程序提供了一个精致的接口,您可以直接测试模型并查看GPU提供的性能。

NVIDIA与RTX聊天
中介:命令线和多伏
如果您想对模型的操作进行更多控制,则通过命令行运行它是一个绝佳的选择。
奥拉马
这使您可以更精细地管理模型,优化其性能,甚至从其他应用程序中调用它们。使用LLM在线命令的最访问的解决方案,没有太多复杂性,是。

奥拉马
在Mac和GNU/Linux上,由于Homebrew,安装特别简单。终端中只有一个订单就足够了:Winget安装Ollam你curl -fssl https://ollama.ai/install.sh | sh。
安装后,使用同样简单。要下载并运行模型,只需输入终端:奥拉马(Ollama)经营米斯特拉尔(Mistral)…该模型将自动下载并在几秒钟内启动。您现在可以直接在命令行上问他任何问题。
如果您想对模型进行更精美的控制,火焰.cpp是一种更具技术性但高效的替代方案。它可以在所有平台上使用,并根据可用设备优化模型的执行。安装需要一些其他步骤。
如果您想体验不同的量化水平,则Llama.cpp特别有用,也就是说,通过压缩某些计算以提高性能来减少模型的模型大小。它是在适度机器上获得更好性能的绝佳工具,同时保持良好的答案质量。
使用LLM Online命令还可以使您访问更灵活的集成。例如,您可以将Ollama或Llama.cpp连接到Python脚本,或在服务器模式下使用它们与本地API进行交互。与标准图形接口所提供的相比,这是拥有更强大和适应性的AI助手的好方法。
如果您想将LLM集成到网站中,则是如何将Ollama作为当地API展示:Ollama服务…这打开了与Openai兼容的APIhttp:// localhost:11434。现在,您可以在本地质疑您的LLM,而无需外部依赖。
局部
如果您正在寻找不限于文本生成的更通用的解决方案,局部是一个绝佳的选择。与专注于LLM的LM Studio或GPT4All这样的工具不同,Localai被设计为OpenAI API的开源替代品。它不仅允许执行语言模型,还可以管理高级功能,例如音频转录,图像生成或与矢量数据库集成。
安装非常简单,可在Windows,MacOS和Linux上使用。在Linux或Mac机器上,可以通过Docker安装它,以避免必须手动配置依赖项。一个命令足以启动Ready -to使用Localai服务器,一切都记录在案。
启动后,Localai提供了与OpenAI兼容的100%API,这意味着所有使用OpenAI请求的应用程序(如ChatGpt API)都可以将其重定向到您的本地服务器。然后您可以添加型号通过直接从拥抱脸或使用诸如Llama.cpp之类的后端进行文本模型下载,Whisper.cpp进行音频转录或稳定的图像生成扩散。
如果您对命令行感到满意,并且正在寻找远远超出简单聊天机器人的解决方案,那么Localai是一个应有的强大工具,值得测试。通过结合文本模型,语音识别,图像的生成和嵌入,它将您的计算机转换为真正的本地AI助手,能够处理不同类型的数据而无需在Internet上发送请求。
高级:个性化和微调
如果您想进一步走,可以个性化模型,甚至可以通过自己的数据进行训练。为此,参考工具是拥抱面部变压器。此开源库使您可以以超灵活的方式下载,执行,修改和培训模型。
安装相对简单。在Windows,MacOS和Linux上,只需使用PIP安装必要的库:PIP安装火炬变压器加速。
然后,事情变得艰难,您必须使用Python脚本来加载模型并生成文本……。这种方法的优点是您可以更改超副标者,完善答案并非常容易测试多个模型。
如果要使用自己的数据自定义模型,则可以使用Qlora,该技术使您可以在不需要巨大的计算能力的情况下转动LLM。例如,这使您可以在特定领域(财务,法律,健康)上专门使用模型。但是在我们之间,如果您到达那里,您就不需要我们。
Mac mini M4的示例
如果您从头开始,没问题。随着Mac Mini M4的到来,苹果进一步推动了其苹果硅芯片的性能。
凭借其低价,这台机器是执行本地语言模型,实时进行音频转录的理想平台,甚至可以产生具有令人印象深刻的性能的IA图像和视频。
具有16 GB RAM的MAC MINI M4可以毫无困难地运行7B到13B的型号。诸如Mistral 7b之类的模型(用于金属和Apple GPU)具有最低能源的即时响应。就个人而言,我使用DeepSeek R1蒸馏(QWEN 7B)。
您可以轻松地使用LM Studio或Ollama在不穿过云的情况下与当地的AI进行交互。如果您在书面,编程或数据分析中工作,MAC MINI将成为一个超强的个人助理,能够生成文本,汇总文档,甚至直接从开源模型中分析PDF。
在Mac Mini M4上,Ollama利用了这些优化,并允许您在7B型号上以10到15个令牌/秒的速度生成文本,因此它比免费的Chatgpt更好。
MAC MINI M4具有24或32 GB的RAM或更多,可以管理较重的型号,例如Llama 2 13B Precision,甚至是优化版本中的30B型号。这使您可以得到更详细和更精确的答案,同时留在100%的本地环境中。如果您从事研究或数据科学工作,则可以训练较小的型号,使用Qlora完善它们,并直接在Mac上运行,而无需浏览远程服务器。
那么,我们正在尝试吗?
如您所见,在个人计算机上运行LLM是一个在2025年完全可行的项目,其中包括非专家用户,这要归功于开源模型和简化的安装工具的进度。
生成的AI不再用于数据中心:现在每个人都可以打开其PC上的“个人chatgpt”,只要他们花一点时间和资源为此。
想加入爱好者社区吗?我们的不和谐您欢迎您,这是一个围绕技术的相互援助和热情的地方。