WeClone-基于微信聊天记录训练个性化大语言模型（LLM）的开源工具-办公人导航

WeClone 是一个基于微信聊天记录和语音数据的开源项目，旨在通过微调大型语言模型（LLM）和语音合成技术，创建个性化的数字分身。该项目的核心目标是通过用户的微信聊天记录，训练出一个能够精准模仿用户语言风格、语气和口头禅的AI模型，并进一步生成高质量的声音克隆，以实现与用户在社交平台上的实时交互。

WeClone官网入口网址：https://www.weclone.love/
WeClone开源项目地址：https://github.com/xming521/WeClone

项目概述

WeClone 项目默认使用 ChatGLM3-6B 模型作为基础模型，通过微调该模型，结合用户的微信聊天记录，生成一个高度个性化的对话模型。该项目不仅支持微信聊天记录的处理，还支持 QQ、Telegram、企微、飞书等平台的机器人绑定，以创建个人数字分身。新特性包括对微信语音的克隆功能，但项目仍处于快速迭代阶段，效果可能随数据量和质量变化。

技术细节

数据处理：

项目推荐使用 PyWxDump 工具提取微信聊天记录，并将其导出为 CSV 格式，放置于指定目录。数据预处理阶段，运行 weclone – cli make – dataset 命令清洗提取到的 CSV 文件，可设置关键词过滤敏感信息，还能借助大语言模型给聊天数据打分，筛选匹配度不高的对话。
项目默认去除了敏感信息，并提供禁用词库，以确保数据安全和隐私保护。

模型微调：

WeClone 支持 LoRA 微调方法，该方法能够在较低的显存需求下完成模型训练，例如使用 0.5B 参数的大模型处理微信语音消息，生成与原始声纹相似度高达 95% 的克隆语音。
显存需求根据模型大小和精度不同而变化，从 4GB 到 120GB 不等。建议使用 uv 环境管理器创建 Python 环境并安装依赖项，注意音频克隆功能需额外配置。

语音克隆：

WeClone 提供了两种语音克隆方案：Spark – TTS 和 Llasa。其中，Spark – TTS 推荐方案，具有低资源需求特点，0.5B 模型仅需 4GB 显存，支持微信语音消息作为输入，语音片段最长支持 15 秒，能实现文本到语音的精确转换，并保持声音特征稳定性。
Llasa 支持 1B（9GB 显存）和 3B（16GB 显存）两种规格，同样能实现高质量声音克隆，为不同硬件条件的用户提供选择。

部署与交互：

WeClone 支持通过 AstrBot 框架将微调后的模型部署为聊天机器人，实现实时的自动化交互。AstrBot 是一个灵活的开源工具，可将 AI 模型接入微信、Telegram 等主流通讯平台，实现实时自动化交互。
项目强调了合法合规使用的重要性，禁止用于非法用途，包括窃取隐私和非法测试，任何不良后果由用户自行承担。

项目优势

低门槛性：硬件需求适中，普通电脑配备 16GB 显存即可运行。同时，项目采用模块化设计，各功能模块可独立使用，降低开发难度，便于开发者根据自身需求进行二次开发和定制。
高可定制性：支持个性化对话风格训练，通过微调模型，让数字分身精准复现用户的表达习惯、语言风格甚至口头禅。可自定义过滤词库，灵活控制训练数据，保障数据安全与个性化需求。
安全性考虑：内置隐私信息过滤机制，自动去除敏感信息。并且项目支持本地运行，数据存储在本地设备，最大程度保障用户数据安全。