AI是一辆时代快车,一旦踏上,你就不会再想回头!
——————————————
大模型如今已深度融入我们的工作与学习,但随之而来的安全问题也令许多人忧心:我把资料上传给大模型,会不会泄密?如何解决?
本文为您答疑解惑,并给出王珏老师个人的实践路径。
本文所有观点、结构、数据、截图均为个人手搓,AI帮助进行了文字润色、以及部分细节完善,特此说明。
一、大模型安全吗?
据央视财经频道2026年5月30日报道:
2023年,短短20天内,某国一家公司接连发生三起内部机密信息泄露事件。其中两起都是由于工程师为修复代码或提高芯片生产良率,将涉及半导体设备核心数据库的源代码直接粘贴到某人工智能模型的对话框里;而另一起,则因为员工使用人工智能模型整理公司内部会议记录,导致敏感信息外泄……
这则报道中的某国某公司,实际上指的是韩国三星电子。
2023年3月,三星半导体部门刚允许工程师使用ChatGPT辅助工作,不到20天便发生了3起数据泄露事故,随后三星不得不重新评估是否禁用ChatGPT。此事经央视转引,成为AI数据安全领域的标志性案例。
那么,问题来了:大模型到底安不安全?风险究竟来自哪里?
二、大模型为何不安全?
要回答这个问题,首先需要破除一个广泛流传的误解。
误解:"大模型会把我上传的资料吐给别人"
不少人担心:我把资料传给了大模型,大模型会不会在别人提问时,把我的资料吐出来?
这个担心,理论上概率极低。原因如下:
1.大模型的训练是一个非常漫长的过程,不可能实时学到你刚上传的材料。你今天上传的资料,明天就会出现在别人的回答里——这在技术上是几乎不可能的。
2.主流大模型公司均承诺:不使用用户上传的资料来训练模型。OpenAI、百度、阿里等均有明确的隐私政策声明。
3.即便将来公司使用用户资料进行训练,受影响的是模型的参数,而非原始文本。大模型不会直接背诵它学过的句子,更不可能完整输出一篇用户上传的文章。(从技术研究和黑客攻击角度,通过特殊技术手段确实有可能诱导模型输出部分训练数据,但这属于高级攻击手段,超出普通用户的能力范围。)
真正的风险:数据在别人家里
既然大模型不会主动泄密,那三星的员工究竟是怎么把机密泄露出去的?
你把资料上传到了大模型公司的服务器上。 数据在别人家里,是否泄密,就不是你能说了算的了。
这就像你把个人身份证复印件交给了银行、保险公司或房屋中介——对方承诺会保密,但是不是真正保密,你能完全掌控吗?事实上,大量个人信息泄露事件,正是通过这些渠道发生的。
具体来说,当你使用云端大模型(如ChatGPT、文心一言、通义千问等),你上传的每一份资料都会经过:
·大模型的服务器——数据首先存储在这里
·服务器管理员的眼睛——理论上他们有权限查看服务器上的数据
·数据管理员的系统——数据可能被备份、镜像、迁移,每一次操作都增加泄露风险
·可能的黑客攻击——任何联网的服务器都面临被攻破的风险
换言之,使用云端大模型,其安全状态大致相当于使用微信、网盘或电子邮箱:
服务商不会主动帮你泄密,但也无法100%保证保密。
一个实用的判断标准是:
实用判断标准 能发到微信、网盘、电子邮箱的资料, 也就可以上传到云端大模型。 |
三、如何确保数据安全、不泄密?
面对大模型,我们既不能因噎废食,也不能掉以轻心。关键在于区分数据类型,采取不同的防护策略。
场景一:隐私数据
对于这类数据,可以使用大模型,但上传之前必须进行脱敏处理。具体做法如下(下表为腾讯小龙虾WorkBuddy编写):
敏感信息类型 |
脱敏处理方法 |
身份证号 |
用【XXX】或【[身份证号]】替代,或仅保留出生年月部分 |
真实姓名 |
用【张某】【李某】或【[姓名]】替代 |
手机号码 |
用【138****1234】或【[手机号]】替代 |
真实学校/单位 |
用【某高校】【某单位】替代,或仅说【北京某高校】 |
家庭住址 |
仅保留省市级别,如【北京市】,删除具体街道门牌号 |
场景二:保密数据 / 重要科研数据
保密数据指:国家秘密、商业秘密、未发表的重要科研成果、内部技术文档等。这类数据一旦泄露,可能造成严重后果。
那么,既需要保密,又想使用大模型的强大能力,怎么办?
【终极解决方案】让模型完全运行在你自己的电脑上,数据不出本地,从根本上杜绝泄露风险!
四、本地部署大模型的个人实践
以下是王珏老师个人使用方法,我认为这是本地化部署最简便易行的方案,供大家参考。
(1)下载LMStudio
这是一个免费使用的软件,可加载本地大模型,并完全在本地运行。
【特别提示】对于保密性要求很高的数据,建议断网运行。因为只要你联网,就增加了很多泄密的可能性。
(2)在LMStudio中,下载大模型
建议使用Qwen 3.5开源大模型,这是由阿里集团开发的、免费公开的大模型,是全世界开源大模型中的No.1!
注意:Qwen 3.5有很多版本,每个版本的参数量是不同的,比如2B、4B、9B等(分别表示20亿参数、40亿参数、90亿参数)。
参数量越大,性能越好,对电脑的性能要求(主要是显存要求)就越高。
(3)在LMStudio中加载大模型、并使用
这一步就跟使用DeepSeek基本一样了:
五、部署本地大模型的硬件要求
说到这里,想必大家应该明白了:部署本地大模型,是有成本的!
当然,LMStudio、Qwen等都是免费的,但大模型的运行需要“独立显卡”的支持,而普通办公电脑的显卡都是集成的,无法支撑大模型的运行。
所以,你需要购买一台带有“独立显卡”的电脑,您可以在电子购物平台中,搜索“游戏本”、“图形工作站”、“图形工作站笔记本”等关键词:
再次强调:本地化部署大模型,主要应关注的指标是“显存容量”,必须保证:本地计算机中的显存容量> Qwen大模型的文件容量
比如下面这款电脑:
按其显存容量来看,安装Qwen 3.5 9B版本,就刚好合适(当然更低的4B、2B那就更可以了,不过注意:随着参数量下降、输出质量也会相应下降)。
本地化部署大模型,还有一个大家关心的问题:
2B、4B、9B版本的参数量如此之小(相比DeepSeek 671B),它的输出质量会不会很差呢?
以Qwen 3.5的前一代——Qwen 3的4B版本为例,它在多项测评指标上都接近、达到、甚至超越了DeepSeek V3的水平!
测评数据对比表如下:
同样对于Qwen 3来说,输出质量方面:9B > 4B >2B >0.8B。
而Qwen 3.5的各个版本性能,均优于Qwen 3的相应版本。
可见:如果本地化部署Qwen 3.5 4B版本,在输出质量方面,堪比DeepSeek V3——也就是2026年3月份之前的DeepSeek版本,足够一般情况下使用了。
最后有个小情况大家需要了解:
本地部署大模型,由于电脑的算力、各方面配置总体不高,导致输出首字的时间会更长。尤其是当我们喂给它大量资料时,更是如此。
毕竟,本地电脑的算力,和动辄上百万一台、而且往往是万卡集群的算力中心相比,是完全无法相提并论的。
以上内容摘自王珏老师《AI赋能教学科研提质》课程,欲将本课程引入本单位,请到本公众号首页输入”AI培训“,了解联系方式。
上一篇:高温天气如何应对?一图读懂→