在当今人工智能应用中,为了实现文档或笔记的AI搜索(即自然语言搜索),我们需要将文本内容转化为向量表示,这一过程称为嵌入(Embedding)。这些高维向量捕捉了语义信息,使得相似内容的向量在空间中彼此靠近。然而,这些向量通常有上千个维度,对人类来说只是一串冰冷的数字序列。
机器学习领域中的t-SNE算法,专用于将高维数据降维到二维或三维空间进行可视化,同时保持数据点之间的局部相似性。许多论文都使用它来展示嵌入效果。
我在自己的卡片笔记应用cflow中,所有笔记都已生成嵌入向量。出于好奇,我使用t-SNE将3000多则笔记的向量可视化在二维平面上,结果却让我沉迷其中,探索了一整晚。
打开工具后,显示所有笔记的t-SNE坐标点。交互功能包括:点击点查看笔记内容,并显示该笔记的双链连接(引用和被引用);通过搜索框可以搜索并高亮笔记;还可以输入新文字,查看其在图上的位置。
最初,我随机点击点查看笔记,并观察双链连接的位置,这成为一种有趣的“随机复习”。离群点往往是孤立的闪念笔记,如工作吐槽。
成团的笔记引起我的注意,例如对多家餐馆的评价笔记,尽管没有直接关联,但因语义相似被聚在一起。输入新描述,点也落在附近。
每月“成果清单”笔记也聚成一团,仅有两篇离群的是关于思考成果清单作用的笔记,这很合理。
按标签搜索,如#AI和#知识管理,发现它们位置接近,说明我的笔记中这两个主题常关联。#CODING也在附近。
但#投资标签分成两团,一团是投资理解,另一团是量化交易框架,这提示标签分类需调整。
双链连线大多连接相近笔记,但有些跨域连线更有趣,揭示了不同领域间的意外关联。
输入新文字查看位置,是一种可视化搜索体验。例如,模拟成果清单的笔记会落在相应聚类,而无关内容则远离。
语义理解很精确:“爬了华山”是成果,“这是华山”则不是,但两者语义接近。
“好东西”和“吃了好东西”在语义上接近。
“这是华山”和“爬了华山”也很接近。
在cflow的空间功能中,可视化帮助快速了解收藏夹内容的领域分布,以及稍后阅读中未读条目的位置,靠近已读条目的可能无需再读。
这个工具让我震撼于嵌入向量的威力:通过数学函数,文本被转化为向量,语义相近的文本在向量空间中接近,再经t-SNE降维可视化,完全不同的文字竟在二维图上聚在一起,这简直是机器学习的魔法。
原文链接:
https://sspai.com/post/103035?utm_source=wechat&utm_medium=social
本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116634.html