当前位置:首页 > 科技资讯 > 正文

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅

在当今人工智能应用中,为了实现文档或笔记的AI搜索(即自然语言搜索),我们需要将文本内容转化为向量表示,这一过程称为嵌入(Embedding)。这些高维向量捕捉了语义信息,使得相似内容的向量在空间中彼此靠近。然而,这些向量通常有上千个维度,对人类来说只是一串冰冷的数字序列。

机器学习领域中的t-SNE算法,专用于将高维数据降维到二维或三维空间进行可视化,同时保持数据点之间的局部相似性。许多论文都使用它来展示嵌入效果。

我在自己的卡片笔记应用cflow中,所有笔记都已生成嵌入向量。出于好奇,我使用t-SNE将3000多则笔记的向量可视化在二维平面上,结果却让我沉迷其中,探索了一整晚。

功能简介

打开工具后,显示所有笔记的t-SNE坐标点。交互功能包括:点击点查看笔记内容,并显示该笔记的双链连接(引用和被引用);通过搜索框可以搜索并高亮笔记;还可以输入新文字,查看其在图上的位置。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第1张

  • 点击一个点后,下面显示笔记内容,图上也会通过绿线和蓝线连接显示它引用和被引用的笔记对应的点(也就是双链);
  • 上面第一个输入框可以搜索笔记,并且搜索出来的笔记都会红点高亮(应用内置支持各种搜索宏,可以进行精细化的搜索)。如果点击笔记正文里面的标签,也可以实现快速搜索这个标签的所有笔记。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第2张

  • 第二个输入框是可以输入一则新的文字,然后看一下它是在坐标里面的哪个位置(蓝色的点)。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第3张

📒体验效果

最初,我随机点击点查看笔记,并观察双链连接的位置,这成为一种有趣的“随机复习”。离群点往往是孤立的闪念笔记,如工作吐槽。

搜索笔记

成团的笔记引起我的注意,例如对多家餐馆的评价笔记,尽管没有直接关联,但因语义相似被聚在一起。输入新描述,点也落在附近。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第4张

每月“成果清单”笔记也聚成一团,仅有两篇离群的是关于思考成果清单作用的笔记,这很合理。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第5张

按标签搜索,如#AI和#知识管理,发现它们位置接近,说明我的笔记中这两个主题常关联。#CODING也在附近。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第6张

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第7张

但#投资标签分成两团,一团是投资理解,另一团是量化交易框架,这提示标签分类需调整。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第8张

双链连线大多连接相近笔记,但有些跨域连线更有趣,揭示了不同领域间的意外关联。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第9张

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第10张

探索笔记

输入新文字查看位置,是一种可视化搜索体验。例如,模拟成果清单的笔记会落在相应聚类,而无关内容则远离。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第11张

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第12张

语义理解很精确:“爬了华山”是成果,“这是华山”则不是,但两者语义接近。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第13张

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第14张

“好东西”和“吃了好东西”在语义上接近。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第15张

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第16张

“这是华山”和“爬了华山”也很接近。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第17张

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第18张

其他作用

在cflow的空间功能中,可视化帮助快速了解收藏夹内容的领域分布,以及稍后阅读中未读条目的位置,靠近已读条目的可能无需再读。

笔记嵌入向量的二维语义地图:t-SNE可视化探索之旅 嵌入向量  t-SNE 笔记可视化 语义分析 第19张

感悟

这个工具让我震撼于嵌入向量的威力:通过数学函数,文本被转化为向量,语义相近的文本在向量空间中接近,再经t-SNE降维可视化,完全不同的文字竟在二维图上聚在一起,这简直是机器学习的魔法。

原文链接:

https://sspai.com/post/103035?utm_source=wechat&utm_medium=social