TSNE原理性简单解释

TSNE目的：将高维数据降维并进行可视化，输入的数据为N个样本，每个样本具有M个特征（N_sample，M_feature）。输入的标签（N_sample，）。基本原理：通过映射变换将每个数据点映射到相应的概率分布上。具体的是，在高维空间中使用高斯分布将距离转换为概率分布，在低维空间中，使用长尾分布来将距离转换为概率分布，从而是的高维度空间中的中低等距离在映射后能够有个较大的距离，使得降维时能够避

炸那个炸

17163人浏览 · 2022-03-25 19:16:22

炸那个炸 · 2022-03-25 19:16:22 发布

TSNE目的：将高维数据降维并进行可视化，输入的数据为N个样本，每个样本具有M个特征（N_sample，M_feature）。输入的标签（N_sample，）。

基本原理：通过映射变换将每个数据点映射到相应的概率分布上。具体的是，在高维空间中使用高斯分布将距离转换为概率分布，在低维空间中，使用长尾分布来将距离转换为概率分布，从而是的高维度空间中的中低等距离在映射后能够有个较大的距离，使得降维时能够避免过多关注局部特征，而忽视全局特征。

from sklearn.manifold import TSNE
from sklearn.datasets import load_iris,load_digits
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np
%config InlineBackend.figure_format = "svg"

digits = load_digits()
X_tsne = TSNE(n_components=2, random_state=33).fit_transform(digits.data)
X_pca = PCA(n_components=2).fit_transform(digits.data)

font = {"color": "darkred",
        "size": 13, 
        "family" : "serif"}

plt.style.use("dark_background")
plt.figure(figsize=(8.5, 4))
plt.subplot(1, 2, 1) 
plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=digits.target, alpha=0.6, 
            cmap=plt.cm.get_cmap('rainbow', 10))
plt.title("t-SNE", fontdict=font)
cbar = plt.colorbar(ticks=range(10)) 
cbar.set_label(label='digit value', fontdict=font)
plt.clim(-0.5, 9.5)
plt.subplot(1, 2, 2)
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=digits.target, alpha=0.6, 
            cmap=plt.cm.get_cmap('rainbow', 10))
plt.title("PCA", fontdict=font)
cbar = plt.colorbar(ticks=range(10)) 
cbar.set_label(label='digit value', fontdict=font)
plt.clim(-0.5, 9.5)
plt.tight_layout()