pdist

D = pdist(X,Distance) 使用 Distance 指定的方法返回距离。

D = pdist(X,Distance,DistParameter) 使用 Distance 和 DistParameter 指定的方法返回距离。仅当 Distance 是 'seuclidean'、'minkowski' 或 'mahalanobis' 时，您才能指定 DistParameter。

D = pdist(X,Distance,CacheSize=cache) 或 D = pdist(X,Distance,DistParameter,CacheSize=cache) 使用大小为 cache MB 的缓存来加速欧几里德距离的计算。仅当 Distance 为 'fasteuclidean'、'fastsquaredeuclidean' 或 'fastseuclidean' 时，此参数才适用。

计算欧几里德距离并将距离向量转换为矩阵

计算成对观测值之间的欧几里德距离，并使用 squareform 将距离向量转换为矩阵。

创建包含三个观测值和两个变量的矩阵。

rng('default') % For reproducibility
X = rand(3,2);

计算欧几里德距离。

D = pdist(X)

D = 1×3

    0.2954    1.0670    0.9448

两两距离按 (2,1)、(3,1)、(3,2) 顺序排列。通过使用 squareform，您可以轻松定位观测值 i 和 j 之间的距离。

Z = squareform(D)

Z = 3×3

         0    0.2954    1.0670
    0.2954         0    0.9448
    1.0670    0.9448         0

squareform 返回一个对称矩阵，其中 Z(i,j) 对应于观测值 i 和 j 之间的两两距离。例如，您可以找到观测值 2 和 3 之间的距离。

Z(2,3)

ans = 
0.9448

将 Z 传递给 squareform 函数，以重现 pdist 函数的输出。

y = squareform(Z)

y = 1×3

    0.2954    1.0670    0.9448

squareform 的输出 y 和 pdist 的输出 D 是相同的。

计算闵可夫斯基距离

创建包含三个观测值和两个变量的矩阵。

rng('default') % For reproducibility
X = rand(3,2);

使用默认指数 2 计算闵可夫斯基距离。

D1 = pdist(X,'minkowski')

D1 = 1×3

    0.2954    1.0670    0.9448

用指数 1 计算闵可夫斯基距离，它等于城市街区距离。

D2 = pdist(X,'minkowski',1)

D2 = 1×3

    0.3721    1.5036    1.3136

D3 = pdist(X,'cityblock')

D3 = 1×3

    0.3721    1.5036    1.3136

使用自定义距离函数计算涉及缺失元素的两两距离

定义一个忽略 NaN 值坐标的自定义距离函数，并使用该自定义距离函数计算两两距离。

创建包含三个观测值和两个变量的矩阵。

rng('default') % For reproducibility
X = rand(3,2);

假设第一个观测值的第一个元素缺失。

X(1,1) = NaN;

计算欧几里德距离。

D1 = pdist(X)

D1 = 1×3

       NaN       NaN    0.9448

如果观测值 i 或 j 包含 NaN 值，函数 pdist 为 i 和 j 之间的两两距离返回 NaN。因此，D1(1) 和 D1(2)，即 (2,1) 和 (3,1) 之间的两两距离，是 NaN 值。

定义一个自定义距离函数 naneucdist，该函数忽略 NaN 值的坐标，并返回欧几里德距离。

function D2 = naneucdist(XI,XJ)  
%NANEUCDIST Euclidean distance ignoring coordinates with NaNs
n = size(XI,2);
sqdx = (XI-XJ).^2;
nstar = sum(~isnan(sqdx),2); % Number of pairs that do not contain NaNs
nstar(nstar == 0) = NaN; % To return NaN if all pairs include NaNs
D2squared = sum(sqdx,2,'omitnan').*n./nstar; % Correction for missing coordinates
D2 = sqrt(D2squared);

将函数句柄作为输入参量传递给 pdist，以使用 naneucdist 计算该距离。

D2 = pdist(X,@naneucdist)

D2 = 1×3

    0.3974    1.1538    0.9448

使用 `fasteuclidean` 距离加速欧几里德距离计算

创建一个由点组成的大型矩阵，然后测量 pdist 采用默认的 "euclidean" 距离度量时所用的时间。

rng default % For reproducibility
N = 10000;
X = randn(N,1000);
D = pdist(X); % Warm up function for more reliable timing information
tic
D = pdist(X);
standard = toc

standard = 
8.4967

接下来，使用 "fasteuclidean" 距离度量来测量 pdist 所用的时间。指定缓存大小为 10。

D = pdist(X,"fasteuclidean",CacheSize=10); % Warm up function
tic
D2 = pdist(X,"fasteuclidean",CacheSize=10);
accelerated = toc

accelerated = 
1.0926

计算加速后的计算比标准计算快多少倍。

standard/accelerated

ans = 
7.7766

对于此示例，加速版本的计算速度快三倍。

输入参数

`X` — 输入数据
数值矩阵

输入数据，指定为大小是 m×n 的数值矩阵。行对应于单个观测值，列对应单个变量。

数据类型: single | double

`Distance` — 距离度量
字符向量 | 字符串标量 | 函数句柄

距离度量，指定为字符向量、字符串标量或函数句柄，如下表中所述。

值	描述
`'euclidean'`	欧几里德距离（默认值）
`'squaredeuclidean'`	平方欧几里德距离。（此选项仅用于提高效率。它不满足三角不等式。）
`'seuclidean'`	标准化的欧几里德距离。每个观测值间坐标差都通过除以标准差 `S = std(X,'omitnan')` 中的对应元素来缩放。使用 `DistParameter` 为 `S` 指定不同值。
`'fasteuclidean'`	当预测变量的数目至少为 10 时，使用替代算法计算的欧几里德距离，该算法可以节省时间。在某些情况下，这种更快的算法会降低准确度。以 `'fast'` 开头的算法不支持稀疏数据。有关详细信息，请参阅算法。
`'fastsquaredeuclidean'`	当预测变量的数目至少为 10 时，使用替代算法计算的平方欧几里德距离，该算法可以节省时间。在某些情况下，这种更快的算法会降低准确度。以 `'fast'` 开头的算法不支持稀疏数据。有关详细信息，请参阅算法。
`'fastseuclidean'`	当预测变量的数目至少为 10 时，使用替代算法计算的标准化的欧几里德距离，该算法可以节省时间。在某些情况下，这种更快的算法会降低准确度。以 `'fast'` 开头的算法不支持稀疏数据。有关详细信息，请参阅算法。
`'mahalanobis'`	马氏距离，使用 `X` 的样本协方差 `C = cov(X,'omitrows')` 计算。使用 `DistParameter` 为 `C` 指定一个不同值，其中矩阵 `C` 是对称正定矩阵。
`'cityblock'`	城市街区距离
`'minkowski'`	闵可夫斯基距离。默认指数是 2。使用 `DistParameter` 指定其他指数 `P`，其中 `P` 是表示指数的正标量值。
`'chebychev'`	切比雪夫距离（最大坐标差）
`'cosine'`	1 减去点之间夹角的余弦值（视为向量）
`'correlation'`	1 减去点之间的样本相关性（视为值序列）
`'hamming'`	汉明距离，即相异坐标所占的百分比
`'jaccard'`	1 减去杰卡德系数，即非零相异坐标所占的百分比
`'spearman'`	1 减去样本观测值（视为值序列）之间的斯皮尔曼秩相关
`@distfun`	自定义距离函数句柄。距离函数的形式如下 function D2 = distfun(ZI,ZJ) % calculation of distance ... 其中 `ZI` 是包含单个观测值的 `1`×`n` 向量。 `ZJ` 是包含多个观测值的 `m2`×`n` 矩阵。`distfun` 必须接受具有任意数目的观测值的矩阵 `ZJ`。 `D2` 是距离的 `m2`×`1` 向量，`D2(k)` 是观测值 `ZI` 和 `ZJ(k,:)` 之间的距离。对于非稀疏数据，使用内置距离度量计算距离通常比使用函数句柄更快。

有关定义，请参阅距离度量。

当您使用 'seuclidean'、'minkowski' 或 'mahalanobis' 时，您可以指定额外的输入参量 DistParameter 来控制这些度量。您也可以像使用其他度量一样来使用这些度量，但这种情况下使用的是 DistParameter 的默认值。

示例: 'minkowski'

数据类型: char | string | function_handle

`DistParameter` — 距离度量参数值
正标量 | 数值向量 | 数值矩阵

距离度量参数值，指定为正标量、数值向量或数值矩阵。仅当您将 Distance 指定为 'seuclidean'、'minkowski' 或 'mahalanobis' 时，此参量才有效。

如果 Distance 是 'seuclidean'，DistParameter 是对应于每个维度的缩放因子的向量，指定为正向量。默认值为 std(X,'omitnan')。
如果 Distance 是 'minkowski'，DistParameter 是闵可夫斯基距离的指数，指定为正标量。默认值为 2。
如果 Distance 是 'mahalanobis'，DistParameter 是协方差矩阵，指定为数值矩阵。默认值为 cov(X,'omitrows')。DistParameter 必须是对称正定矩阵。

示例: 'minkowski',3

数据类型: single | double

`cache` — 格拉姆矩阵的大小，以 MB 为单位
`1e3` (默认) | 正标量 | `"maximal"`

格拉姆矩阵的大小，以 MB 为单位，指定为正标量或 "maximal"。仅当 Distance 参量为 'fasteuclidean'、'fastsquaredeuclidean' 或 'fastseuclidean' 时，pdist 函数才能使用 CacheSize=cache。

如果 cache 为 "maximal"，pdist 尝试为大小为 M×M 的整个中间矩阵分配足够的内存，其中 M 是输入数据 X 的行数。高速缓存的大小不必大到足以容纳整个中间矩阵，但必须至少大到足以容纳一个 M×1 向量。否则，pdist 使用标准算法来计算欧几里德距离。

如果距离参量为 'fasteuclidean'、'fastsquaredeuclidean' 或 'fastseuclidean'，并且 cache 值太大或为 "maximal"，则 pdist 可能会尝试分配超出可用内存容量的格拉姆矩阵。在这种情况下，MATLAB^® 会引发错误。

示例: "maximal"

数据类型: double | char | string

输出参量

`D` — 两两距离
数值行向量

两两距离，以长度为 m(m–1)/2 的数值行向量形式返回，对应于成对观测值，其中 m 是 X 中的观测值数目。

距离按 (2,1)、(3,1)、...、(m,1)、(3,2)、...、(m,2)、...、(m,m–1) 顺序排列，即按列向排列 m×m 距离矩阵的左下三角元素。观测值 i 和 j 之间的两两距离对应于 D((i-1)*(m-i/2)+j-i)，其中 i≤j。

您可以使用 squareform 函数将 D 转换为对称矩阵。Z = squareform(D) 返回 m×m 矩阵，其中 Z(i,j) 对应于观测值 i 和 j 之间的两两距离。

如果观测值 i 或 j 包含 NaN，则对于内置距离函数，D 中的对应值为 NaN。

D 通常在聚类或多维尺度分析中用作相异度矩阵。有关详细信息，请参阅Hierarchical Clustering以及 cmdscale、cophenet、linkage、mdscale 和 optimalleaforder 的函数参考页。这些函数接受 D 作为输入参量。

详细信息

距离度量

距离度量是定义两个观测值之间距离的函数。pdist 支持各种距离度量：欧几里德距离、标准化的欧几里德距离、马氏距离、城市街区距离、闵可夫斯基距离、切比雪夫距离、余弦距离、相关性距离、汉明距离、杰卡德距离和斯皮尔曼距离。

给定 m×n 数据矩阵 X，它被视为 m 个 (1×n) 行向量 x₁、x₂、...、x_m，向量 x_s 和 x_t 之间的各种距离定义如下：

欧几里德距离
$d_{s t}^{2} = (x_{s} - x_{t}) (x_{s} - x_{t})^{'} .$
欧几里德距离是闵可夫斯基距离的特例，其中 p = 2。
标准化的欧几里德距离
$d_{s t}^{2} = (x_{s} - x_{t}) V^{- 1} (x_{s} - x_{t})^{'},$
其中 V 是 n×n 对角矩阵，它的第 j 个对角线元素是 (S(j))²，其中 S 是对应于每个维度的缩放因子的向量。
马氏距离
$d_{s t}^{2} = (x_{s} - x_{t}) C^{- 1} (x_{s} - x_{t})^{'},$
其中 C 是协方差矩阵。
城市街区距离
$d_{s t} = \sum_{j = 1}^{n} | x_{s j} - x_{t j} | .$
城市街区距离是闵可夫斯基距离的特例，其中 p = 1。
闵可夫斯基距离
$d_{s t} = \sqrt[p]{\sum_{j = 1}^{n} {| x_{s j} - x_{t j} |}^{p}} .$
对于特例 p = 1，闵可夫斯基距离即城市街区距离。对于特例 p = 2，闵可夫斯基距离即欧几里德距离。对于特例 p = ∞，闵可夫斯基距离即切比雪夫距离。
切比雪夫距离
$d_{s t} = \max_{j} {| x_{s j} - x_{t j} |} .$
切比雪夫距离是闵可夫斯基距离的特例，其中 p = ∞。
余弦距离
$d_{s t} = 1 - \frac{x_{s} {x^{'}}_{t}}{\sqrt{(x_{s} {x^{'}}_{s}) (x_{t} {x^{'}}_{t})}} .$
相关性距离
$d_{s t} = 1 - \frac{(x_{s} - {\bar{x}}_{s}) {(x_{t} - {\bar{x}}_{t})}^{'}}{\sqrt{(x_{s} - {\bar{x}}_{s}) {(x_{s} - {\bar{x}}_{s})}^{'}} \sqrt{(x_{t} - {\bar{x}}_{t}) {(x_{t} - {\bar{x}}_{t})}^{'}}},$
其中
${\bar{x}}_{s} = \frac{1}{n} \sum_{j} x_{s j}$ 且 ${\bar{x}}_{t} = \frac{1}{n} \sum_{j} x_{t j}$ 。
汉明距离
$d_{s t} = (# (x_{s j} \neq x_{t j}) / n) .$
杰卡德距离
$d_{s t} = \frac{# [(x_{s j} \neq x_{t j}) \cap ((x_{s j} \neq 0) \cup (x_{t j} \neq 0))]}{# [(x_{s j} \neq 0) \cup (x_{t j} \neq 0)]} .$
斯皮尔曼距离
$d_{s t} = 1 - \frac{(r_{s} - {\bar{r}}_{s}) {(r_{t} - {\bar{r}}_{t})}^{'}}{\sqrt{(r_{s} - {\bar{r}}_{s}) {(r_{s} - {\bar{r}}_{s})}^{'}} \sqrt{(r_{t} - {\bar{r}}_{t}) {(r_{t} - {\bar{r}}_{t})}^{'}}},$
其中
- r_sj 是对 x₁_j、x₂_j、...x_mj 应用 tiedrank 计算所得的 x_sj 的秩。
- r_s 和 r_t 是 x_s 和 x_t 的基于坐标轴的秩向量，即 r_s = (r_s₁, r_s₂, ... r_sn)。
- ${\bar{r}}_{s} = \frac{1}{n} \sum_{j} r_{s j} = \frac{(n + 1)}{2}$ .
- ${\bar{r}}_{t} = \frac{1}{n} \sum_{j} r_{t j} = \frac{(n + 1)}{2}$ .

算法