kd-tree(KDT) 时间复杂度证明
kd-tree 是一种可以高效处理 $k$ 维空间的数据结构
在算法竞赛类的题目中一般有 $k=2$
还有个比较有趣的结论,当 $k=1$ 时其实它就是一棵线段树
下文中的 $n$ 为kd-tree中的结点数量, $k$ 为kd-tree的维度
一、建树
一般建树有三种
- 随机划分(玄学)
- 轮换划分:每个维度轮着划分
- 方差划分:优先划分方差较大的维度
我可不想分析玄学的划分
1. 轮换划分
显然有递推式 $T(n) = 2T(n/2) + O(n)$
根据主定理,有 $a=2,b=2,\log_b{a}=1,f(n)=O(n)$
$\because \exists \epsilon \ge 0$ 使得 $f(n) = \Theta(n^{\log_b{a}}\log^{\epsilon}n)$ ,此时 $\epsilon = 0$
$\therefore T(n) = \Theta(n\log n)$
2. 方差划分
注意到 $T(n) = 2T(n/2) + O(kn)$
因此时间复杂度为 $T(n) = \Theta(nk\log n)$
一般在算法竞赛中,由于 $k$ 很小(一般 $k=2$ ),因此有
$T(n) = \Theta(n\log n)$
本划分方法能较好保证树高,且不易被卡
二、插入&删除
一般采用替罪羊树的插入&删除操作
利用重构子树的方式维持平衡
均摊复杂度为 $O(\log n)$
证明可以去看替罪羊树的,这里先留个坑以后补上
三、Range Query
个人感觉算kd-tree的核心操作吧
支持将一个超长方体区域内的点划分为 $O(\sqrt{n})$ 个点所管辖的区域
称 $R$ 为待查询的超长方体,则对于树上结点所管辖的超长方体分类,存在以下三种情况
- 与 $R$ 的交集为空
全部包含于 $R$ 内
与 $R$ 有交集且不包含于 $R$
算法在查询过程中,碰到第1,2类点不会继续递归其子树
因此算法的时间复杂度就与第3类点的数量有关
我们以轮换划分来分析,则在相邻的 $k$ 轮中,分别对每一维进行了划分
显然会产生 $2^k$ 个部分,每个部分的大小均为原来的 $\dfrac{1}{2^k}$
由于一个用于划分的超平面至多跨越 $2^{k-1}$ 个部分(可以由归纳法证明,此处略)
则有 $T(n) = 2^{k-1}T(n/2^k)+O(1)$
根据主定理,有 $a=2^{k-1},b=2^k,\log_b{a} = \dfrac{k-1}{k},f(n)=O(1)$
$\because \exists \epsilon > 0$ 使得 $f(n) = O(n^{\log_b{a}-\epsilon})$ ,此时 $\epsilon = \dfrac{k-1}{k}$
$\therefore T(n) = \Theta\left(n^{1-\frac{1}{k}}\right)$
当 $k=2$ 时, $T(n) = \Theta(\sqrt{n})$
参考文献
[1] KDT小记