堆和排序

2023-12-11 18:17:16 +08:00 · 2023-12-11 18:17:16 +08:00 · f1355f72af
parent 4c1eb8c883
commit f1355f72af
10 changed files with 491 additions and 0 deletions
--- a/hash_map/hash_map.py
+++ b/hash_map/hash_map.py
@ -0,0 +1,82 @@
+"""
+hash map 是将数据项映射到列表中的对应位置，由于有这样的映射关系，
+可以使用 hash map 实现哈希查找，查找复杂度为 O(1)
+
+计算映射的方式就是 hash 函数，一般采用对列表长度取余的方式
+
+hash 表重要指标：负载，表示已被占用的空间/总空间，该比值也被称谓负载因子。
+当负载因子太大时，需要扩容，
+
+hash 函数，例如使用项值直接对一个数取余，会存在几个项取余的结果相同，这样就带来了冲突，
+也就是一个槽对应了多个值
+
+冲突解决：
+1. 最简单的方法是从原哈希冲突处开始，以顺序方式移动槽，直到遇到第一个空槽。
+遇到末尾后可以循环从头开始查找，这种冲突解决方法被称为开放寻址法。线性查找的缺点是数据项聚集。
+
+2. 处理数据项聚集的一种方式是扩展开放寻址技术，发生冲突时不是顺序查找下一个开放
+槽，而是跳过若干个槽，从而更均匀地分散引起冲突的项。比如每次隔三个槽来查看。
+
+在冲突后寻找另一个槽的过程叫重哈希（重散列, rehash），
+其计算方法如下：rehash(pos) = (pos + n)%size
+
+要注意，跳过的大小必须使得表中的所有槽最终都能被访问。为确保这一点，建议表大
+小是素数，这也为什么示例中要使用 11。
+
+3. 解决冲突的另一种方法是拉链法，也就是说对每个冲突的位置，我们设置一个链表来保
+存数据项，如图（5.5）。
+    - 查找时，发现冲突后就再到链上顺序查找，复杂度为 O(n)。当然，
+    冲突链上的数据可以排序，然后再借助二分查找，这样哈希表复杂度为 O(log2(n))。
+    - 拉链法是许多编程语言内置的哈希表数据结构解决冲突的默认实现
+
+4. 如果采用扩容来解决冲突，需要将原来表中的键值对重新计算
+"""
+
+
+class HashMap:
+
+    def __init__(self, size: int):
+        self.size = size
+        self.slot_used = 0
+        self.data: list[int | None] = [None for _ in range(self.size)]
+        self.slot: list[int | None] = [None for _ in range(self.size)]
+
+    def hash(self, key: int) -> int:
+        return key % self.size
+
+    def rehash(self, key: int) -> int:
+        return (key + 3) % self.size
+
+    def load(self):
+        return self.slot_used / self.size
+
+    def expand(self):
+        self.slot += [None for _ in range(self.size)]
+        self.data += [None for _ in range(self.size)]
+        self.size *= 2
+
+
+
+    def insert(self, key: int, value: int):
+        if self.load() >= 0.75:
+            self.expand()
+
+        pos = self.hash(key)
+        if not self.slot[pos]:
+            self.slot[pos] = key
+            self.data[pos] = value
+        else:
+            while self.slot[pos]:
+                pos = self.rehash(pos)
+
+            self.slot[pos] = key
+            self.data[pos] = value
+
+        self.slot_used += 1
+
+
+    def remove(self, key: int) -> int | None:
+        if self.slot_used == 0:
+            return None
+
+        pos = self.hash(key)
--- a/heap/heap.py
+++ b/heap/heap.py
@ -0,0 +1,95 @@
+"""
+堆：是一种满足特定条件的完全二叉树，主要分为
+- [大顶堆]：任意节点的值 >= 其子节点
+- [小顶堆]：任意节点的值 <= 其子节点
+
+堆作为完全二叉树的一个特例，具有以下特性。
+
+- 最底层节点靠左填充，其他层的节点都被填满。
+- 我们将二叉树的根节点称为“堆顶”，将底层最靠右的节点称为“堆底”。
+- 对于大顶堆（小顶堆），堆顶元素（根节点）的值分别是最大（最小）的。
+
+实际上，堆通常用于实现优先队列，大顶堆相当于元素按从大到小的顺序出队的优先队列，
+所以堆可以使用数组来保存。
+
+由于是完全二叉树，除堆底外，每个节点都有两个子节点，所以在数组中很容易确定子节点和父节点的位置
+假设父节点的下标 p, 则其左右子节点的下标为 2p 和 2p+1。
+
+注意下标0不能存数据因为，因为 2p == 0
+"""
+
+
+# 小顶堆，小顶堆添加数据时，小数据要向上冒到正确的位置
+class Heap:
+    def __init__(self):
+        self.size = 0
+        self.data = [0]
+
+    # 获取父节点下标
+    def parent(self, c: int):
+        return c >> 1
+
+    def left_child(self, c: int):
+        return c << 2
+
+    def right_child(self, c: int):
+        return c << 2 + 1
+
+    def push(self, value):
+        self.data.append(value)
+        self.size += 1
+        # 添加到堆底，需要向上冒泡
+        self.move_up(self.size)
+
+    # 小数据冒泡
+    def move_up(self, c: int):
+        while True:
+            p = self.parent(c)
+            if p <= 0:
+                break
+            if self.data[c] < self.data[p]:
+                self.data[c], self.data[p] = self.data[p], self.data[c]
+            c = p
+
+    # 删除堆底的最后一个元素
+    def pop(self):
+        return self.data.pop()
+
+    # 删除小顶堆中的最小值，也就是根节点
+    def pop_min(self):
+        if 0 == self.size:
+            return None
+
+        if 1 == self.size:
+            # 只有一个元素，直接弹出
+            self.size -= 1
+            return self.data.pop()
+
+        self.data[1], self.data[self.size] = self.data[self.size], self.data[1]
+        val = self.pop()
+        self.move_down(1)
+        return val
+
+    # 大数据下沉
+    def move_down(self, c: int):
+        while True:
+            lc = self.left_child(c)
+            if lc > self.size:
+                # 没有左子节点，故而当然没有右子节点
+                break
+
+            mc = self.min_child(c)
+            if self.data[c] > self.data[mc]:
+                self.data[c], self.data[mc] = self.data[mc], self.data[c]
+
+            c = mc
+
+    # 获取两个子节点中的较小节点的下标
+    def min_child(self, c):
+        lc, rc = self.left_child(c), self.right_child(c)
+        if rc > self.size:
+            return lc
+        if self.data[lc] > self.data[rc]:
+            return rc
+        else:
+            return lc
--- a/sort/bucket_sort.py
+++ b/sort/bucket_sort.py
@ -0,0 +1,34 @@
+"""
+桶排序：通过设置一些具有大小顺序的桶，每个桶对应一个数据范围，将数据平均分配到各个桶中；然后，在每个桶内部分别执行排序；
+最终按照桶的顺序将所有数据合并。
+
+前述几种排序算法都属于“基于比较的排序算法”，它们通过比较元素间的大小来实现排序。
+此类排序算法的时间复杂度无法超越 O(nlog2n)
+
+考虑一个长度为 n 的数组，其元素是范围 [0, 1) 内的浮点数:
+
+1. 初始化 k个桶，将 n 个元素分配到 k 个桶中。
+2. 对每个桶分别执行排序（这里采用编程语言的内置排序函数）。
+3. 按照桶从小到大的顺序合并结果。
+"""
+
+def bucket_sort(nums: list[int]):
+    # 初始化 k = n / 2 个桶，预期向每个桶分配2个元素
+    k = len(nums) // 2
+    buckets = [[] for _ in range(k)]
+
+    # 1. 将数组元素分配到对应的桶中
+    for num in nums:
+        # 输入数据范围为 [0, 1)，所以使用 num*k 可将 num*k 映射到范围[0, k-1]
+        i = int(num * k)
+        buckets[i].append(num)
+
+    for bucket in buckets:
+        # 对各个桶内的数排序
+        bucket.sort()
+
+    i = 0
+    for bucket in buckets:
+        for num in bucket:
+            nums[i] = num
+            i += 1
--- a/sort/counting_sort.py
+++ b/sort/counting_sort.py
@ -0,0 +1,28 @@
+"""
+计数排序：
+
+1. 遍历数组，找出其中的最大数字，记为 m，然后创建一个长度为 m+1 的辅助数组 counter 。
+2. 借助 counter 统计 nums 中各数字的出现次数，其中 counter[num] 对应数字 num 的出现次数。
+3. 统计方法很简单，只需遍历 nums（设当前数字为 num），每轮将 counter[num] 增加 1 即可。
+4. 由于 counter 的各个索引天然有序，因此相当于所有数字已经排序好了。接下来，我们遍历 counter ，根据各数字出现次数从小到大的顺序填入 nums 即可。
+"""
+
+
+def counting_sort(nums: list[int]):
+    m = max(nums)
+
+    counter = [0] * (m + 1)
+    for num in nums:
+        counter[num] += 1
+
+    i = 0
+
+    for index, value in enumerate(counter):
+        if value > 0:
+            for j in range(value):
+                nums[i] = index
+                i += 1
+
+nums = [54, 32, 99, 18, 75, 31, ]
+counting_sort(nums)
+print(nums)
--- a/sort/heap_sort.py
+++ b/sort/heap_sort.py
@ -0,0 +1,46 @@
+"""
+堆排序：将待排序的序列构建成一个小顶堆，此时，整个序列的最小值就是
+堆顶根节点。将其与末尾元素进行交换，此时末尾就为最小值。这个最小值不再计算到堆内，
+那么再将剩余的 n - 1 个元素重新构造成一个堆，这样会得到一个新的最小值。此时将该最
+小值再次交换到新堆的末尾，这样就有了两个排序的值。重复这个过程，直到得到一个有序
+序列。当然，小顶堆得到的是降序排序，大顶堆得到的才是升序排序。
+"""
+
+
+def sift_down(nums: list[int], n: int, i: int):
+    """堆的长度为 n ，从节点 i 开始，从顶至底堆化"""
+    while True:
+        # 判断节点 i, l, r 中值最大的节点，记为 ma
+        l = 2 * i + 1  # i 的左子节点
+        r = 2 * i + 2  # i 的右子节点
+        ma = i
+        # 选择两个子节点中更大的那个
+        if l < n and nums[l] > nums[ma]:
+            ma = l
+        if r < n and nums[r] > nums[ma]:
+            ma = r
+        # 若节点 i 最大或索引 l, r 越界，则无须继续堆化，跳出
+        if ma == i:
+            break
+        # 交换两节点，将大节点向上移
+        nums[i], nums[ma] = nums[ma], nums[i]
+        # 循环向下堆化
+        i = ma
+
+
+def heap_sort(nums: list[int]):
+    """堆排序"""
+    # 建堆操作：堆化除叶节点以外的其他所有节点
+    for i in range(len(nums) // 2 - 1, -1, -1):
+        sift_down(nums, len(nums), i)
+    # 从堆中提取最大元素，循环 n-1 轮
+    for i in range(len(nums) - 1, 0, -1):
+        # 交换根节点与最右叶节点（交换首元素与尾元素）
+        nums[0], nums[i] = nums[i], nums[0]
+        # 以根节点为起点，从顶至底进行堆化
+        sift_down(nums, i, 0)
+
+
+nums = [54, 32, 99, 18, 75, 31, ]
+heap_sort(nums)
+print(nums)
--- a/sort/insert_sort.py
+++ b/sort/insert_sort.py
@ -0,0 +1,54 @@
+"""
+插入排序：插入数据项来实现排序，始终在数据集的较低位置处维护一个有序的子序列，然后
+将新项插入子序列，使得子序列扩大，最终实现集合排序
+
+1. 假设开始的子序列只有一项，位置为 0
+2. 对于项 1 至 n-1，从后往前遍历前面的所有项，
+3. 比较过程中，每个大于当前项的项，将其值赋值到后一项，相当于往后挪一位
+   直到找到小于等于当前项的位置，并这个位置的值改为当前项
+"""
+
+
+def insert_sort(nums: list[int]):
+    for i in range(1, len(nums)):
+        pos = i
+        cur = nums[i]
+
+        while pos > 0 and cur < nums[pos - 1]:
+            # 将比当前值大的往后移一位
+            nums[pos] = nums[pos - 1]
+            pos -= 1
+        nums[pos] = cur
+
+
+"""
+插入排序优化：由于子序列是已经排序好的序列，所以在插入时可以使用二分查找，
+快速地在子序列中找到插入的位置
+"""
+
+
+def bin_insert_sort(nums: list[int]):
+    for i in range(1, len(nums)):
+        pos = i
+        cur = nums[i]
+        low = 0
+        high = pos - 1
+
+        while low < high:
+            mid = (low + high) >> 1
+            if cur > nums[mid]:
+                low = mid + 1
+            else:
+                high = mid - 1
+
+        for j in range(i, low, -1):
+            nums[j] = nums[j - 1]
+
+        if nums[low] > cur:
+            nums[low] = cur
+        else:
+            nums[low + 1] = cur
+
+nums = [47, 29, 71, 99, 78, 19, 24, 47]
+bin_insert_sort(nums)
+print(nums)
--- a/sort/merge_sort.py
+++ b/sort/merge_sort.py
@ -0,0 +1,51 @@
+"""
+归并排序：类似快排，通过不断将列表折半来进行排序。
+如果集合为空或只有一个项，则按基本情况排序。
+如果有多项，则分割集合，并递归调用两个区间的归并排序。
+一旦对这两个区间排序完成，就执行合并操作。
+"""
+
+
+def merge_sort(nums: list[int], left: int, right: int, ):
+    if left >= right:
+        return
+
+    mid = (left + right) >> 1
+    merge_sort(nums, left, mid)
+    merge_sort(nums, mid + 1, right)
+    merge(nums, left, mid, right)
+
+
+def merge(nums: list[int], left: int, mid: int, right: int):
+    # 临时数组存放合并后的结果
+    temp = [0] * (right - left + 1)
+
+    # 初始化左、右字序列的起始索引，左从left开始，右从mid开始
+    i, j, k = left, mid + 1, 0
+
+    # 左边第一个肯定是左边最小的，右边第一个肯定是右边最小的
+    while i <= mid and j <= right:
+        if nums[i] <= nums[j]:
+            temp[k] = nums[i]
+            i += 1
+        else:
+            temp[k] = nums[j]
+            j += 1
+
+        k += 1
+
+    # 比较终结时，可能由于对折不均，仍有一边右数没有添加到临时列表中
+    while i <= mid:
+        temp[k] = nums[k]
+        i += 1
+        k += 1
+
+    while j <= right:
+        temp[k] = nums[j]
+        j += 1
+        k += 1
+
+    # 将临时数组中的元素复制回原数组对应的位置
+    for k in range(len(temp)):
+        nums[left + k] = temp[k]
+
--- a/sort/quick_sort.py
+++ b/sort/quick_sort.py
@ -0,0 +1,46 @@
+"""
+核心：将小于基准的数移到左边，将大于基准的数移到右边，再对左右分区继续执行快速排序
+1. 选择列表中的一个数作为基准，一般是第一个元素
+2. 设置左右两个指针，分别指向第一个元素和最后一个元素
+3. 向左移动右指针，若发现比基准值小的值，则将其与基准值交换
+4. 接着向右移动左指针，若发现比基准值大的值，则将其与基准值交换
+5. 重复 3, 4，直到 左右指针相遇
+6. 最后基准值所在的位置，左边都比其小，右边都比其大
+7. 再对左右区域指向快排
+
+复杂度为 O(n^2)
+"""
+
+
+def quick_sort(nums: list[int], low: int, high: int):
+    i = low
+    j = high
+    # 一开始的基准值为 nums[i]
+    if low >= high:
+        return
+    while i < j:
+        while i < j and nums[j] >= nums[i]:
+            j -= 1
+
+        if i < j:
+            # 交换后基准值移到右边
+            nums[i], nums[j] = nums[j], nums[i]
+            i += 1
+
+        while i < j and nums[i] < nums[j]:
+            i += 1
+
+        if i < j:
+            # 交换后基准值移到左边
+            nums[j], nums[i] = nums[i], nums[j]
+            j -= 1
+
+    # 基准值位置是i，所以 low 到 i-1 是小区基准值的区域
+    quick_sort(nums, low, i - 1)
+    #
+    quick_sort(nums, j + 1, high)
+
+
+nums = [47, 29, 71, 99, 78, 19, 24, 47]
+quick_sort(nums, 0, len(nums)-1)
+print(nums)
--- a/sort/shell_sort.py
+++ b/sort/shell_sort.py
@ -0,0 +1,33 @@
+"""
+希尔排序：也称递减递增排序，它将原始集合分为多个较小的子集合，然后对每个集合
+运用插入排序
+1. 当增量为3时，表示每相隔两个的元素（索引差3）为一个子序列，将原序列分为了三组子序列
+2. 对每个子序列使用插入排序，此时每个子序列就是有序的
+3. 逐渐减小增量，重复第二2步
+4. 当增量为1时，再执行一次插入排序，此时完整序列就是有序的
+
+希尔排序的复杂度分析稍微复杂一些，但其大致分布在 O(n) 到 O(n^2) 之间。
+"""
+
+
+def shell_sort(nums: list[int]):
+    step = len(nums) >> 1
+    while step >= 1:
+        # 分成了 step 个子序列，循环 step 次，对每个子序列使用插排
+        for i in range(step):
+            for j in range(i + step, len(nums), step):
+                pos = j
+                cur = nums[j]
+                # 无法对子序列使用二分查找，查找插入位置，因为中间位置无法确定
+                while pos >= step and cur < nums[pos - step]:
+                    # 将比当前值大的往后移 step 位
+                    nums[pos] = nums[pos - step]
+                    pos -= step
+
+                nums[pos] = cur
+        step >>= 1
+
+
+nums = [47, 29, 71, 99, 78, 19, 24, 47]
+shell_sort(nums)
+print(nums)
--- a/test/test_sort.py
+++ b/test/test_sort.py
@ -0,0 +1,22 @@
+from sort.quick_sort import *
+from sort.insert_sort import *
+from sort.merge_sort import *
+
+def test_quick_sort():
+    nums = [47, 29, 71, 99, 78, 19, 24, 47]
+    assert [19, 24, 29, 47, 47, 71, 78, 99] == quick_sort(nums, 0, len(nums) - 1)
+
+
+def test_insert_sort1():
+    nums = [47, 29, 71, 99, 78, 19, 24, 47]
+    assert [19, 24, 29, 47, 47, 71, 78, 99] == insert_sort(nums)
+
+
+def test_insert_sort2():
+    nums = [47, 29, 71, 99, 78, 19, 24, 47]
+    assert [19, 24, 29, 47, 47, 71, 78, 99] == bin_insert_sort(nums)
+
+
+def test_merge_sort():
+    nums = [47, 29, 71, 99, 78, 19, 24, 47]
+    assert [19, 24, 29, 47, 47, 71, 78, 99] == merge_sort(nums)