Given an array of integers citations
where citations[i]
is the number of citations a researcher received for their ith
paper and citations
is sorted in an ascending order, return compute the researcher's h
According to the definition of h-index on Wikipedia: A scientist has an index h
if h
of their n
papers have at least h
citations each, and the other n − h
papers have no more than h
citations each.
If there are several possible values for h
, the maximum one is taken as the h
You must write an algorithm that runs in logarithmic time.
Example 1:
Input: citations = [0,1,3,5,6] Output: 3 Explanation: [0,1,3,5,6] means the researcher has 5 papers in total and each of them had received 0, 1, 3, 5, 6 citations respectively. Since the researcher has 3 papers with at least 3 citations each and the remaining two with no more than 3 citations each, their h-index is 3.
Example 2:
Input: citations = [1,2,100] Output: 2
n == citations.length
1 <= n <= 105
0 <= citations[i] <= 1000
is sorted in ascending order.
给你一个整数数组 citations
,其中 citations[i]
表示研究者的第 i
已经按照 升序排列 。计算并返回该研究者的 h
h 指数的定义:h 代表“高引用次数”(high citations),一名科研人员的 h 指数是指他(她)的 (n
篇论文中)总共有 h
篇论文分别被引用了至少 h
次。且其余的 n - h
篇论文每篇被引用次数 不超过 h
提示:如果 h
指数 是其中最大的那个。
示例 1:
citations = [0,1,3,5,6]
输出:3 解释:给定数组表示研究者总共有5
篇论文,每篇论文相应的被引用了 0, 1, 3, 5, 6
次。 由于研究者有3
篇论文每篇 至少 被引用了3
次,其余两篇论文每篇被引用 不多于3
次,所以她的 h 指数是3
示例 2:
输入:citations = [1,2,100] 输出:2
n == citations.length
1 <= n <= 105
0 <= citations[i] <= 1000
按 升序排列
本题与 274. H 指数 的主要不同有两方面:
- 数据范围不同:切换成英文可以发现,在 274. H 指数 里 $n$ 的范围为 $5000$,而本题 $n$ 的范围为 $10^5$ ;
- 给定数组是否有序:在 274. H 指数 中数组不一定有序,本题则是有序。
二分答案(线性 check
在 (题解) 274. H 指数 中,我们使用了 $O(n\log{n})$ 的二分做法,算法的主要瓶颈在于 $O(n)$ 复杂度的 check
当然对于 $10^5$ 的数据量,使用 $O(n\log{n})$ 复杂度没有任何问题。
[]class Solution { public int hIndex(int[] cs) { int n = cs.length; int l = 0, r = n; while (l < r) { int mid = l + r + 1 >> 1; if (check(cs, mid)) l = mid; else r = mid - 1; } return r; } boolean check(int[] cs, int mid) { int ans = 0; for (int i : cs) if (i >= mid) ans++; return ans >= mid; } }
- 时间复杂度:对 $[0, n]$ 做二分,复杂度为 $O(\log{n})$;
函数需要对数组进行线性遍历,复杂度为 $O(n)$。整体复杂度为 $O(n\log{n})$ - 空间复杂度:$O(1)$
二分下标(根据与 $citations[i]$ 关系)
根据对 H 指数
定义,如果 $citations$ 升序,在最大的符合条件的分割点 $x$ 的右边(包含分割点),必然满足 $citations[i] >= x$,我们应当对其进行计数,对于分割点的左边,必然不满足 $citations[i] >= x$,无需进行计数。
因此,我们可以利用 分割点右边论文的个数与分割点 $citations[x]$ 的大小关系进行二分 。
假设存在真实分割点下标 $x$,其值大小为 $citations[x]$,分割点右边的数值个数为 $n - x$,根据 H 指数
的定义,必然有 $citations[x] >= n - x$ 关系:
- 在分割点 $x$ 的右边:$citations[i]$ 非严格单调递增,而论文的个数严格单调递减,仍然满足 $citations[i] >= n - i$ 关系;
- 在分割点 $x$ 的左边:$citations[i]$ 非严格单调递减,论文的个数严格单调递增,$x$ 作为真实分割点,因此必然不满足 $citations[i] >= n - i$ 关系。
[]class Solution { public int hIndex(int[] cs) { int n = cs.length; int l = 0, r = n - 1; while (l < r) { int mid = l + r >> 1; if (cs[mid] >= n - mid) r = mid; else l = mid + 1; } return cs[r] >= n - r ? n - r : 0; } }
- 时间复杂度:$O(\log{n})$
- 空间复杂度:$O(1)$
