[量子计算]一种用于蛋白质计算的结构化学量子计算算法。(QUANTUM ALGORITHMS FOR STRUCTURAL MOLECULAR BIOLOGY)
摘要RQuanTech开发了一种创新算法,可用于结构分子生物学应用。介绍数十亿年来,进化过程优化了构成天然蛋白质的氨基酸序列,以满足制造它们的生物体的需要。所以我们问:我们可以使用计算来设计适合我们生物医学和工业需求的非天然蛋白质吗?这个问题是组合优化问题,因为蛋白质设计计算的输出是一系列氨基酸。由于天然存在的蛋白质的多样性,用天然存在的蛋白质开始蛋白质设计计算然后对其进行修饰以实现所需功...
摘要
RQuanTech开发了一种创新算法,可用于结构分子生物学应用。
介绍
数十亿年来,进化过程优化了构成天然蛋白质的氨基酸序列,以满足制造它们的生物体的需要。所以我们问:我们可以使用计算来设计适合我们生物医学和工业需求的非天然蛋白质吗?
这个问题是组合优化问题,因为蛋白质设计计算的输出是一系列氨基酸。由于天然存在的蛋白质的多样性,用天然存在的蛋白质开始蛋白质设计计算然后对其进行修饰以实现所需功能是可能且非常有用的。这些可以形式化为加权链中的问题。我们可以用不同的特征代表每个氨基酸,蛋白质由构成它的氨基酸字符串表示。代表蛋白质的链被分成子链,确定每个子串的质量,并将质量列表与蛋白质数据库进行比较。这种技术的挑战之一是处理非常大的字符串,这些字符串可能有几个可能的子串。选择的子串数对于良好的结果至关重要。同样重要的是用于比较这些字母的评分函数,以找到最佳全局比对或两个序列之间的最佳局部比对。不幸的是,要找到最能捕捉氨基酸类型之间相似性的评分函数的参数并不容易。这导致以取代矩阵的形式开发出许多类型的分数,以期产生具有生物学意义的序列比对。另外,当要比较的两种蛋白质之间的相似性低时,通常缺乏相应序列比对的质量。因此,序列比对技术通常是将蛋白质分类为折叠或检测同源性的差的方法,这两者都是希望解决蛋白质结构预测问题的基本任务。已经开发了许多方法来规避这些问题。
改进这些方法的一种选择涉及一次考虑多种氨基酸。这个想法导致了过去三十年来发展起来的“无对齐”方法的概念。序列比对方法以及最近的字符串内核方法关键取决于评分或替换矩阵。那些取代矩阵基本上将氨基酸编码为数值阵列,其中这些值来自参考比对(PAM和BLOSUM矩阵)的统计分析,或来自氨基酸的物理和化学性质。虽然这些矩阵已经用于折叠识别问题,但它们还没有针对这样的任务进行优化。已经尝试进行这样的优化;然而,没有一个超过了公认的BLOSUM62矩阵。
在该领域可以实现的一个重要的潜在步骤是实现量子算法,其允许跳过上述生物计算方法中呈现的非多项式(NP)问题。
示例应用
1在我们的提案(脚注)中,我们介绍了RQuanTech量子算法如何加速基于知识的统计力场的估计以及推导最终蛋白质配置的成本函数。我们展示了幅度估计算法如何能够大幅度减少高可信度估计结构所需的步骤数。
对于蛋白质结构问题的建模,主要挑战是样本的潜在配置的指数数量。通常通过蒙特卡罗评估来搜索最佳配置。
量子计算承诺为各种任务提供算法加速,例如分解或优化。
量子傅立叶算法与RQuanTech实现的Shor算法相结合,可以扩展和推广到函数优化,幅度放大和估计,积分,基于量子行走的元素清晰度方法,以及马尔可夫链算法等。特别地,幅度估计算法可以提供接近二次加速度以估计期望值,并且因此提供对经典地使用蒙特卡罗方法的问题的加速。
RQuanTech提出了如何将量子计算用于蛋白质结构问题建模的新视角。我们结合众所周知的量子技术,如振幅估计和蒙特卡罗量子算法与CABS粗粒蛋白模型。
蒙特卡罗方法论文的实施
正如我们在下图中可以看到的那样,本文提出了蒙特卡罗方法的实现,如图所示:
CABS模型的抽样方案。蓝色面板显示蒙特卡罗(MC)迭代(循环)的实现细节。橙色面板显示可以在单个MC步骤中执行的所有动作。模拟被组织为一组嵌套循环,其中s个MC步骤被组织成y个循环,并且这些循环在退火循环中(a,y或s循环的数量可以由用户控制) CABS-flex和CABS-dock独立软件包[72])。在橙色面板中,数字1到5表示可用的移动,与每个MC步骤中执行移动的尝试次数一起显示。得到的轨迹由在每个MC循环结束时保存的模拟快照组成。
RQUANTECH MONTECARLO实施
RQuanTech蒙特卡洛实施方式如下。
假设最优结构为P,P’是从k个样本获得的近似值。假设成本函数f(ST)的随机变量以方差为界,即V [f(ST)] <λ2。那么估计P’是ε远离最优的概率由切比雪夫的不等式确定
问题[| P’-P | ≥ε]≤λ2/kε2
因此,为了获得恒定的成功概率,我们需要
k = O(λ2/ε2)
样本估计加性误差ε。量子算法的任务是改善从ε2到ε的ε依赖性,从而为给定误差提供二次加速。
在我们提出量子算法之前,我们展示了如何将结构值编码为量子算法以及如何获得与经典算法相同的ε依赖性。然后,我们通过使用幅度估计的基本量子算法来显示二次加速。
蒙特卡罗的量子算法
使用幅度估计量子蒙特卡罗。图如下。 (算法方案)
(a)n + 1量子比特相位估计酉以F:= R(A⨂I2)表示,简单旋转酉,Z:= | I2n + 1> - 2 | 0 n + 1> <0 N + 1 |和V:= | I2n + 1> - 2I2n⨂| 1> <1 |。
(b)在任意状态下可视化Q:= US,S = VUV和U = FZF†
| ψψ>在χ和V(χ)的范围内。首先, - S on |的动作ψψ>沿V(χ)反射,得到中间-S | ψψ>。然后,-U作用于-S | ψψ>通过沿|χ>反射得到的状态Q |χ>在| x>和|χ→超平面中逆时针旋转了角度2θ。
(c)相位估计电路。这里,A通过在| x>中准备叠加来编码随机性,而R将随机变量编码为ancilla量子比特的| 1>状态。两个步骤之后的输出是多量子位状态|χ>。然后通过调用相位估计来进行幅度估计,以在量子比特的寄存器中编码旋转角度θ,该量子比特的寄存器被测量以获得估计^θ。
(d)由A(或等效G)制备的叠加是蛋白质结构变化的离散化。在这种情况下,R编码成本函数。
在逆量子傅里叶变换之后,我们将获得对蛋白质结构的最佳估计。
结论
我们已经描述了用于蛋白质结构建模的量子算法。我们假设CABS的关键特征(其表示,力场和用于MC的运动的规模)是已知的,并且可以有效地准备相应的量子态。
此外,我们假设成本函数的有效可计算性。在这些假设下,我们展示了估计蛋白质结构所需样本数量的二次加速,直到给定误差:如果所需精度为ε,则经典方法显示样本数量的1 /ε2依赖性,而RQuanTech量子算法显示1 /ε依赖性。
进一步的考虑因素
RQuanTech Quantum算法为与结构生物学分子领域中经常使用的组合算法相关的计算提供了显着的加速。原则上,当前的计算可以减少到更短的时间尺度,这将允许更多的结构容量得到解决。
我们正在寻求与计算机辅助蛋白质工程领域的最佳合作,以在实际环境中展示(试点)方法学的相关性。
更多推荐
所有评论(0)