比DNA存储更可怕!你的照片居然可以存储在氨基酸分子溶液里
每个高分辨率FT-ICR质谱包含〜2×106 m/z 点。由于质谱空间的大部分是背景,因此首先将特征的数量减少到统计上有用的特征数量。而后研究人员测试了所有质谱的系综平均值(ensemble average)中发现的1444个候选峰,用来确定m/z处的强度对编码数据值的分类精度(图 4a)。 图4 虽然这些峰值的识别没有化学偏差,但许多特征可以归因于已知的代谢物加合物离子。相关加合物质量的直方图如图4b所示。 达到70-100%范围内检测精度的峰数如图4c所示。选择每种代谢物的最佳表现峰值,并应用2.5σ的检测阈值,足以恢复约2%累积读/写错误的数据(图4e)。 相应的输入和输出数据图像如图4f和4g所示。 利用逻辑回归对多峰数据进行解码 假设鉴别峰值是部分不相关的(如图D所示),利用每个代谢组的多个m/z峰来寻求改进是合理的。这样的策略将在更复杂的代谢组中变得越来越重要。 图D 研究人员使用类似6kb ibex图像类似的技术,从埃及坟墓中编码了17424位的猫图像(使用了1452个点),其中包含库中12个代谢物子集的数据混合物(图5a)。他们使用这些数据来扩展解码方案,使其包含多个m/z特性。 图5 在确定一组统计鉴别峰之后,研究人员使用1到16个表现最好的峰进行逻辑回归。多质量回归对整个cat图像的读取准确率为97.7%(图5c)。 图4和图5中的数据的累积读取错误率显示为逻辑回归中使用的质量数的函数。 将这些技术应用于早期的ibex数据集,可以实现<0.5%的错误率。但是,重复测量斑点会导致数据丢失。研究人员还发现,每次连续读取数据板都会增加<1%的误差(图E)。 图E 使用不同的板进行训练可以获得相同的精度而不会过度拟合(图F)。 图F 总而言之,上述实验表明:代谢组是一种可行且强大的表示数字信息的媒介。 参考链接: https://www.newscientist.com/article/2208439-data-can-now-be-stored-inside-the-molecules-that-power-our-metabolism/ https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0217364 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |