允英医疗与江苏省肿瘤医院合作,在癌症基因组图谱(the cancer genome atlas,TCGA)公共数据库中筛选了393例大肠癌患者(结肠癌298例,直肠癌95例),提取其转录组测序数据并借助随机森林(random forest,RF)与支持向量机(support vector machines,SVM)等机器学习算法进行分类,寻找结肠癌与直肠癌的分子特征(图1)。
在总共20502个基因中,随机森林算法筛选出96个区分结肠癌与直肠癌的特征性分类基因集群,发现HOXB13、PRAC和BCLAF1是其中三个差异表达最大的基因。进一步,建立包含196个CRC样本(151结肠癌,45直肠癌)的训练集,对该96个基因进行基于SVM方法的模型构建,并以剩余197个CRC样本(147结肠癌,50直肠癌)作为验证集,验证模型的分类性能。最终,该模型在区分结肠癌和直肠癌样本方面的准确度达到82.2%,AUC为0.91(图2)。