1.四分型和八分型
- nf代码路径:/fuer1/01.User/chenjl/all_data/930_0625_new_MB.nf
- 模型代码路径如下:
/fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/tsne_new_backa.py
- 实际生产路径示例:/fuer3/01.Normal_Project/16.MB_classification/20240229 ,该方法每次保存原始数据及中间文件的路径是固定的,所以分析一次新的数据会覆盖掉原来的数据
2.五分型和八分型
- nf 代码路径:/fuer1/02.Pipeline/23.MB_classification/nf/MB_cnv_shh.nf
- conf文件:/fuer1/02.Pipeline/23.MB_classification/conf/MB.config
- 模型代码路径如下:
/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/tsne_new_backa_5type_v5.py
-
测试路径路径:/fuer3/01.Normal_Project/16.MB_classification/test/test
-
五分型nf中已经新增了cnv分析,分析使用sesame软件,结果会增加4个cnv相关文件,207953350151_R07C01.band_cnv.xls是染色体臂级别的cnv,报出标准为:染色体臂cnv大于70%;207953350151_R07C01.cnv.anno.xls为所有报出的cnv

一、随机森林建模方法
a. 五分型和八分型
**之前的分析方法存在每次分析需要重新建模的弊端,导致不能重复分析结果,故对模型进行优化,将模型保存以便后续能够重现分析结果(之前模型的使用的点为原始数据与预测数据的交集)**
- 五分型:使用519例甲基化数据,485512个可用位点,模型使用了485512和935k芯片交集的所有点,由于使用模型预测样本时模型中的点在待预测样本可能被过滤掉了,没有的位点均填充为0,模型的原始数据路径为 /fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/519_sample.csv
- 八分型:使用1391例甲基化数据,449898个可用位点,模型使用了449898和935k芯片交集的所有点,使用模型预测样本时模型中的点在待预测样本可能被过滤掉了,没有的位点均填充为0,原始数据路径为:/fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/GSE130051/all_d.csv
- 五分型模型保存位置:/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/model_519samples_935k_519data_intersect_0.9846.joblib
- 八分型模型保存位置:/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/model_1391samples_935k_1391data_intersect_0.9686.joblib