1.四分型和八分型

/fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/tsne_new_backa.py

实际生产路径示例：/fuer3/01.Normal_Project/16.MB_classification/20240229 ，该方法每次保存原始数据及中间文件的路径是固定的，所以分析一次新的数据会覆盖掉原来的数据

2.五分型和八分型

/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/tsne_new_backa_5type_v5.py

测试路径路径：/fuer3/01.Normal_Project/16.MB_classification/test/test
五分型nf中已经新增了cnv分析，分析使用sesame软件，结果会增加4个cnv相关文件，207953350151_R07C01.band_cnv.xls是染色体臂级别的cnv，报出标准为：染色体臂cnv大于70%；207953350151_R07C01.cnv.anno.xls为所有报出的cnv

一、随机森林建模方法

a. 五分型和八分型

**之前的分析方法存在每次分析需要重新建模的弊端，导致不能重复分析结果，故对模型进行优化，将模型保存以便后续能够重现分析结果（之前模型的使用的点为原始数据与预测数据的交集）**

五分型：使用519例甲基化数据，485512个可用位点，模型使用了485512和935k芯片交集的所有点，由于使用模型预测样本时模型中的点在待预测样本可能被过滤掉了，没有的位点均填充为0，模型的原始数据路径为 /fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/519_sample.csv
八分型：使用1391例甲基化数据，449898个可用位点，模型使用了449898和935k芯片交集的所有点，使用模型预测样本时模型中的点在待预测样本可能被过滤掉了，没有的位点均填充为0，原始数据路径为：/fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/GSE130051/all_d.csv
五分型模型保存位置：/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/model_519samples_935k_519data_intersect_0.9846.joblib
八分型模型保存位置：/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/model_1391samples_935k_1391data_intersect_0.9686.joblib