1.四分型和八分型

  1. nf代码路径:/fuer1/01.User/chenjl/all_data/930_0625_new_MB.nf
  2. 模型代码路径如下:
/fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/tsne_new_backa.py
  1. 实际生产路径示例:/fuer3/01.Normal_Project/16.MB_classification/20240229 ,该方法每次保存原始数据及中间文件的路径是固定的,所以分析一次新的数据会覆盖掉原来的数据

2.五分型和八分型

  1. nf 代码路径:/fuer1/02.Pipeline/23.MB_classification/nf/MB_cnv_shh.nf
  2. conf文件:/fuer1/02.Pipeline/23.MB_classification/conf/MB.config
  3. 模型代码路径如下:
/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/tsne_new_backa_5type_v5.py
  1. 测试路径路径:/fuer3/01.Normal_Project/16.MB_classification/test/test

  2. 五分型nf中已经新增了cnv分析,分析使用sesame软件,结果会增加4个cnv相关文件,207953350151_R07C01.band_cnv.xls是染色体臂级别的cnv,报出标准为:染色体臂cnv大于70%;207953350151_R07C01.cnv.anno.xls为所有报出的cnv

    Untitled

一、随机森林建模方法

a. 五分型和八分型

**之前的分析方法存在每次分析需要重新建模的弊端,导致不能重复分析结果,故对模型进行优化,将模型保存以便后续能够重现分析结果(之前模型的使用的点为原始数据与预测数据的交集)** 
  1. 五分型:使用519例甲基化数据,485512个可用位点,模型使用了485512和935k芯片交集的所有点,由于使用模型预测样本时模型中的点在待预测样本可能被过滤掉了,没有的位点均填充为0,模型的原始数据路径为 /fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/519_sample.csv
  2. 八分型:使用1391例甲基化数据,449898个可用位点,模型使用了449898和935k芯片交集的所有点,使用模型预测样本时模型中的点在待预测样本可能被过滤掉了,没有的位点均填充为0,原始数据路径为/fuer2/01.Data/04.Technology_Research_And_Development/2.DNA_methylation_central_nervous_system_tumours/GSE109381/GSE130051/all_d.csv
  3. 五分型模型保存位置:/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/model_519samples_935k_519data_intersect_0.9846.joblib
  4. 八分型模型保存位置:/fuer1/02.Pipeline/23.MB_classification/script/RandomForest/model_1391samples_935k_1391data_intersect_0.9686.joblib