Идентифициране на ключови биомаркери за STAD с помощта на подходи за избор на кандидат характеристики

събиране на данни

Като набор от тестови данни, профилът на изразяване на STAD беше извлечен от общия прогнозиран набор от данни RSEM (https://toil-xena-hub.s3.us-east-1.amazonaws.com/download/TCGA-GTEx-TARGET-gene-exp-counts.deseq2-normalized.log2.gz), който съчетава примерния набор от TCGA, TARGET и GTEx и може да бъде изтеглен от уебсайта на UCSC xena. Наборът от данни STAD включва 413 туморни проби (всички от базата данни на TCGA) и 210 нормални проби (36 от TCGA и 174 от GTEx). За биологията наборът от данни за оцеляването на групата TCGA-STAD (https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-STAD.survival.tsv) и набора от данни за фенотипа (https://gdc-hub.s3.us-east-1.amazonaws.com/download/TCGA-STAD.GDC_phenotype.tsv.gz) също бяха получени. Таблица 1 обобщава клинико-патологичните характеристики на 413 STAD туморни проби.

Таблица 1 Клинични характеристики на случаи на STAD.

Избор на генни характеристики с помощта на хибридните методи на Lima и IPI

След събиране на профили на генна експресия от общо 623 проби (включително 413 STAD тумора и 210 нормални проби), ние приложихме подходи за избор на характеристики, за да идентифицираме биомаркери на гени, които са най-подходящи за класификацията между туморни и нормални групи. Както е показано на фигура 1, процедурата за избор на ген се състои основно от две стъпки: филтриране на гени въз основа на пакета limma в R и автоматично избиране на гени с помощта на алгоритъма за съвместна взаимна информация (JMI) при условие на Python 3.8. Ние комбинирахме методи за избор на филтър и обвивка, за да получим подмножеството на гена с най-висока класификационна ефективност и най-ниско количество излишък.

Фигура 1

Дизайн на изследването и работен процес. град рак на стомаха. TCGA атлас на генома на рака, GTEx тъканна генна експресия, DEGs диференциално експресирани гени, Йордански медиен институт споделена взаимна информация, Гео омнибусна генна експресия, t-SNE t-разпределено вграждане на случайни съседи, Република Китай Функция на приемника.

генен скрининг на пакет limma: пакет limma11 Базиран е на платформата R и има за цел да извършва анализ на данни за генна експресия, използвайки линейни модели и диференциални експресионни функции, които могат да се използват за сравнения между различни групи. В настоящото изследване използвахме lmFit Работа в пакета limma за моделиране между туморни и нормални популации, и Правете контрасти Функцията беше приложена за конструиране на дисперсионната матрица. По време на анализа беше необходима стойност на logFC (fold change, FC) за филтриране на гени. Критерият за избор на диференциално експресирани гени (DEGs) в това изследване беше log| FC |> 1 арг.с<0,05 между туморните и нормалните групи.

JMI алгоритъм за премахване на излишъка и избор на подмножество от оптимални гени: Тъй като процедурата за избор на DEG на базата на пакета limma не отчита взаимовръзките между характеристиките на гена, DEG, получени в предишната стъпка, може да не са оптимални поради излишък на ген. В резултат на това беше необходимо да се премахнат излишните гени от общите избрани DEG, за да се подобри не само точността на класификацията, но и ефективността на производителността. През последните години методът за избор на характеристики, базиран на теорията на информацията, който има за цел да избере най-подходящите характеристики от всички характеристики, за да намали сложността на проблемите с класификация с големи размери, се превърна в доминиращ метод.12. Методът за усилване на информацията (IG) разглежда само корелацията между всяка подхарактеристика и целевата класификация поотделно, без да отчита връзката между характеристиките. Съгласно принципа на максимална зависимост, максимална асоциация и минимално излишък въз основа на взаимна информация, Peng et al. предложена рамка за минимално повторение (mRMR).13, който е приложен за избор на характеристики в много области, включително биологични данни. Уравнение 1 изобразява израза на алгоритъма mRMR. Освен това алгоритъмът JMI14, 15 Той предостави по-изчерпателна и широко използвана рамка за избор на характеристики, като взе предвид взаимната информация между характеристиките на подмножеството и неизбраните характеристики съгласно класификационните термини, базирани на IG. Алгоритъмът JMI беше изразен като Eq. 2. Вместо да се фокусира върху пряката връзка в рамката mRMR, JMI алгоритъмът отчита цялата взаимна информация между характеристиките, включително непряка корелация. С оглед на това използвахме алгоритъма JMI за избор на характеристики въз основа на DEG, получени от limma.

$$ alpha left({f_{i}} right) = Ileft({f_{i};C} right) – frac{1}{left | S right|} mathop sum limits _{{f_{s} in S}} Ileft({f_{i};f_{s}} right)$$

(1)

$$ alpha left( {f_{i}} right) = mathop sum limits _{{f_{s} in S}} Ileft({f_{i},f_{s}) ; C} дясно) $$

(2)

В горните две уравнения, Е И на с И на ° С представляват съвкупни характеристики, избрани характеристики и съответно класификация; Докато ({f}_{s}) И на ({f}_{i}) Означава характеристиките, които принадлежат към сИ на и s. (iналяво ({f}_{i}, {f}_{s} вдясно)) Това е информацията, която се обменя между ({f}_{s}) И на ({f}_{i})И (iналяво ({f}_{i},{f}_{s}; C вдясно)) Това е информацията, която се обменя между ({f}_{s})И на({f}_{i}) И на ° С. да се изравнят (iналяво ({f}_{i}, {f}_{s} вдясно))толкова по-висока е стойността азнай-силната връзка между ({f}_{s}) И на ({f}_{i}).

В това проучване използвахме алгоритми за филтриране на limma и JMI като хибриден метод, за да получим ключови биомаркери за класификация на тумора и нормална хистология при рак на стомаха. По този начин можем да използваме възможно най-малко генни характеристики, за да постигнем по-добро класифициране.

Валидиране на генни подписи, идентифицирани с помощта на GEO набори от данни

След като стартираме последователно алгоритмите limma и JMI, ще получим характеристиките на кандидат гените за класификация на тумори и нормалните проби в кохортата STAD. След това потвърдихме кандидат-гените в две други групи рак на стомаха, включително GSE33335 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33335)16, 17 и GSE103236 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE103236)18,19 От наборите от данни NCBI-Gene Expression Omnibus (GEO). Наборът от данни GSE33335 съдържа профилиране на генна експресия на 25 двойки стомашни тъкани: стомашна ракова тъкан срещу съвпадаща съседна неракова тъкан. Наборът от данни GSE103236 съдържа профилиране на генната експресия на рак на стомаха (10 проби) и нормални съседни тъкани (9 проби).

Анализ на жизненоважна и биологична информация

T-SNE и анализ на топлинна карта: T-разпределени алгоритми за вграждане на случайни съседи (t-SNE).20 Анализът на бинарен клъстер беше извършен в R, като се използваха съответно пакетите „Rtsne“ и „pheatmap“, за да се илюстрира разпределението на GC тумор и нормални проби на базата на предварително избрани гени.

ROC анализ на кандидат гени: За да оценим диагностичното представяне на кандидат гени, ние изследвахме специфичността, чувствителността и стойностите на площта под кривата (AUC), получени с помощта на анализ на характеристиките на оператора на приемника (ROC) в софтуера MedCalc.

Идентифициране на кандидат-гени, свързани с туморен стадий и преживяемост на пациента: фенотипна информация, включително туморен стадий и информация за преживяемост за пациенти със STAD, е получена от базата данни на TCGA. Туморите се класифицират в четири стадия въз основа на стадия им: I, II, III и IV. Ние считаме тези гени за биомаркери, свързани със стадия, след като установихме, че промените в средната генна експресия са в съответствие с прогресията на туморния стадий. Използвахме R пакета „Survminer“, за да анализираме и визуализираме кривите на Каплан-Майер за кандидат-гени въз основа на профилиране на техните изрази за анализ на оцеляването.