PLoS One: High σύμφωνα με Πρόγνωση Πρόβλεψη του καρκίνου του παχέος εντέρου σε όλη την Ανεξάρτητη Σύνολα από έκφραση πολλαπλών γονιδίων Ενότητα Profiles


Αφηρημένο

Ένα σημαντικό μέρος των ασθενών με καρκίνο του παχέος εντέρου έχουν υψηλό κίνδυνο υποτροπής της νόσου μετά από χειρουργική επέμβαση. Αυτοί οι ασθενείς μπορούν να ταυτοποιηθούν με την ανάλυση των προφίλ έκφρασης των γονιδίων υπογραφή σε όγκους. Αλλά δεν υπάρχει ομοφωνία στις οποίες θα πρέπει να χρησιμοποιηθούν τα γονίδια και η απόδοση του συγκεκριμένου συνόλου γονιδίων υπογραφή ποικίλλει σε μεγάλο βαθμό με διαφορετικά σύνολα δεδομένων, που εμποδίζουν την εφαρμογή τους στην καθημερινή κλινική εφαρμογή. Αντί να χρησιμοποιεί μεμονωμένα γονίδια, εδώ εντοπίσαμε λειτουργικές ενότητες πολλαπλών γονιδίων με σημαντικές αλλαγές έκφραση μεταξύ επαναλαμβανόμενες και χωρίς υποτροπή των όγκων, τις χρησιμοποίησε ως τις υπογραφές για την πρόβλεψη του παχέος υποτροπής του καρκίνου σε πολλαπλά σύνολα δεδομένων που συλλέχθηκαν ανεξάρτητα και προφίλ σε διαφορετικές πλατφόρμες μικροσυστοιχιών. Οι ενότητες πολλαπλών γονιδίων ταυτοποιήσαμε έχουν σημαντικό εμπλουτισμό των γνωστών γονιδίων και βιολογικές διεργασίες που σχετίζονται με την ανάπτυξη του καρκίνου, συμπεριλαμβανομένων γονιδίων από την οδό χημειοκίνης. Πιο εντυπωσιακά, στρατολόγησαν ένα σημαντικό εμπλουτισμό των σωματικών μεταλλάξεων που βρέθηκαν σε καρκίνο του παχέος εντέρου. Αυτά τα αποτελέσματα επιβεβαίωσαν τη λειτουργική σχέση αυτών των ενοτήτων για τον ορθοκολικό την ανάπτυξη του καρκίνου. Περαιτέρω, αυτές οι λειτουργικές ενότητες από διαφορετικά σύνολα δεδομένων επικαλύπτονται σημαντικά. Τέλος, αποδείξαμε ότι, αξιοποιώντας παραπάνω πληροφορίες από αυτές τις ενότητες, ενότητα με βάση ταξινομητή μας αποφεύγεται αυθαίρετη τοποθέτηση τη λειτουργία ταξινομητή και διαλογής των υπογραφών που χρησιμοποιούν τα δεδομένα εκπαίδευσης, και επιτυγχάνεται μεγαλύτερη συνέπεια στην πρόβλεψη της πρόγνωσης σε τρεις ανεξάρτητες σύνολα δεδομένων, η οποία κατέχει ακόμα και με τη χρήση πολύ μικρών σύνολα εκπαίδευσης των όγκων

Παράθεση:. Λι W, Wang Ε, Yan Z, Bai L, Ηλιόλουστη Z (2012) Υψηλή σύμφωνα με Πρόγνωση Πρόβλεψη του καρκίνου του παχέος εντέρου σε όλη την Ανεξάρτητη σύνολα δεδομένων με προφίλ έκφρασης πολλών γονιδίων Ενότητα. PLoS ONE 7 (3): e33653. doi: 10.1371 /journal.pone.0033653

Επιμέλεια: Ju-Seog Λι, του Πανεπιστημίου του Τέξας MD Anderson Cancer Center, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 12 Σεπτέμβρη του 2011? Αποδεκτές: 17 Φεβρουαρίου του 2012? Δημοσιεύθηκε: 16 Μαρτίου, 2012

Copyright: © 2012 Li et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Η χρηματοδότηση που προβλέπεται από 973 έργων αρ 2009CB918801 και Νο 2011CBA00802, http: //www.most.gov.cn? Εθνικό Ίδρυμα Φυσικών Επιστημών της Κίνας ταμείο Νο 31171274, https://www.nsfc.gov.cn/. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

καρκίνος του παχέος εντέρου είναι μία κύρια αιτία θνησιμότητας από καρκίνο. Περίπου 20-30% των ασθενών στο στάδιο ΙΙ και το 50% των ασθενών στο στάδιο ΙΙΙ υποτροπή εμπειρία της νόσου μετά από χειρουργική επέμβαση [1]. Ακρίβεια και σταθερότητα της πρόβλεψης πρόγνωση είναι κρίσιμη για τον καθορισμό του κατάλληλου συστήματος θεραπείας για διαφορετικό κίνδυνο υποτροπής. Οι πρόσφατες μελέτες έχουν δείξει το προφίλ έκφρασης του γονιδίου πολυ-υπογραφές ως καλύτερη ικανότητα πρόβλεψης πρόγνωση για τους ασθενείς με καρκίνο του παχέος εντέρου από τις παραδοσιακές μεθόδους που χρησιμοποιούν κλινικά ή παθολογικά χαρακτηριστικά, και ορισμένα από αυτά εισέρχονται στην αγορά [2] – [7]. Αυτά τα γονίδια υπογραφή τυπικά προσδιορίζονται από διαφορικά εκφραζόμενα γονίδια ανάμεσα σε ένα σύνολο εκπαίδευσης όγκων από ασθενείς με ή χωρίς υποτροπή της νόσου. δεδομένα έκφρασης τους στη συνέχεια χρησιμοποιήθηκαν για να εκπαιδεύσει ένα στατιστικό ταξινομητή που μπορεί να διακρίνει καλύτερα τις δύο ομάδες των όγκων κατάρτισης. Σε ορισμένες περιπτώσεις, αυτά τα βήματα, δηλαδή η κατασκευή επιλογή γονιδίου και ταξινομητής, οι επαναληφθεί για τη βελτιστοποίηση και τις δύο επιλογές.

Ένα σημαντικό πρόβλημα με αυτά τα ταξινομητές πολλαπλών γονιδίων είναι ότι τα γονίδια υπογραφή τους διαφέρει σημαντικά για διάφορες πληθυσμιακές ομάδες μελετών, διαφορετικούς πληθυσμούς ασθενών, και διαφορετικές πλατφόρμες μικροσυστοιχιών, πιθανώς λόγω της χαμηλής σύμφωνα μεταξύ δεδομένων έκφρασης μικροσυστοιχιών [8]. Για να πάρετε μια λίστα με συναίνεση των γονιδίων υπογραφή, εκτιμάται ότι θα χρειαστούν χιλιάδες δείγματα όγκων για την κατάρτιση αυτών των ταξινομητές [9]. Ως αποτέλεσμα, τα διάφορα αναφερόμενη σύνολα γονιδίων υπογραφή εξαρτάται ιδιαίτερα από τα δείγματα της κατάρτισης και είχαν επικαλύπτονται μόνο ελάχιστα [10]. Μια άλλη ανησυχία είναι ότι η επιλογή ενός στατιστικού ταξινομητή είναι αυθαίρετη και στερείται ρητή βιολογική βάση, έτσι ώστε ο ταξινομητής μπορεί να είναι πάνω-τοποθετηθεί από το σύνολο δεδομένων από το οποίο εφευρέθηκε. Για παράδειγμα, σε μία πρόσφατη μελέτη, οι ταξινομητές πολλαπλών γονιδίων κατασκευάζεται από ένα σύνολο δεδομένων ήταν εγκάρσια επικυρωθεί σε ένα διαφορετικό σύνολο δεδομένων για να διαπιστώσει ότι η ακρίβεια πρόβλεψης τους μειώθηκε σημαντικά [3]. Τέτοια μείωση οφειλόταν σε ορισμένες λείπουν τα γονίδια στο γονίδιο ταξινομητή σε σχέση με την καλύτερη ταξινομητής κατασκευάζεται από το σύνολο δεδομένων διασταυρούμενης επικύρωσης. Ως εκ τούτου, αυτοί οι παράγοντες έχουν οδηγήσει σε υψηλή μεταβλητότητα της πρόβλεψης απόδοσης των πολλαπλών γονιδίων ταξινομητών και περιορίζεται γενικευμένη χρήση τους στην κλινική πράξη.

Πρόσφατα, υψηλότερη σύμφωνα μεταξύ των διαφόρων σύνολο δεδομένων μικροσυστοιχιών έχει αναφερθεί στα πρότυπα έκφρασης των πολλαπλών -γονίδιο ενότητες, δηλαδή ομάδες συνδέονται λειτουργικά με τα γονίδια [11] – [14]. Παρακινημένος από αυτή τη διαπίστωση, έχουμε ως στόχο να εντοπίσουν τέτοιες μονάδες, συνδυάζοντας στοιχεία τόσο της γονιδιακής έκφρασης και την αλληλεπίδραση της πρωτεΐνης και να χρησιμοποιηθούν τα πιο διαφορικά εκφρασμένων ενότητες για την κατασκευή ενός νέου ταξινομητή. Είναι σημαντικό, διαπιστώσαμε ότι οι ενότητες αυτές είναι μη-τυχαία συνδέεται με ορθοκολικό υποτροπής του καρκίνου σε διάφορα σύνολα δεδομένων, και ότι οι ενότητες από διαφορετικά σύνολα δεδομένων επικαλύπτονται με σημαντικά περισσότερα γονίδια από τυχαία, υποδεικνύοντας την επικάλυψη ποσοστό από τις κορυφαίες μονάδες διέθεταν διακριτική εξουσία. Με τον τρόπο αυτό, αποφύγαμε τη χρήση των υπογραφών γονιδίου χαμηλού σύμφωνα και αυθαίρετη στατιστική συνάρτηση για να χωρέσει. Δείξαμε την εφαρμογή του σε τρία ανεξάρτητα σύνολα δεδομένων των ασθενών με καρκίνο του παχέος εντέρου που προφίλ σε διαφορετική πλατφόρμα μικροσυστοιχιών και πέτυχε να αναπαραχθούν προβλέψεις με ακρίβεια 74%, 76% και 68%, και AUC (περιοχή κάτω από ROC) τιμές 79%, 79% και 72 % από την επικύρωση Αφήστε-One-Out. Οι λογικές ακρίβειες φαίνεται όταν τη μείωση του μεγέθους των συνόλων εκπαίδευσης (34, 10 ή 18 όγκων) και η μεταβλητότητα μεταξύ συνόλων δεδομένων παραμένει χαμηλή, η οποία είναι ~ 1/2 των υφιστάμενων ταξινομητές που βασίζονται πολλαπλών γονιδίων.

Υλικά και Μέθοδοι

πηγή δεδομένων

δεδομένα έκφρασης όγκων και προεπεξεργασία

Τρεις δημόσια προ-επεξεργασία σύνολα δεδομένων μικροσυστοιχιών των όγκων παχέος εντέρου, όπως παρακάτω χρησιμοποιήθηκαν.? Σημειώστε ότι η κατάταξη των ασθενών, επαναλαμβανόμενες ή μη επαναλαμβανόμενα, αναφέρεται στην πραγματική κατάσταση που περιγράφεται στην αρχική έγγραφα ή αρχεία Περιγραφή:

Γερμανικά σύνολο δεδομένων [3]: Περιλάμβανε 55 γερμανικά ασθενείς με πρωτοπαθή καρκίνο του παχέος εντέρου (στάδιο Ι και ΙΙ), όπου 29 ασθενείς της νόσου υποτροπή δωρεάν και παρακολούθησης του χρόνου τους τουλάχιστον 5,3 χρόνια μετά την επέμβαση. Η έκφραση των δειγμάτων όγκου προφίλ στην πλατφόρμα HG-U133A Affymetrix

Φράγμα σύνολο δεδομένων [5]:. Περιλάμβανε 50 ασθενείς με σταδίου ΙΙ καρκίνο του παχέος εντέρου. 25 από αυτά είναι υποτροπή της νόσου ελεύθερη και παρακολούθησης του χρόνου τους τουλάχιστον 5 χρόνια μετά την επέμβαση. Η έκφραση των δειγμάτων όγκου προφίλ στην πλατφόρμα HG-U133A Affymetrix

GSE5206 [15]:. Περιελάμβανε 100 ασθενείς με σταδίου Ι-IV του καρκίνου του παχέος εντέρου. 23 από αυτούς είχαν υποτροπή της νόσου μετά από χειρουργική επέμβαση. Δεν υπάρχει καμία πληροφορία σχετικά με την παρακολούθηση του χρόνου τους. Εδώ θα αφαιρεθεί 37 δείγματα με ανώτερο στάδιο (III και IV) από τις επαναλαμβανόμενες χωρίς σκηνικά και τα αντίδια 63 ασθενείς για την επικύρωση πρόβλεψη. Η έκφραση των δειγμάτων όγκου προφίλ στην πλατφόρμα Affymetrix HG-U133_plus_2.

Η

Για κάθε ιχνηλάτη με τις τιμές που λείπουν, εφαρμόσαμε R πακέτο »καταλόγισε» [16], για να γεμίσει με το μέσο όρο των Κ- της κοντινότερους γείτονές γονίδια με πολλαπλούς ανιχνευτές υποβλήθηκαν σε επεξεργασία από το μέσο όρο επίπεδο έκφρασης τους.

δεδομένα Gene οντολογίας.

Γονιδιακή οντολογία (GO) δεδομένα από τη βάση δεδομένων Μοριακής υπογραφές (MsigDB) v2.5 [17] χρησιμοποιήθηκαν, η οποία περιελάμβανε 1454 σύνολα GO και 8299 γονίδια.

δεδομένα αλληλεπίδρασης πρωτεΐνης.

η πρωτεΐνη δεδομένα αλληλεπίδρασης είχαν κατεβάσει από τη βάση δεδομένων HPRD [18] (δελτίο 8) και BioGRID η βάση δεδομένων [ ,,,0],19], η οποία περιελάμβανε 6511 κόμβους και 29.694 αλληλεπιδράσεις

γνωστά γονίδια που σχετίζονται με ορθοκολικό υποτροπής του καρκίνου

γονίδια που σχετίζονται με τον καρκίνο του παχέος επανεμφάνιση συλλέχθηκαν με βάση τα σχόλια τους από δύο πηγές, αντίστοιχα:.. τη βάση δεδομένων ΟΜΙΜ (www.ncbi.nlm.nih.gov/omim) [20] και σε απευθείας σύνδεση εξόρυξης βιβλιογραφία χρησιμοποιώντας PubGene (https://www.pubgene.org/) [21]. Έχουμε λάβει 41 σχετικών γονιδίων από τη βάση δεδομένων ΟΜΙΜ. Χρησιμοποιώντας PubGene, ψάξαμε πρώτα για τα γονίδια που σχετίζονται με τον όρο «καρκίνο του παχέος εντέρου» και «υποτροπή» για την απόκτηση 2793 και 1609 γονίδια, αντίστοιχα, και στη συνέχεια πήρε τη διασταύρωση αυτών των δύο λίστες γονίδιο ως το τελικό σύνολο του 1038 που σχετίζονται με ορθοκολικό υποτροπής του καρκίνου γονίδια .

καρκίνο του παχέος δεδομένων σωματική μετάλλαξη.

Τα σωματικά στοιχεία μετάλλαξης για καρκίνο του παχέος εντέρου έχει κατεβάσει από την κοσμική βάση δεδομένων [22] στην κατηγορία των «παχέος εντέρου ιστού», μη συμπεριλαμβανομένου του υπο- ιστού, του πρωκτού και του προσαρτήματος, με όλες τις δύο ιστολογική όρους:. αδενώματος και καρκινώματος

κατασκευή δικτύων GO συν-έκφραση

Έχουμε χτίσει τα δίκτυα για κάθε σετ γονιδίων GO. Αυτό ήταν για τρεις λόγους: (1) αποδείχθηκε χρήσιμο να ενσωματώσει εκ των προτέρων ενημέρωση, π.χ. γονίδια εντός των ίδιων οδών, για να διευκολυνθεί υπολογιστικές μεθόδους σε προσδιορισμό των λειτουργικών ενοτήτων [23] – [26]? (2) επιτρέπει πολυ-λειτουργικά γονίδια να είναι παρούσα σε περισσότερα από ένα λειτουργικές ενότητες? (3) πολλά στοιχεία αλληλεπίδρασης ελήφθησαν in-vitro και δεν μπορεί να υπάρχουν σε φυσιολογικές καταστάσεις και, ως εκ τούτου, τον περιορισμό των αλληλεπιδράσεων εντός ενός γονιδίου οντολογία μπορεί να βοηθήσει στη μείωση αυτών των false positives. Σε λεπτομέρειες, για κάθε σετ γονιδίων GO, αφαιρέθηκαν τα γονίδια δεν υπάρχουν στο σύνολο δεδομένων των μικροσυστοιχιών. Τα υπόλοιπα γονίδια σε κάθε σετ GO χρησιμοποιείται ως κορυφές του δικτύου και τα άκρα αντλήθηκαν με βάση τα δεδομένα αλληλεπίδραση πρωτεΐνης. Κάθε κορυφή συνδέεται με ένα

ν

φορέα διάστατο έκφρασης όπου

n

είναι ο συνολικός αριθμός των δειγμάτων όγκου στο σύνολο δεδομένων. Η τιμή σε κάθε διάσταση είναι το επίπεδο έκφρασης αυτού του γονιδίου στο αντίστοιχο δείγμα όγκου. Η άκρη μεταξύ οποιωνδήποτε δύο κορυφές σταθμίζεται από το επίπεδο συν-έκφραση τους [27]. Εδώ επιλέξαμε το συντελεστή συσχέτισης Pearson για τη μέτρηση του επιπέδου συν-έκφραση. Σημειώστε ότι υπάρχουν λίγες εναλλακτικές μετρήσεις, π.χ. Spearman συσχέτισης και αμοιβαίας πληροφόρησης, και αυτές οι μετρήσεις γενικά οδήγησαν σε παρόμοια αποτελέσματα στις ιδιότητες δικτύου και μονάδας ανακάλυψη [28]. Επιπλέον, Pearson συντελεστής συσχέτισης έχει χρησιμοποιηθεί ευρέως και προτείνεται να είναι ένας καλός τρόπος για να χειριστεί θορύβους μέσα στα δεδομένα μικροσυστοιχιών [29], [30], καθώς μετρά τη συνεργατική βαθμό δύο φορείς έκφρασης, αλλά όχι την αντοχή τους. Συγκεκριμένα, το βάρος μιας ακμής μεταξύ δύο κορυφών

i

και

j

ορίζεται ως η απόλυτη τιμή του συντελεστή συσχετισμού μεταξύ ατόμου φορείς έκφρασης τους,: (1)

Προσδιορισμός των λειτουργικών μονάδων

υπάρχουν διάφορες μέθοδοι για τον εντοπισμό σπονδυλωτές δομές μέσα σε ένα δίκτυο και η επιλογή της μεθόδου ποικίλλει ανάλογα με διάφορους παράγοντες, π.χ. οι δομές του δικτύου [31]. Λαμβάνοντας υπόψη την πυκνή δομή του κάθε GO δικτύου, εφαρμόσαμε το σταθμισμένο Girvan και Newman (GN) αλγόριθμο [32] για τη μονάδα ανακάλυψη. Σε σύγκριση με άλλες υπάρχουσες μεθόδους που ξεκινούν με κόμβους σπόρων και να εξερευνήσετε την περιοχή για την υψηλή σκόραρε σπονδυλωτές δομές [11], [33] – [36], ο αλγόριθμος GN είναι άκρη προσανατολισμό και την αναζήτηση για παγκόσμια βέλτιστη ενότητες. Βασίζεται σε αλγόριθμο συντομότερης διαδρομής, υπολογίζει το betweenness όλων των ακμών και επαναλαμβάνεται απομακρύνει την άκρη με την υψηλότερη betweenness. Εδώ, ο όρος betweenness μιας ακμής καθορίζεται από το άθροισμα των όλων συντομότερα μονοπάτια που διέρχεται μέσα από αυτό και διαιρείται με το βάρος του αντίστοιχου άκρου. Η αρχική αλγόριθμος GN κόβει πάντα το δενδρόγραμμα σε υψηλότερη τιμή Q, η οποία οδηγεί σε μεγάλη διακύμανση του μεγέθους μονάδας και ενίοτε τεράστια μονάδες με χαμηλή βιολογική συνοχή [37]. Για να αποφύγετε αυτό το πρόβλημα, απαιτείται κάθε μονάδα να περιέχει όχι περισσότερο από 20 γονίδια. Οι λεπτομερείς διαδικασίες έχουν ως εξής:

Υπολογίστε betweenness βαθμολογίες όλων των ακμών σε κάθε GO δίκτυο

Βρείτε άκρη με την υψηλότερη βαθμολογία και να το αφαιρέσετε από το γράφημα

Επανάληψη.. παραπάνω βήματα μέχρι να υπάρχουν μεμονωμένες γραφικές παραστάσεις περιέχουν πάνω από 20 γονίδια.

Singletons με ένα μόνο γονίδιο αγνοήθηκαν.

Η

Rank διαφορικά εκφρασμένων μονάδων μεταξύ των όγκων με και χωρίς υποτροπή

οι αλλαγές έκφρασης μεταξύ των όγκων με και χωρίς υποτροπή αξιολογήθηκαν από την P-SAGE μας αλγόριθμο [38]. Για μια ενότητα

s

με συνολικά

k

γονίδια, η βαθμολογία των διαφορικών σημασίας (SDS) ορίζεται από: (2) όπου είναι η

t

βαθμολογία για την

i

ου γονιδίου στην ενότητα

s

. Παρατηρώντας ότι τα SDS σκορ συσχετίζεται με το μέγεθος της μονάδας

k

, λάβαμε αντίστοιχο p-τιμές τους από την κατανομή Χι τετράγωνη, τα οποία χρησιμοποιούνται για την ταξινόμηση των προσδιορισμένων λειτουργικών μονάδων σε αύξουσα σειρά. Μονάδες με υψηλότερες βαθμολογίες, δηλαδή τα πιο διαφορικά εκφρασμένων ενότητες με μικρότερες τιμές p, χρησιμοποιούνται για την πρόβλεψη της αξιολόγησης και την πρόγνωση.

Η πρόβλεψη πρόγνωση παράδειγμα

Το σύστημα του παραδείγματος πρόβλεψη.

Λαμβάνοντας υπόψη ένα σύνολο εκπαίδευσης των δειγμάτων όγκου, θα χωριστεί σε δύο ίσα μέρη, [R1] και [R2], το καθένα με n μη επαναλαμβανόμενες και n-1 όγκων επαναλαμβανόμενα. Αυτά τα δύο μισά θεωρούνται ως δύο ανεξάρτητες σύνολα δεδομένων. Στη συνέχεια, υποθέτουμε τον όγκο δοκιμής (δηλαδή μη επισημασμένη) Χ ως επαναλαμβανόμενα και το βάζουμε σε [R1] και [R2], δηλαδή [R1 + X] και [R2 + X]. Έχουμε εντοπίσει τα κορυφαία Ν ενότητες από [R1 + X] και [R2 + X], αντίστοιχα, και αν η εξέταση του όγκου Χ συνδέεται με υψηλό κίνδυνο υποτροπής, οι δύο ομάδες που προκύπτει ενότητες θα πρέπει να αλληλεπικαλύπτονται σημαντικά. Υπολογίσαμε την επικάλυψη ποσοστό (OPN), η οποία υπολογίζεται από το λόγο της τομής τους και την ένωσή τους, αφού ομαλοποιηθεί κατά τη σώρευση ποσοστό των αντίστοιχων μονάδων που προσδιορίζονται από το [R1] και [R2]. Για να αποφευχθεί η πιθανή προκατάληψη με ένα συγκεκριμένο διαχωρισμό, επαναλάβαμε τυχαία διάσπαση και πάνω από 10 φορές για να αποκτήσετε μια μέση . Τέλος, υπολογίζεται . Ανώτατη & lt? ΕΠ & gt? βαθμολογία υποδεικνύει υψηλότερο κίνδυνο υποτροπής που σχετίζονται με το Χ δοκιμή όγκου Με αυτόν τον τρόπο, θα αποφύγουμε την κοινή στρατηγική της βελτιστοποίησης μια αυθαίρετη συνάρτηση πυρήνα που δεν έχει καμία σαφή βιολογική βάση.

Αξιολόγηση και σύγκριση.

Για κάθε σύνολο δεδομένων, τα δείγματα όγκων της χωρίστηκαν σε μια σειρά κατάρτισης και ένα σύνολο ελέγχου. Έχουμε αναφερθεί το μέτρο επιδόσεις, την ακρίβεια και την AUC, με το πακέτο R, ROCR. Σε μία άδεια από την επικύρωση, ένας όγκος επιλεγεί τυχαία ως το σύνολο δοκιμής και οι υπόλοιποι όγκοι που χρησιμοποιούνται ως σύνολο εκπαίδευσης. Με τον τρόπο αυτό, η πρόβλεψη πραγματοποιήθηκε για n φορές, όπου η είναι ο συνολικός αριθμός των όγκων στο σύνολο δεδομένων. Σε επικυρώσεις με τον αριθμό των δειγμάτων εκπαίδευσης που 34, 18 ή 10, πραγματοποιήσαμε την πρόβλεψη για (η-34), (η-18) ή (η-10) φορές. Στη συνέχεια επιλέξαμε τυχαία το σύνολο εκπαίδευσης των όγκων για 5 ώρες και ανέφεραν τη μέση, μέγιστη και ελάχιστη απόδοση. Η παράσταση σε σύγκριση με άλλες μεθόδους που χρησιμοποιούν αυτά τα τρία σύνολα δεδομένων μικροσυστοιχιών

Αποτελέσματα

Χρησιμοποιήσαμε δύο ανεξάρτητα σύνολα δεδομένων των ασθενών με πρώιμο καρκίνο του παχέος εντέρου για να ελέγξει τις δύο βασικές υποθέσεις:. (1) η πιο διαφορικά εκφρασμένων ενότητες μη-τυχαία σχετίζεται με την υποτροπή του όγκου? (2) όπως μονάδες προσδιορίζονται από διαφορετικά σύνολα δεδομένων θα επικαλύπτονται σημαντικά σε περισσότερα γονίδια από τυχαία

Επισκόπηση των πιο διαφορικά εκφρασμένων μονάδων ταυτοποίησης

Ο προσδιορισμός των πιο διαφορικά εκφρασμένων ενότητες που περιλαμβάνονται τρία βασικά βήματα:. Δικτύου κατασκευή, τοπολογικές μονάδα ανακάλυψη, αξιολόγηση διαφορικής έκφρασης σε επίπεδο μονάδας (Σχήμα 1, περισσότερο λεπτομερή περιγραφή στο τμήμα ΤΡΟΠΟΣ ΚΑΙ MATRIERAL). Εν συντομία, έχουμε κατ ‘αρχάς σύμπλεγμα γονιδίων σε μεγάλες ομάδες με βάση GO σχολιασμό τους. Ως γονίδιο μπορεί να έχει περισσότερους από έναν λειτουργικό ρόλο, αυτές GO ομάδες μπορούν να επικαλύπτονται σε ορισμένα γονίδια. Αντί της κατασκευής ενός ενιαίου γιγαντιαίο δίκτυο, χρησιμοποιήσαμε τα δεδομένα αλληλεπίδρασης πρωτεΐνης για την κατασκευή δικτύων για κάθε μία από αυτές GO σύνολο γονιδίων και αναγνωρίστηκαν ενότητες πολλαπλών γονιδίων, δηλαδή ομάδες γονιδίων που είναι πυκνά συνδέονται σε τοπολογία του δικτύου και σχετικά ξεχωριστό από το δίκτυο υπόλοιπα. Τέλος, η διαφορική έκφραση της κάθε ενότητας μεταξύ των όγκων με και χωρίς υποτροπή της νόσου κατετάγη να αποκτήσει τα κορυφαία Ν ενότητες για μετέπειτα ανάλυση.

Ο εντοπισμός των πιο διαφορικά εκφρασμένων ενότητες περιλαμβάνουν τρία βασικά βήματα. Πρώτον, η GO συν-εκφράζεται δίκτυο κατασκευάζεται με συνδυασμένο δίκτυο αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης, που ήταν από την HPRD και βάση δεδομένων BioGRID, και GO γονίδιο καθορίζει μαζί. Οι άκρες του δικτύου ζυγίστηκαν από το επίπεδο συν-έκφραση των αντίστοιχων συνδεδεμένων κόμβων τους. Δεύτερον, λειτουργικές μονάδες εντοπίστηκαν από το σταθμισμένο αλγόριθμο Girvan-Newman [32]. Τέλος, οι λειτουργικές μονάδες κατατάχθηκαν στη διαφορική τους επίπεδα μεταξύ επαναλαμβανόμενες και μη επαναλαμβανόμενες όγκους που αξιολογήθηκαν από τον αλγόριθμο p-SAGE [38].

Η

Οι κατασκευασμένες δίκτυα GO περιέχει 4428 γονίδια συνολικά και για τις δύο φράγμα και γερμανικά σύνολα δεδομένων που χρησιμοποιούνται για την ίδια πλατφόρμα μικροσυστοιχιών. Πήραμε την κορυφή 100, 200, …, 500 μονάδες για μεταγενέστερη ανάλυση (Πίνακας S1). Οι ενότητες αυτές έχουν διαφορικά εκφρασμένων p-value δεν είναι μεγαλύτερη από 0.005 σε δύο γερμανικά σύνολο δεδομένων και Barrier σύνολο δεδομένων.

Τα πιο διαφορικά εκφρασμένων ενότητες είναι μη-τυχαία συνδέονται με την υποτροπή του όγκου

Όπως μπορεί να δει κανείς στο Σχήμα 2, βρήκαμε ένα σημαντικό εμπλουτισμό των γονιδίων που σχετίζονται με ορθοκολικό υποτροπής του καρκίνου σε αυτές τις ενότητες που προσδιορίζονται από το γερμανικό σύνολο δεδομένων σύμφωνα με δύο ΟΜΙΜ και PubGene σχολιασμοί (βλέπε Μέθοδοι). Για σκοπούς ελέγχου, δημιουργήσαμε σύνολα για το ίδιο ποσό των γονιδίων που αναγνωρίζονται ως οι πλέον εκφράζονται διαφορικά με τη χρήση της δοκιμής t επιμέρους γονίδιο που βασίζεται ( «γονίδια t-test»), ή τα πιο διαφορικά εκφραζόμενο γονίδιο σύνολα GO ανάλογα με P- ΣΟΦΌΣ. Σε σύγκριση με αυτές τις δύο ελέγχους, βρήκαμε τα υψηλότερα ποσοστά ορθοκολικού γονίδια που σχετίζονται με τον καρκίνο υποτροπής ήταν στην κορυφή των 50-500 μονάδων. Είναι περίπου 1.9~3.5 φορές (ΟΜΙΜ) και 2~2.7 φορές (PubGene) υψηλότερο σε σχέση με κορυφαία μεμονωμένα γονίδια, 2.6~4.7 φορές (ΟΜΙΜ) και 1.7~2.1 (PubGene) φορές υψηλότερο σε σχέση με κορυφαία σύνολα γονιδίων GO (Σχήμα 2 ). Παρόμοια αποτελέσματα παρατηρήθηκαν επίσης για Barrier σύνολο δεδομένων (Σχήμα S1).

γνωστά γονίδια CRC συλλέχθηκαν από το PubGene (Α) ή ΟΜΙΜ (Β). Τα ποσοστά συγκρίθηκαν με εκείνα στην κορυφαία διαφορικά εκφραζόμενων γονιδίων (γονίδια t-test) με τον ίδιο αριθμό γονιδίων σε κορυφαία Ν ενότητες, ή GO γονίδιο σύνολα με την ίδια ποσότητα κορυφαία Ν ενότητες.

Η

Συγκεκριμένα, κατά την ανάλυση της γερμανικής σύνολο δεδομένων, βρήκαμε τρεις χημειοκινών (CXCL9, CXCL10 και CXCL11) και την κοινή υποδοχέα τους CXCR3 στο top 10 μονάδες. Αυτό είναι συνεπές με την πρόσφατη ανακάλυψη ότι CXCR3 και ένα άλλο CXCL10 συνδέτη προώθηση ιδιότητες εισβολή που σχετίζονται με καρκίνο του παχέος εντέρου [39], [40]. Για να δούμε αν αυτά τα αποτελέσματα ήταν επαναλήψιμα, χωρίζουμε τυχαία γερμανικό σύνολο δεδομένων σε δύο ίσα μέρη, καθένα από τα οποία ένα μικρότερο σύνολο δεδομένων με 14 ή 15 μη επαναλαμβανόμενες όγκους και 13 επαναλαμβανόμενες όγκους, προσδιόρισε τις 100 κορυφαίες ενότητες και ελέγξτε αν αυτά τα γονίδια που σχετίζονται χημειοκινών θα εμφανιστούν . Πραγματοποιήσαμε τέτοιες τυχαίες διασπάσεις για 1000 φορές και μετρήθηκαν οι συχνότητες των γονιδίων που εμφανίζονται τουλάχιστον μια φορά και στα δύο ημίχρονα για την κορυφαία 100 μονάδες. Επίσης, λαμβάνοντας υπόψη τα γονίδια κόμβο που έχουν περισσότερο την αλληλεπίδραση εταίροι θα έχουν περισσότερες πιθανότητες να εμφανιστούν σε περισσότερες ενότητες, θα ομαλοποιηθεί η συχνότητα του κάθε γονιδίου κατά τη σύνδεσή του. Βρήκαμε τις τρεις χημειοκινών: CXCL10, CXCL9 και CXCL11, αλλά δεν υποδοχέα τους CXCR3, φαίνεται η πιο συχνή (30,5% -44,1%) σε όλους τους 1.000 διασπάσεις. Ωστόσο, πραγματοποιήσαμε την ίδια ανάλυση για Barrier σύνολο δεδομένων και δεν βρέθηκε καμία από τις τρεις χημειοκινών να εμφανίζονται στις πρώτες 100 μονάδες σε οποιαδήποτε τυχαία διάσπαση. Ωστόσο, βρήκαμε 19 και 18 των γονιδίων μέλος στο μονοπάτι σηματοδότησης χημειοκινών (190 γονίδια συνολικά), όπως επιμέλεια σε βάση δεδομένων KEGG εμφανίστηκε τουλάχιστον μία φορά σε κορυφαία 100 μονάδες στα γερμανικά σύνολο δεδομένων και Barrier σύνολο δεδομένων, αντίστοιχα (Πίνακας S2). Που επικαλύπτονται από 9 γονίδια (STAT2, STAT3, LYN, MAPK1, FOXO3, NFKB1, GSK3B, ΡΑΚ1 και PTK2B). Αυτά τα αποτελέσματα υποδεικνύουν μία πιθανότητα ότι οι κορυφαίες μονάδες ήταν σε θέση να συλλάβει ουσιαστικές αλλαγές (10%) στην οδό σηματοδότησης χημειοκίνης που συνδέονται με την επανεμφάνιση του όγκου και είναι αναπαραγώγιμη μεταξύ των διαφόρων συνόλων δεδομένων. Αλλά μπορεί να είναι δύσκολο να πάρει περαιτέρω σε συγκεκριμένα γονίδια σε αυτές τις ενότητες για να χρησιμοποιηθεί ως ισχυρό δείκτες.

Όπως όγκος αναπτύσσεται με τη συσσώρευση των σωματικών μεταλλάξεων, αξιολογήσαμε επίσης εάν υπάρχει σημαντική συσχέτιση μεταξύ των κορυφαίων μονάδων και οι σωματικές μεταλλάξεις εντοπίστηκαν σε καρκίνο του παχέος εντέρου από τις κοσμικές βάση δεδομένων. Εμείς εντοπίστηκε για πρώτη φορά τις ενότητες που περιέχουν σημαντική ποσότητα των μεταλλάξεων με την ακριβή δοκιμή Fisher (ρ αποκοπής: 0,05). Οι ενότητες αυτές ονομάστηκαν ως Μεταλλαγμένα Modules (MMS). Στη συνέχεια υπολογίζονται τα ποσοστά των MMS στο top ενότητες Ν και τις ενότητες υπόλοιπα να ληφθεί μια αναλογία εμπλουτισμού. Μία μεγαλύτερη αναλογία δείχνει υψηλότερο εμπλουτισμό μεταλλάξεων στην κορυφή ενότητες Ν. Για τα γερμανικά σύνολο δεδομένων, βρήκαμε κορυφή 50-500 μονάδες της επικαλύπτονται σημαντικά με ένα μήνυμα MMS (ακριβής δοκιμασία Fisher, p & lt? 0.002), με τις βαθμολογίες εμπλουτισμό περίπου 3-4 (Σχήμα 3). Σε αντίθεση, πραγματοποιήσαμε μια παρόμοια ανάλυση στην κορυφή γονίδια παρόμοιους αριθμούς που προσδιορίζονται από το συμβατικό t-test ( «γονιδίων t-test»), αλλά δεν βρήκε σημαντική επικάλυψη με γονίδια στην MMS (ακριβής δοκιμασία Fisher, p-τιμές & gt? 0,25). Τα ποσοστά των μεταλλαγμένων γονιδίων σε κορυφαία γονίδια t-test εναντίον των γονιδίων υπόλοιπα είναι παρόμοια. Για να εκτιμηθεί αν ο εμπλουτισμός των μεταλλάξεων στην κορυφή ενότητες συνδέονται με την υποτροπή του όγκου, θα μετατεθούν οι ετικέτες των «επανάληψης» και «μη-επανάληψης» για να προσδιορίσει τις κορυφαίες μονάδες και βρέθηκε αναλογίες εμπλουτισμό τους είναι περίπου 1,3, η οποία είναι συγκρίσιμα με εκείνα της τα γονίδια t-test. Τα παρόμοια αποτελέσματα βρέθηκαν επίσης σε Barrier σύνολο δεδομένων (Εικόνα S2).

Αντίθετα, οι έλεγχοι είναι από το γονίδιο t-test και μεταθέσεις δοκιμής. ανάλυση του γονιδίου Τ-test διεξήχθη με χρήση του ίδιου αριθμού κορυφή διαφορικά εκφραζόμενων γονιδίων ως ο αριθμός των γονιδίων που καλύπτονται από τις αντίστοιχες ενότητες κορυφή Ν.

Η

Για το σκοπό αυτό, επιβεβαίωσε την αρχική μας υπόθεση ότι η προσδιορίζονται κορυφή ενότητες μη-τυχαία συνδέεται με υποτροπή του όγκου σε δύο διαφορετικές ανεξάρτητες σύνολα δεδομένων. Ως εκ τούτου, αυτές οι ενότητες μπορούν να χρησιμοποιηθούν ως πιο ισχυρή από ό, τι παράγοντες πρόβλεψης ειδικά γονίδια για την πρόβλεψη της πρόγνωσης.

Τα πιο εκφράζονται διαφορικά ενότητες είχαν υψηλότερη επαναληψιμότητα

Στη συνέχεια, εξετάσαμε αν τα επικαλυπτόμενα ποσοστά κορυφή ενότητες είναι σημαντικά υψηλότερο από ό, τι οι έλεγχοι για να χρησιμοποιηθεί ως μια διακριτική μέτρηση. Εντοπίσαμε κορυφή 100-1000 μονάδες από το Φράγμα και τα γερμανικά σύνολα δεδομένων, αντίστοιχα, και βρέθηκε αυτές ενότητες από τις δύο διαφορετικά σύνολα δεδομένων επικαλύπτονται σημαντικά (p & lt? 1.75E-74). επικαλυπτόμενες ποσοστά τους (25,3% -54,9%) είναι πάνω από 7 φορές υψηλότερες από τις επικαλυπτόμενες ποσοστά των κορυφαίων γονιδίων t-test (3,3% -6,6%) και είναι επίσης περίπου 2 φορές από τις μέσες επικαλυπτόμενες ποσοστά για τις κορυφαίες μονάδες προσδιορίζονται μετά από μετάθεση ετικέτες (Σχήμα 4). Αξίζει να σημειωθεί ότι, αυτές οι επικαλύψεις ποσοστά είναι επίσης υψηλότερες από τις ακραίες τιμές που λαμβάνονται στις περιπτώσεις μετάθεσης, όπως ακραίες τιμές (δοκιμή ακραίων Grubbs, τιμές p & lt? 0.006). Στο σύνολό τους, τα αποτελέσματα αυτά υποστηρίζονται δεύτερη υπόθεση μας και πρότεινε τις επικαλυπτόμενες ποσοστά των κορυφαίων ενότητες είναι κατατοπιστική για να προβλέψει επανεμφάνιση του όγκου.

Η αλληλοεπικάλυψη ποσοστό υπολογίζεται ως ο λόγος για τον αριθμό τομής και ένωσης των γονιδίων. Συγκρίναμε το ποσοστό των επικαλυπτόμενων γονιδίων σε κορυφαία Ν ενότητες, κορυφή γονίδια t τεστ με τον ίδιο αριθμό γονιδίων σε κορυφαία ενότητες Ν, και τα αντίστοιχα στοιχεία ελέγχου δοκιμής μετάθεση τους.

Η

Ένα νέο ταξινομητής με βάση την πιο διαφορικά εκφρασμένων ενότητες μπορούν να δώσουν πιο ισχυρή προβλέψεις πρόγνωση

Δεδομένου παραπάνω επικυρώσεις δύο βασικές υποθέσεις μας, σχεδιάσαμε το παράδειγμα πρόβλεψη πρόγνωση ως εξής. Εν συντομία, έχουμε χωρίσει το σύνολο της κατάρτισης των όγκων σε δύο διαφορετικά σύνολα. Κάθε σετ περιέχει δύο επαναλαμβανόμενες και μη επαναλαμβανόμενες όγκους, έτσι ώστε οι αντίστοιχες κορυφαίες μονάδες μπορεί να συναχθεί. Μια επικαλυπτόμενες ποσοστό (OP_old) από αυτές τις ενότητες από τις δύο ομάδες είχε υπολογιστεί. Λαμβάνοντας υπόψη μια δοκιμή όγκου, που υποτίθεται ότι είναι «επαναλαμβανόμενες» και το βάζουμε σε κάθε σετ να εντοπίσει τα νέα κορυφαία ενότητες και υπολογίζεται το νέο επικαλυπτόμενες ποσοστό (OP_new). Αν ο όγκος της δοκιμής είναι «επαναλαμβανόμενες» όπως αναμενόταν, τα παλαιά και τα νέα επικαλυπτόμενες ποσοστά θα πρέπει να είναι συγκρίσιμα? Αλλιώς, οι νέες επικαλύψεις ποσοστά θα είναι χαμηλότερο. Με αυτόν τον τρόπο, αποφύγαμε τη χρήση των συγκεκριμένων γονιδίων, αλλά χρησιμοποίησε το σύνολο των πληροφοριών από τα κορυφαία ενοτήτων, εφόσον, όπως αναφέρεται παραπάνω, μόνο το τελευταίο είναι μη-τυχαία σχετίζονται με υποτροπή του όγκου. Αποφύγαμε επίσης την προβληματική βήμα των στοιχείων τοποθέτηση της κατάρτισης του όγκου σε μια αυθαίρετη στατιστική λειτουργία. Αντ ‘αυτού, οι επικαλυπτόμενες ποσοστά των κορυφαίων μονάδων χρησιμοποιήθηκαν οποίο δείξαμε πρέπει να έχει επαρκή διακριτική εξουσία. Περισσότερες λεπτομέρειες μπορείτε να βρείτε στην ενότητα ΤΡΟΠΟΣ ΚΑΙ MATRIERAL και Σχήμα 5. Στη συνέχεια, έχουμε αποδείξει την αξιολόγηση αυτής της μεθόδου σε τρία ανεξάρτητα σύνολα δεδομένων και σύγκριση των επιδόσεων της με εκείνη των προηγούμενων μεθόδων που χρησιμοποιούν τα ίδια σύνολα δεδομένων.

Η σύνολα εκπαίδευσης όγκου πρώτα δείγματα τυχαία από το σύνολο σύνολα δεδομένων του όγκου και στη συνέχεια χωρίζεται τυχαία σε δύο ίσα μέρη, κάθε μέρος, συμπεριλαμβανομένων των μη επαναλαμβανόμενων και επαναλαμβανόμενα σετ. αντίστοιχη κορυφή μονάδες τους είχαν συναχθεί από την προσέγγιση που αναφέρθηκε παραπάνω και η επικάλυψη ποσοστό (OP_old) υπολογίστηκε. Για κάθε δοκιμή όγκου X, το βάζουμε μέσα στις επαναλαμβανόμενες ομάδες και για τα δύο μέρη να αποτελούν τις νέες μήτρες έκφρασης. Οι πιο διαφορικά εκφρασμένων ενότητες για δύο νέες μήτρες έκφραση συναχθεί αντίστοιχα. Η αλληλοεπικάλυψη ποσοστό (OP_new) αυτών των δύο συνόλων πάνω μονάδων υπολογίζεται και κανονικοποιείται από το OP_old. Λαμβάνοντας υπόψη την προκατάληψη από τη διάσπαση στο στάδιο 2, οι τυχαίες διασπάσεις επαναλήφθηκαν 10 φορές. Ο μέσος όρος των κανονικοποιημένων ΕΠ έχει εκχωρηθεί σε δοκιμή X. όγκου

Η

Αφήστε ένα έξω επικύρωση.

Θα αξιολογηθεί πρώτα η απόδοση της μεθόδου πρόβλεψης μας Αφήστε-One-Out επικύρωσης, η οποία είναι μια δημοφιλής επιλογή που χρησιμοποιείται σε προηγούμενες μελέτες. Έχουμε αναφερθεί τα αποτελέσματα της ακρίβειας (το πραγματικό θετικό ρυθμό στο πλησιέστερο σημείο προς σημείο (0,1) του ROC), την ευαισθησία, την ειδικότητα και την AUC σε σύγκριση με τις υπάρχουσες ταξινομητές πολλαπλών γονιδίων (Σχήμα 6, το λεπτομερείς πληροφορίες στον πίνακα S3 ). Για τα γερμανικά σύνολο δεδομένων, η μέθοδός μας επιτυγχάνεται υψηλότερη απόδοση από ό, τι τα τελευταία δύο μεθόδους, ακρίβεια 76%, περίπου 5-7% υψηλότερα (Lin07: 71%? Garman08: 69%), ευαισθησία 65%, περίπου 3-24% υψηλότερη (Lin07: 62%? Garman08: 41%), και ειδικότητα 93%, περίπου 5-14% υψηλότερη (Lin07: 79%? Garman08: 88%). Για Barrier σύνολο δεδομένων, η μέθοδός μας πέτυχε ακρίβεια 74%, ευαισθησία 72%, ειδικότητα 84%, η οποία είναι ελαφρώς μικρότερη από την Barrier06 αποτελέσματα (ακρίβεια: 80%? Ευαισθησία: 75%? Ειδικότητα: 85%) με τη χρήση αυτό το σύνολο δεδομένων και τα προκύπτοντα υπογραφές Barrier06. Αλλά είναι πολύ υψηλότερο από ό, τι άλλο αποτέλεσμα χρησιμοποιώντας το ίδιο σύνολο δεδομένων και μια άλλη υπογραφή Wang04 (ακρίβεια: 67%). Για GSE5206 σύνολο δεδομένων που δεν έχει καμία συγκεκριμένη παρακολούθηση του χρόνου, η μέθοδός μας επιτυγχάνεται το χαμηλότερο, αλλά εξακολουθεί εύλογη ακρίβεια (68%). Επίσης, είναι πολύ χαμηλότερες από τις τιμές ακριβείας επιτυγχάνεται με τις πρωτότυπες μεθόδους που εφευρέθηκε χρησιμοποιώντας αυτό το σύνολο δεδομένων (90%? Garman08 μέθοδος). Ωστόσο, σημειώνεται ότι η μέθοδος αυτή Garman08, όταν εφαρμόζεται σε ένα διαφορετικό σύνολο δεδομένων (γερμανικά σύνολο δεδομένων), επιτυγχάνεται μόνο το 69% ακρίβεια. Η διαφορά περίπου 21% της μεθόδου Garman08 σε διαφορετικά σύνολα δεδομένων μπορούν να προτείνουν μια πιθανή πάνω-τοποθέτηση πρόβλημα της ταξινομητής της ή ανεπιθύμητα υψηλή μεταβλητότητα στην απόδοση του. Σε αντίθεση, οι μέθοδοι μας είχε πολύ μικρότερη μεταβλητότητα (8% διαφορά), με ακρίβεια 74-76% για τα πρώτα στάδια (Ι ή ΙΙ) όγκων σε Barrier και γερμανικά σύνολα δεδομένων, και 68% ακρίβεια για το στάδιο I-IV όγκων σε GSE5206 σύνολο δεδομένων. Οι αντίστοιχες τιμές AUC της μεθόδου μας ήταν επίσης παρόμοια σε όλες τις τρεις ομάδες δεδομένων: η γερμανική. – 79%, Barrier – 79% και GSE5206 – 70%

Η σύγκριση της AUC (Α) και την ακρίβεια (Β) για τρεις σύνολα δεδομένων: διαφορετικά συστήματα σχήμα και χρώμα υποδεικνύουν τρία ανεξάρτητα σύνολα δεδομένων (πορτοκαλί κύκλο: η γερμανική σύνολο δεδομένων? μπλε διαμάντι: Φράγμα σύνολο δεδομένων? πράσινο τετράγωνο: GSE5206 σύνολο δεδομένων). μεθόδους TX_Y (X: top 500 ή 1000 MDMs? Υ: 10 ή 18 όγκους αναφοράς ή Αφήστε-One-Out μέθοδο (LOO)). Τα γεμάτα σύμβολα δηλώνουν τη μέση τιμή των AUC? Η σύγκριση των ακρίβειες (C), ευαισθησίες (D) και εξειδικεύσεις (Ε) για την πρόβλεψη πρόγνωση μεταξύ μέθοδος μας και τις μεθόδους του παρόντος με το ίδιο σύνολα δεδομένων, περιλαμβανομένων των LOO αποτελέσματα από Lin07 (L) [3], Garman08 (G) [42] , Barrier06 (Β) [5], καθώς επίσης και τα αποτελέσματα της Barrier06 για ελήφθησαν χρησιμοποιώντας 34 όγκους (TS34), 18 όγκους (TS18) ή 10 όγκων (TS 10) ως το σύνολο εκπαίδευσης. Τα γεμάτα σύμβολα είναι μέση τιμή. * Τα σημεία στο διακεκομμένη κύκλο είναι τα αποτελέσματα από τις μεθόδους που έχουν επικυρωθεί με τη χρήση ιθύνοντες ανακαλύφθηκε από τον ένα και τον ίδιο σύνολο δεδομένων.

Η

Για την επαλήθευση των επιπτώσεων του μεγέθους δείγματα για τις μεθόδους πρόβλεψης, μικρότερα δείγματα μεγέθους στο 34, 18, 10 έχουν διεξαχθεί. Η μέση τιμή και το εύρος (η ελάχιστη και μέγιστη τιμή) της ακρίβειας, την ευαισθησία, την ειδικότητα και την AUC αναφέρονται σε κάθε περίπτωση (Εικόνα 6, οι λεπτομερείς πληροφορίες στον πίνακα S3, και η καμπύλη ROC στο σχήμα S3).

Επικύρωση με 34 δείγματα εκπαίδευσης.

Εμείς τυχαία πήρε n δείγματα από κάθε σύνολο δεδομένων, όπου n = 34, η κατάρτιση που να προβλέψει τον κίνδυνο υποτροπής για τους υπόλοιπους όγκους. Για τις γερμανικές και Barrier σύνολα δεδομένων, οι επιδόσεις είναι πολύ υψηλότερο από ό, τι τα αποτελέσματα επικύρωσης LOO. Πιο αναλυτικά, για τις γερμανικές σύνολο δεδομένων, η μέθοδός μας πέτυχε ακρίβεια 78%, AUC του 80%, ευαισθησία 80% και ειδικότητα 76%. Για Barrier σύνολα δεδομένων, θα επιτευχθεί μεγαλύτερη ακρίβεια του 81% και ειδικότητα 86%, και λιγότερη ευαισθησία του 78% σε σχέση με άλλες μεθόδους (χρησιμοποιώντας Barrier υπογραφή: ακρίβεια: 80%? Ευαισθησία: 91%? Ειδικότητα: 72%? Χρησιμοποιώντας Wang04 υπογραφή: Ακρίβεια: 70%). Επιπλέον, η μέθοδος μας είχε μόνο πολύ λιγότερο μεταβλητότητα (13% για Barrier σύνολο δεδομένων) από εκείνη της μεθόδου Barrier06 (31%). Για GSE5206 σύνολα δεδομένων, η απόδοση είναι παρόμοια με την επικύρωση LOO, με ακρίβεια 70%, AUC του 66%, ευαισθησία 74% και ειδικότητα 68%.

Επικύρωση με 18 ή 10 δείγματα εκπαίδευσης.

You must be logged into post a comment.