PLoS One: Η ακριβής και αξιόπιστη Καρκίνος Ταξινόμηση βασισμένη σε πιθανοτική Συμπερασμός της Οδού Δραστηριότητα


Abstract

Με την έλευση των τεχνολογιών υψηλής απόδοσης για μέτρηση της έκφρασης του γονιδιώματος σε επίπεδο, ένας μεγάλος αριθμός μεθόδων έχει προταθεί για την ανακάλυψη διαγνωστικών δεικτών που μπορούν με ακρίβεια διακρίνουν μεταξύ διαφορετικών κατηγοριών μιας ασθένειας. Ωστόσο, παράγοντες όπως το μικρό μέγεθος του δείγματος των τυπικών κλινικών δεδομένων, την εγγενή θόρυβο στις μετρήσεις υψηλής απόδοσης, και την ετερογένεια μεταξύ των διαφόρων δειγμάτων, καθιστούν συχνά δύσκολο να βρεθούν αξιόπιστες δείκτες γονίδιο. Για να ξεπεραστεί αυτό το πρόβλημα, αρκετές μελέτες έχουν προτείνει τη χρήση των δεικτών βάσει διαδρομής, αντί για μεμονωμένα δείκτες γονιδίων, για την κατασκευή του ταξινομητή. Λαμβάνοντας υπόψη μια σειρά από γνωστές οδούς, οι μέθοδοι αυτές εκτιμούν το επίπεδο δραστηριότητας του κάθε μονοπατιού συνοψίζοντας τις αξίες της έκφρασης των γονιδίων του μέλους της, και να χρησιμοποιούν τις δραστηριότητες οδός για την ταξινόμηση. Έχει δειχθεί ότι οι ταξινομητές βάσει διαδρομής αποδώσει συνήθως πιο αξιόπιστα αποτελέσματα σε σύγκριση με τις παραδοσιακές ταξινομητές γονίδιο που βασίζεται. Στην εργασία αυτή, προτείνουμε μια νέα μέθοδο ταξινόμησης βασίζεται στην πιθανολογική συναγωγή των δραστηριοτήτων της οδού. Για ένα δεδομένο δείγμα, υπολογίζουμε την αναλογία λογαριθμική πιθανότητα μεταξύ διαφορετικών φαινοτύπων της νόσου με βάση το επίπεδο της έκφρασης του κάθε γονιδίου. Η δραστικότητα μιας δεδομένης οδού στη συνέχεια συνάγεται από το συνδυασμό των αναλογιών log-πιθανότητα των γονιδίων συστατικών. Έχουμε εφαρμόσει την προτεινόμενη μέθοδο για την ταξινόμηση της μετάστασης του καρκίνου του μαστού, και να δείξει ότι επιτυγχάνει μεγαλύτερη ακρίβεια και προσδιορίζει περισσότερο επαναλήψιμη δείκτες πορείας σε σχέση με διάφορες υπάρχουσες μεθόδους εξαγωγής συμπερασμάτων δραστηριότητα οδού

Παράθεση:. Su J, Yoon BJ, Dougherty ER (2009) ακριβείς και αξιόπιστες Καρκίνος Ταξινόμηση βασισμένη σε πιθανοτική Συμπερασμός της Οδού δραστηριότητας. PLoS ONE 4 (12): e8161. doi: 10.1371 /journal.pone.0008161

Επιμέλεια: Gustavo Stolovitzky, η IBM Thomas J. Watson Research Center, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 18, Σεπ 2009? Αποδεκτές: 13 του Νοεμβρίου του 2009? Δημοσιεύθηκε: 7 Δεκεμβρίου, 2009

Copyright: © 2009 Su et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Edward R . Dougherty υποστηρίζεται εν μέρει από το Εθνικό Ίδρυμα Επιστημών, CCF-0634794. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Η εισαγωγή των προσιτών τεχνολογιών μικροσυστοιχιών για τη μέτρηση της έκφρασης των γονιδιώματος σε επίπεδο έχει οδηγήσει στην ανάπτυξη πολλών μεθόδων για τη διάκριση μεταξύ των διαφόρων κατηγοριών μιας σύνθετης νόσου, όπως ο καρκίνος, μέσω της ανάλυσης μεταγραφικό [1] – [4 ]. Ειδικά, έχουν υπάρξει σημαντικές ερευνητικές προσπάθειες για τον εντοπισμό διαφορικά εκφραζόμενων γονιδίων σε διαφορετικούς φαινοτύπους [5] – [9], το οποίο μπορεί να χρησιμοποιηθεί ως διαγνωστικοί δείκτες για την ταξινόμηση των νοσηρών καταστάσεων ή την πρόβλεψη της έκβασης των ιατρικών θεραπειών [1] – [4] [10] – [12]. Ωστόσο, η εξεύρεση αξιόπιστων δεικτών γονίδιο είναι ένα δύσκολο πρόβλημα, και αρκετές πρόσφατες μελέτες έχουν θέσει υπό αμφισβήτηση την αξιοπιστία των πολλών ταξινομητών με βάση την ατομική δείκτες γονίδιο [13] – [19]. Το μικρό μέγεθος του δείγματος των τυπικών κλινικών δεδομένων που χρησιμοποιούνται για την κατασκευή ενός ταξινομητή είναι ένας από τους σημαντικότερους παράγοντες που καθιστούν αυτό το πρόβλημα δύσκολη. Συχνά πρέπει να ψάξετε για ένα μικρό αριθμό καλών γονιδίων σήμανσης μεταξύ των χιλιάδων γονιδίων βασίζεται σε περιορισμένο αριθμό δειγμάτων, γεγονός που καθιστά την απόδοση των παραδοσιακών μεθόδων επιλογής χαρακτηριστικών αρκετά απρόβλεπτη [20]. Η εγγενής θόρυβος μέτρησης υψηλής απόδοσης πειραματικών δεδομένων και η ετερογένεια μεταξύ των δειγμάτων και οι ασθενείς να κάνει το πρόβλημα ακόμα πιο τρομερή.

Ένας πιθανός τρόπος για να αντιμετωπιστεί αυτό το πρόβλημα είναι να ερμηνεύσει τα δεδομένα έκφρασης στο επίπεδο των λειτουργικών μονάδων, όπως μονοπάτια και μοριακά σύμπλοκα σηματοδότησης, αντί στο επίπεδο των μεμονωμένων γονιδίων. Στην πραγματικότητα, μία από τις αδυναμίες πολλών γονιδίων με βάση τις μεθόδους ταξινόμησης είναι ότι τα γονίδια σημειωτή συχνά επιλέγονται ανεξαρτήτως, αν και λειτουργικά προϊόντα τους μπορούν να αλληλεπιδρούν μεταξύ τους. Ως εκ τούτου, οι επιλεγμένες γονιδιακοί δείκτες μπορούν να περιέχουν περιττές πληροφορίες, και δεν μπορούν συνεργικά να βελτιώσει τη συνολική απόδοση του ευρετηρίου. Μπορούμε να αμβλύνουν το πρόβλημα αυτό με την από κοινού ανάλυση των επιπέδων έκφρασης των ομάδων λειτουργικώς συναφή γονίδια, τα οποία μπορούν να ληφθούν με βάση την ανάλυση μεταγραφικό [21] – [23], GO σχολιασμούς [24], ή άλλες πηγές. Στην πραγματικότητα, αρκετές μελέτες [23], [25] – [28] έχουν δείξει ότι η οδός δείκτες είναι περισσότερο αναπαραγώγιμα σε σύγκριση με τους δείκτες μόνο γονίδιο και μπορούν να παρέχουν σημαντικές βιολογικές διαλεύκανση των βασικών μηχανισμών που οδηγούν σε διαφορετικούς φαινοτύπους της νόσου. Επιπλέον, ταξινομητές βάσει διαδρομής συχνά επιτευχθεί συγκρίσιμη ή καλύτερη απόδοση ταξινόμησης σε σχέση με τις παραδοσιακές ταξινομητές γονίδιο που βασίζεται.

Για να χρησιμοποιήσετε δείκτες βάσει διαδρομής στην ταξινόμηση, χρειαζόμαστε έναν τρόπο να συμπεράνουμε τη δραστηριότητα ενός συγκεκριμένου μονοπατιού με βάση τα επίπεδα έκφρασης των συστατικών γονιδίων. Πρόσφατα, ένας αριθμός μεθόδων εξαγωγής συμπερασμάτων δραστηριότητας μονοπάτι έχουν προταθεί για το σκοπό αυτό. Για παράδειγμα, Guo et al. [25] πρότεινε να χρησιμοποιηθεί η μέση ή διάμεση τιμή έκφρασης των γονιδίων μέλος να συναχθεί η δραστηριότητα οδό. Tomfohr et al. [28] και Bild et al. [23] χρησιμοποίησαν την πρώτη κύρια συνιστώσα του προφίλ έκφρασης των γονιδίων μέλος για να εκτιμηθεί η δραστικότητα μιας δεδομένης οδού. Πιο πρόσφατα, οι Lee et al. [26] πρότεινε μία μέθοδο η οποία προβλέπει την δραστικότητα μονοπάτι χρησιμοποιώντας μόνο ένα υποσύνολο των γονιδίων στο μονοπάτι, που ονομάζονται γονίδια προϋπόθεση αποκρίνεται (CORGs), των οποίων η συνδυασμένη έκφραση των επιπέδων μπορεί να διακρίνει με ακρίβεια τις φαινοτύπους ενδιαφέροντος.

το έγγραφο αυτό, προτείνουμε μια νέα μέθοδο για την πιθανολογική συμπερασματολογία των δραστηριοτήτων της οδού. Για ένα δεδομένο μονοπάτι, η προτεινόμενη μέθοδος υπολογίζει την αναλογία λογαριθμική πιθανότητα μεταξύ διαφορετικών φαινοτύπων με βάση το επίπεδο της έκφρασης του κάθε γονιδίου μέλους. Το επίπεδο δραστικότητας της οδού κατόπιν συνάγεται από το συνδυασμό των αναλογιών log-πιθανότητα των γονιδίων που ανήκουν στην οδό. Εφαρμόζουμε τη μέθοδο μας στην κατάταξη της μετάστασης του καρκίνου του μαστού, και να αποδείξει ότι μπορεί να επιτύχει μεγαλύτερη ακρίβεια σε σύγκριση με αρκετές προηγούμενες προσεγγίσεις βάσει διαδρομής. Επιπλέον, δείχνουμε ότι η προτεινόμενη οδός μέθοδος εξαγωγής συμπερασμάτων δραστηριότητα να βρείτε περισσότερες επαναλήψιμη δείκτες μονοπάτι που διατηρούν τη διακριτική εξουσία σε διαφορετικά σύνολα δεδομένων.

Μέθοδοι

Σύνολα

Έχουμε λάβει δύο ανεξάρτητες καρκίνο του μαστού σύνολα δεδομένων από μελέτες γονιδιακής έκφρασης σε μεγάλη κλίμακα από τον Wang et al. [11] (που αναφέρεται ως το σύνολο δεδομένων «ΗΠΑ» σε αυτό το έργο) και Van’t Veer et al. [10] (που αναφέρεται ως «Κάτω Χώρες» σύνολο δεδομένων). Wang et al. Σύνολο δεδομένων [11] περιέχει τα προφίλ γονιδιακής έκφρασης των 286 ασθενών με καρκίνο του μαστού από τις ΗΠΑ, όπου μετάσταση ανιχνεύθηκε σε 107 από αυτούς, ενώ οι υπόλοιπες 179 ήταν μετάσταση-free. Το άλλο σύνολο δεδομένων που μελετήθηκαν από Van’t Veer et al. [10] περιέχει τα προφίλ γονιδιακής έκφρασης των 295 ασθενών από την Ολλανδία, όπου 79 είχαν μετάσταση και 216 ήταν μετάσταση-free. Σε αυτή τη μελέτη, δεν είχαμε εξετάσει το χρόνο παρακολούθησης ή την εμφάνιση των μακρινών μεταστάσεων.

Για να αποκτήσετε το σύνολο των γνωστών βιολογικών μονοπατιών, που αναφέρεται στο (βάση δεδομένων Μοριακής υπογραφές) MSigDB έκδοση 2.4 (ενημέρωση Απρίλιος 7, 2008) [21]. Έχουμε κατεβάσει τα κανονικών μονοπατιών στα C2 επιμέλεια σύνολα γονίδιο, το οποίο περιέχει 639 σύνολα γονιδίου που λαμβάνεται από διάφορες βάσεις δεδομένων μονοπάτι, συμπεριλαμβανομένου του KEGG (Kyoto Εγκυκλοπαίδεια γονιδίων και γονιδιωμάτων) βάση δεδομένων [29] και το GenMAPP [30]. Αυτά τα σύνολα γονιδίων που καταρτίζονται από εμπειρογνώμονες του τομέα και παρέχουν κανονική αναπαραστάσεις των βιολογικών διεργασιών. Το σύνολο των οδών που λαμβάνεται από την MSigDB καλύπτει περισσότερα από 5.000 διακριτά γονίδια, όπου 3.271 από αυτά μπορούν να βρεθούν σε δύο πλατφόρμες μικροσυστοιχιών που χρησιμοποιούνται από τις μελέτες γονιδιακής έκφρασης του καρκίνου του μαστού σε δύο [10], [11].

πιθανολογική Συμπερασμός της οδού Δραστηριότητα

Για κάθε διαδρομή, εντοπίσαμε πρώτα τα γονίδια που περιλαμβάνονται στα προφίλ έκφρασης στα δύο σύνολα δεδομένων του καρκίνου του μαστού. Τα γονίδια που δεν περιλαμβάνονται σε αυτά τα σύνολα δεδομένων αφαιρούνται από το γονίδιο ορίζεται για την δεδομένη οδό. Εξετάστε ένα μονοπάτι που περιέχει γονίδια μετά την αφαίρεση των γονιδίων των οποίων οι τιμές έκφραση δεν ήταν διαθέσιμα. Λαμβάνοντας υπόψη ένα δείγμα που περιέχει τα επίπεδα έκφρασης των γονιδίων μέλος, εκτιμούμε την δραστικότητα ως εξής οδό (1) όπου η αναλογία είναι λογαριθμική πιθανότητα (LLR) μεταξύ των δύο φαινοτύπους του ενδιαφέροντος για το γονίδιο. Η LLR δίνεται από (2), όπου είναι η συνάρτηση όρους πυκνότητας πιθανότητας (PDF) του επιπέδου έκφρασης του γονιδίου υπό φαινότυπο 1, και είναι η υπό όρους PDF κάτω φαινότυπο 2. Η αναλογία είναι μια πιθανολογική δείκτης που μας λέει ποια φαινότυπος είναι πιο πιθανόν με βάση το επίπεδο έκφρασης του γονιδίου ου μέλος. Συνδυάζουμε τα στοιχεία από όλα τα γονίδια μέλος να συμπεράνει τη συνολική δραστηριότητα της οδού. Η δραστηριότητα μονοπάτι μπορεί να χρησιμεύσει ως διακριτική βαθμολογία για την ταξινόμηση του δείγματος σε διαφορετικούς φαινοτύπους με βάση το επίπεδο ενεργοποίησης του δεδομένου μονοπατιού. Εννοιολογικά, μπορούμε να δούμε αυτή την προσέγγιση ως τον υπολογισμό της σχετικής στήριξης για τις δύο διαφορετικών φαινοτύπων χρησιμοποιώντας ένα Naive Bayes μοντέλο [31], [32] με βάση το προφίλ της γονιδιακής έκφρασης του μονοπατιού.

Για να υπολογίσουμε το LLR τιμή, θα πρέπει να εκτιμηθεί το PDF για κάθε φαινότυπο. Υποθέτουμε ότι το επίπεδο έκφρασης του γονιδίου του γονιδίου υπό φαινοτύπου ακολουθεί μια κατανομή Gauss με μέσο όρο και την τυπική απόκλιση. Αυτές οι παράμετροι εκτιμήθηκαν βάσει όλων των διαθέσιμων δειγμάτων που αντιστοιχούν στην φαινότυπο. Οι εκτιμώμενες αρχεία PDF μπορεί στη συνέχεια να χρησιμοποιηθεί για τον υπολογισμό των δεικτών log-πιθανότητας. Σε πρακτικές εφαρμογές, που συχνά δεν έχουν αρκετά δεδομένα εκπαίδευσης για την αξιόπιστη εκτίμηση των αρχείων PDF και. Αυτό μπορεί να κάνει τον υπολογισμό του LLRs ευαίσθητη σε μικρές αλλαγές στο προφίλ έκφρασης γονιδίου. Για να αποφευχθεί αυτό το πρόβλημα, ομαλοποίηση της ως εξής (3), όπου και είναι η μέση τιμή και τυπική απόκλιση σε όλες δείγματα, αντίστοιχα. Το Σχήμα 1 απεικονίζει τη γενική διαδικασία για την συναγωγή της δραστικότητας μιας δεδομένης οδού.

Για κάθε γονίδιο στο μονοπάτι, εκτιμούμε τις υπό όρους συναρτήσεις πυκνότητας πιθανότητας (PDF με) υπό διαφορετικούς φαινοτύπους. Με βάση την εκτιμώμενη αρχεία PDF, θα μετατρέψει τις αξίες της έκφρασης των γονιδίων του μέλους σε αναλογίες λογαριθμική πιθανοφάνεια (LLRs) για να ληφθεί μια μήτρα LLR από τη μήτρα της γονιδιακής έκφρασης. Η μήτρα LLR είναι συνέχεια κανονικοποιούνται, και η δραστηριότητα οδός προκύπτει από το συνδυασμό των κανονικοποιημένων LLRs των γονιδίων του μέλους της.

Η

διακριτική δύναμή της Οδού Μαρκαδόροι

Για να συγκρίνετε η προτεινόμενη οδός σύστημα εξαγωγής συμπερασμάτων δράσης με άλλες υπάρχουσες μεθόδους, εκτελέσαμε τα ακόλουθα πειράματα. Στο πρώτο μας πείραμα, επιλέξαμε τα 50 διαφορικά εκφρασμένων οδών χρησιμοποιώντας τη μέθοδο που προτείνει Tian et al. [22]. Για να εκτιμηθεί η ικανότητα ενός δεδομένου μονοπατιού σε διακρίσεις μεταξύ των διαφορετικών φαινοτύπων, Tian et al. υπολογίζει τις -test στατιστικά αποτελέσματα για όλα τα γονίδια του μέλους και να λαμβάνουν κατά μέσο όρο τους για να υπολογίσει μια συγκεντρωτική βαθμολογία που μπορεί να χρησιμεύσει ως δείκτης της διακριτικής εξουσίας του μονοπατιού του. Μετά prescreening τα 50 μονοπάτια που έχουν τις μεγαλύτερες απόλυτες τιμές, υπολογίσαμε το σκορ δραστηριότητας για κάθε μία από αυτές τις πορείες με τη χρήση της προτεινόμενης μεθόδου συμπέρασμα, καθώς και άλλες μεθόδους. Τα λαμβανόμενα οδός βαθμολογίες δραστηριότητα χρησιμοποιήθηκαν στη συνέχεια για τον υπολογισμό σκοράρει τα -test στατιστικά στοιχεία για κάθε δείκτη πορείας. . Οι -test βαθμολογίες χρησιμοποιήθηκαν για να εκτιμηθεί η διακριτική εξουσία των δεικτών πορείας και να συγκρίνουν τις διάφορες μεθόδους εξαγωγής συμπερασμάτων

Σε αυτή την εργασία, συγκρίναμε πέντε διαφορετικές μεθόδους συμπέρασμα δραστηριότητα οδός: τη μέση και τα μεσαία μεθόδους [25], η μέθοδος PCA με βάση [23], [28], η μέθοδος Corg με βάση [26], και η μέθοδος εξαγωγής συμπερασμάτων που προτείνονται στο παρόν έγγραφο. Για τις μέση, μεσαία, και οι μέθοδοι Corg που βασίζονται, υπολογίσαμε το σκορ με το μέσο όρο των βαθμολογιών-test των τιμών έκφραση των γονιδίων του μέλους. Για τη μέθοδο PCA που βασίζεται, υπολογίσαμε το μέσο όρο των

απόλυτη

-test βαθμολογιών των τιμών γονιδιακής έκφρασης, δεδομένου ότι το PCA μπορεί να συνδυάσει φυσικά τιμές έκφραση ανεξάρτητα από το εάν σχετίζονται θετικά ή αρνητικά με το φαινότυπο του ενδιαφέρον. Για προτεινόμενης μεθόδου μας, υπολογίσαμε τον μέσο όρο των βαθμολογιών-test των LLRs των γονιδίων μέλους, δεδομένου ότι εκτιμάται ότι η δραστηριότητα της οδού βαθμολογία με βάση LLRs αντί για τις αρχικές τιμές έκφρασης.

Αξιολογήσαμε επίσης την ευρωστία του κάθε μέθοδος εξαγωγής συμπερασμάτων για τον εντοπισμό καλή δεικτών πορείας, με την κατάταξη των οδών χρησιμοποιώντας ένα από τα δύο σύνολα δεδομένων του καρκίνου του μαστού, και στη συνέχεια την αξιολόγηση της διακριτική εξουσία των οδών με βάση το άλλο σύνολο δεδομένων. Και πάλι, -test στατιστικά στοιχεία των βαθμολογιών δραστηριότητας οδό χρησιμοποιήθηκαν για να συγκρίνουν τις διάφορες μεθόδους εξαγωγής συμπερασμάτων.

Στο δεύτερο πείραμα μας, υπολογίσαμε τις -test στατιστικά βαθμολογίες για όλες τις 639 πορείες χωρίς prescreening, και συνέκρινε την αποτελεσματικότητα των διαφόρων μονοπάτι μεθόδους εξαγωγής συμπερασμάτων δραστηριότητα με βάση τα υπολογισμένα αποτελέσματα. Όπως και στο πρώτο πείραμα, αξιολογήσαμε επίσης την ευρωστία της κάθε μεθόδου εξαγωγής συμπερασμάτων για την εξεύρεση αποτελεσματικών δεικτών πορείας, με την ταξινόμηση των μεθόδων σύμφωνα με τις-test σκορ υπολογίζεται χρησιμοποιώντας ένα από τα σύνολα δεδομένων, και στη συνέχεια την αξιολόγηση διακριτική εξουσία τους από την άλλη σύνολο δεδομένων.

Αξιολόγηση Ταξινόμηση απόδοση

για να αξιολογηθεί η απόδοση ταξινόμησης της προτεινόμενης οδού μέθοδο συμπέρασμα δραστηριότητα, εκτελέσαμε τα ακόλουθα πειράματα διασταυρούμενης επικύρωσης.

για

μέσα -dataset πειράματα

, τα δείγματα σε ένα σύνολο δεδομένων χωρίστηκαν τυχαία σε πέντε υποομάδες ίσου μεγέθους, όπου τα δείγματα σε τέσσερα από αυτά τα υποσύνολα χρησιμοποιήθηκαν για την εκπαίδευση του ταξινομητή και το υπόλοιπο υποσύνολο χρησιμοποιήθηκε για την αξιολόγηση της απόδοσης ταξινόμησης. Αυτό έχει επαναληφθεί χρησιμοποιώντας κάθε υποσύνολο ως το σύνολο ελέγχου για να αποκτήσετε πιο αξιόπιστα αποτελέσματα. Το σύνολο εκπαίδευσης χωρίστηκε και πάλι σε τρία ίσα μεγέθους υποσύνολα. Τα δύο τρίτα χρησιμοποιήθηκαν για την κατάταξη των δεικτών πορείας και την οικοδόμηση του ταξινομητή (ο «δείκτης αξιολόγησης» σύνολο δεδομένων), και το ένα τρίτο του συνόλου εκπαίδευσης χρησιμοποιήθηκε για την επιλογή χαρακτηριστικών (η «δυνατότητα επιλογής» σύνολο δεδομένων). Όλα τα δείγματα στην ομάδα εκπαιδεύσεως χρησιμοποιήθηκαν για την εκτίμηση των PDFs των τιμών γονιδιακής έκφρασης κάτω από διαφορετικούς φαινοτύπους. Για την κατασκευή του ταξινομητή, αξιολογήσαμε κάθε διαδρομή με βάση την διακριτική εξουσία της βαθμολογίας της δραστηριότητας για την ταξινόμηση των δειγμάτων. Οι οδοί ταξινομούνται με αύξουσα σειρά της-τιμή. Μετά την κατάταξη των οδών, χτίσαμε τον ταξινομητή, είτε με βάση την λογιστική παλινδρόμηση ή LDA (γραμμική διακριτική ανάλυση), ως εξής. Με βάση το σύνολο δεδομένων δείκτη αξιολόγησης, κατασκευάσαμε πρώτα τον ταξινομητή με ένα μόνο χαρακτηριστικό, δηλαδή, το δείκτη μονοπάτι με τη χαμηλότερη τιμή-. Η απόδοση του ταξινομητή στη συνέχεια μετρήθηκε υπολογίζοντας την AUC (περιοχή κάτω από την καμπύλη ROC) [33] για το σύνολο δεδομένων χαρακτηριστικό επιλογής. Στη συνέχεια, θα διευρυνθεί το σύνολο των χαρακτηριστικών, επιλέγοντας το δείκτη μονοπάτι με τη χαμηλότερη τιμή-μεταξύ των υπόλοιπων μονοπάτια. Ένα νέο ταξινομητή εκπαιδεύτηκε χρησιμοποιώντας τα επιλεγμένα χαρακτηριστικά στο σύνολο δεδομένων δείκτη αξιολόγησης και απόδοση ταξινόμησης του ήταν και πάλι αξιολογείται το σύνολο δεδομένων χαρακτηριστικό επιλογής. Η προστιθέμενη οδός δείκτης κρατήθηκε στο χαρακτηριστικό που αν η AUC αυξήθηκε, και αφαιρέθηκε με άλλο τρόπο. Επαναλάβαμε την παραπάνω διαδικασία για όλους τους δείκτες μονοπάτι για τη βελτιστοποίηση της ταξινομητή. Η απόδοση του ταξινομητή βελτιστοποιημένη αξιολογήθηκε με υπολογισμό της AUC για το σύνολο δεδομένων δοκιμής. Αυτά τα πειράματα επαναλήφθηκαν για 100 τυχαία χωρίσματα ολόκληρου του συνόλου δεδομένων. Αναφέρουμε την AUC, κατά μέσο όρο πάνω από 500 πειράματα, όπως η συνολική μέτρηση της απόδοσης της μεθόδου ταξινόμησης στο χέρι. Η συνολική διαδικασία της εντός-σύνολο δεδομένων πείραμα απεικονίζεται στο Σχ. 2Α.

(Α) Στα πειράματα μέσα-σύνολο δεδομένων, μέρος του συνόλου εκπαίδευσης, που αναφέρεται ως το σύνολο δείκτη αξιολόγησης, χρησιμοποιείται για την κατάταξη των δεικτών πορείας σύμφωνα με τη διακριτική δύναμή τους και την οικοδόμηση του ταξινομητή. Το βέλτιστο σύνολο χαρακτηριστικών επιλέγονται με βάση το υπόλοιπο του σετ εκπαίδευσης, που αναφέρεται ως το σύνολο των δυνατοτήτων επιλογής. Η απόδοση του προκύπτοντος ταξινομητή αξιολογείται χρησιμοποιώντας το σύνολο δεδομένων δοκιμής. (Β) Στα πειράματα διασταυρούμενης σύνολο δεδομένων, ένα από τα σύνολα δεδομένων χρησιμοποιείται για να βρει το βέλτιστο σύνολο χαρακτηριστικών, και το άλλο σύνολο δεδομένων χρησιμοποιείται για την κατασκευή ενός ταξινομητή με βάση τα προεπιλεγμένα χαρακτηριστικά και για την αξιολόγηση του ταξινομητή.

για να αξιολογηθεί η δυνατότητα αναπαραγωγής των δεικτών πορείας σε διαφορετικά σετ δεδομένων, πραγματοποιήσαμε

cross-σύνολο δεδομένων πειράματα

, όπου ένα σύνολο δεδομένων χρησιμοποιήθηκε για την επιλογή των δεικτών πορείας, και το άλλο σύνολο δεδομένων χρησιμοποιήθηκε για την κατασκευή ο ταξινομητής με βάση των επιλεγμένων δεικτών και την αξιολόγηση των επιδόσεων του. Πρώτον, έχουμε επιλέξει το βέλτιστο σύνολο χαρακτηριστικών (δηλαδή, δείκτες πορείας) με βάση ένα σύνολο δεδομένων, βελτιστοποιώντας τη μετρική AUC. Η διαδικασία για την επιλογή του σετ χαρακτηριστικό ήταν παρόμοια με αυτή που χρησιμοποιείται στα πειράματα εντός-δεδομένων. Τα δείγματα στο άλλο σύνολο δεδομένων χωρίστηκαν σε πέντε υποσύνολα του ιδίου μεγέθους. Τα τέσσερα πέμπτα των δειγμάτων χρησιμοποιήθηκαν για την εκπαίδευση του ταξινομητή χρησιμοποιώντας τα επιλεγμένα χαρακτηριστικά, και το ένα πέμπτο των δειγμάτων χρησιμοποιήθηκαν για την αξιολόγηση της απόδοσης της κατασκευασμένης ταξινομητή. Επαναλάβαμε αυτό το πείραμα, χρησιμοποιώντας κάθε ένα από τα πέντε υποσύνολα ως το σύνολο δοκιμής και χρησιμοποιώντας το υπόλοιπο για την κατάρτιση. Το παραπάνω πείραμα επαναλήφθηκε για 100 τυχαία χωρίσματα ολόκληρου του συνόλου δεδομένων, και η μέση AUC πάνω από τα 500 πειράματα αναφέρθηκε ως το μέτρο της απόδοσης. Είναι σημαντικό να σημειωθεί ότι η επιλογή χαρακτηριστικών γίνεται με βάση αποκλειστικά και μόνο για την πρώτη δέσμη στοιχείων. Κατά τη διάρκεια των πειραμάτων διασταυρωμένης επικύρωσης χρησιμοποιώντας το δεύτερο σύνολο δεδομένων, το σύνολο εκπαίδευσης (που αποτελείται από τα τέσσερα πέμπτα των δειγμάτων στο ίδιο σύνολο δεδομένων) είναι απλά χρησιμοποιείται για την κατασκευή του ταξινομητή που βασίζεται στο προεπιλεγμένο σύνολο χαρακτηριστικών. Ο γενικός στόχος αυτών των πειραμάτων εγκάρσιας σύνολο δεδομένων είναι να εκτιμηθεί η επαναληψιμότητα της σύνολο χαρακτηριστικών γνωρισμάτων, επιλέγεται με το προτεινόμενο καθεστώς συμπέρασμα δραστηριότητα οδό, σε διάφορα σύνολα δεδομένων. Σχήμα 2Β απεικονίζει την συνολική διαδικασία του πειράματος cross-δεδομένων.

Για να συγκρίνουν την προτεινόμενη μέθοδο με άλλες υπάρχουσες μεθόδους, εκτελέσαμε το περιγραφόμενο στο-σύνολο δεδομένων πειράματα και τα πειράματα διασταυρούμενης σύνολο δεδομένων χρησιμοποιώντας άλλες μεθόδους εξαγωγής συμπερασμάτων δραστηριότητα οδού ( μέση, μέση, PCA, και Corg). Επιπλέον, αξιολογήσαμε επίσης την απόδοση ενός ταξινομητή που βασίζεται σε γονίδιο που χρησιμοποιεί μεμονωμένα γονίδια ως διαγνωστικοί δείκτες, ακολουθώντας μια παρόμοια διαδικασία. Σε αυτή τη μελέτη, συμπεριλάβαμε τα 50 δείκτες μονοπάτι στο αρχικό σύνολο δείκτη, τα οποία επιλέχθηκαν σύμφωνα με την μέθοδο στο Tian et al. [22] όπως αυτό διευκρινίστηκε με το προηγούμενο εδάφιο. Για το γονίδιο που βασίζεται ταξινομητή, συμπεριλάβαμε τα κορυφαία 50 δείκτες γονιδίων με τα χαμηλότερα-τιμές στο αρχικό σύνολο δεικτών, προκειμένου να διατηρηθεί το μέγιστο αριθμό των χαρακτηριστικών πανομοιότυπα.

Πληροφορική η περιοχή κάτω από την καμπύλη ROC

σε αυτό το έργο, αξιολογήσαμε την απόδοση ενός ταξινομητή με βάση την AUC (περιοχή κάτω από την καμπύλη ROC). Η AUC μετρικό έχει χρησιμοποιηθεί ευρέως για την αξιολόγηση των μεθόδων ταξινόμησης, δεδομένου ότι μπορεί να προσφέρει ένα χρήσιμο συνοπτικές στατιστικές για την απόδοση ταξινόμησης σε όλο το εύρος των ειδικότητα και ευαισθησία αξίες. Για να υπολογίσουμε την AUC, υιοθετήσαμε τη μέθοδο που προτείνεται στο [33]. Για ένα δεδομένο ταξινομητή, ας είναι η έξοδος του ταξινομητή για θετικά δείγματα, και ας είναι η έξοδος για τα αρνητικά δείγματα. Στη συνέχεια, η AUC μετρική για την ταξινομητή δίνεται από: (4), όπου είναι η συνάρτηση δείκτης. Η AUC είναι στην πραγματικότητα η εμπειρική πιθανότητα ότι ένα τυχαία επιλεγμένο δείγμα θετικό κατατάσσεται ψηλότερα από ένα τυχαία επιλεγμένο δείγμα αρνητικό. Μπορεί να αποδειχθεί ότι η AUC μέτρο είναι ισοδύναμο με το Mann-Whitney-test (ονομάζεται επίσης το τεστ rank-sum Wilcoxon) στατιστικά στοιχεία.

Αποτελέσματα

Πιθανοθεωρητικές Διαδρομή Δραστηριότητα Συμπερασμός Βελτιώνει η διακριτική δύναμή της οδού Μαρκαδόροι

Αξιολογήσαμε τη διακριτική εξουσία των δεικτών πορείας, όπου οι δραστηριότητες της οδού είχαν συναχθεί με τη χρήση της προτεινόμενης μεθόδου, καθώς και άλλες μεθόδους εξαγωγής συμπερασμάτων. Για την αποτελεσματική σύγκριση της προτεινόμενης μεθόδου συμπέρασμα με άλλες υπάρχουσες μεθόδους, θα πραγματοποιηθεί παρόμοια πειράματα, όπως αυτές που πραγματοποιούνται στο [26], για να εκτιμηθεί η διακριτική εξουσία των δεικτών πορείας. Για κάθε σύνολο δεδομένων καρκίνο του μαστού, που χρησιμοποιήθηκε για πρώτη φορά τη μέθοδο Tian et al. [22] για να επιλέξετε τα 50 καλύτερα μονοπάτια ανάμεσα στα 639 πορείες που λαμβάνονται από την MSigDB [21] (βλέπε Μέθοδοι). Εμείς υπολογίζονται τα πραγματικά αποτελέσματα δραστηριότητας από τα 50 μονοπάτια που βασίζεται σε κάθε σύστημα συμπέρασμα δραστηριότητα μονοπάτι, και κατατάσσονται τα μονοπάτια, σύμφωνα με τη διακριτική δύναμή τους. Το Σχήμα 3 δείχνει την διακριτική εξουσία των κορυφαίων οδούς, όπου η -άξονα αντιστοιχεί στον αριθμό των κορυφαίων οδούς που εξετάστηκαν και ο -άξονα δείχνει τη μέση απόλυτη -score των κορυφαίων οδών. Συγκρίναμε πέντε μεθόδους δραστηριότητα μονοπάτι συμπέρασμα, δηλαδή, η μέθοδος Corg με βάση [26], PCA μέθοδος που βασίζεται [23], [28], η μέση και η διάμεση μεθόδους [25], και η μέθοδος LLR που βασίζεται προτείνεται στο παρόν έγγραφο. Για σύγκριση, αξιολογήσαμε επίσης τη διακριτική εξουσία από τα 50 ενιαία γονιδιακοί δείκτες, οι οποίοι επιλέγονται μεταξύ των 3.271 γονίδια που καλύπτονται από τις 639 πορείες που χρησιμοποιούνται σε αυτή τη μελέτη. Τα αποτελέσματα που ελήφθησαν από τις Κάτω Χώρες σύνολο δεδομένων του καρκίνου του μαστού [10] και στις ΗΠΑ σύνολο δεδομένων του καρκίνου του μαστού [11] φαίνεται στο Σχ. 3Α και το σχ. 3Β, αντιστοίχως. Όπως μπορούμε να δούμε από αυτά τα αποτελέσματα, το προτεινόμενο σύστημα συμπέρασμα δραστηριότητα μονοπάτι, το οποίο υπολογίζει το σκορ δραστηριότητα οδό, συνδυάζοντας τις αναλογίες λογαριθμική πιθανοφάνεια των γονιδίων μέλους, βελτίωσε σημαντικά την ισχύ των δεικτών πορείας σε διακρίσεις μεταξύ των μεταστατικών δειγμάτων και μη μεταστατικό δείγματα . Είναι ενδιαφέρον, οι κορυφαίοι δείκτες γονίδιο συχνά συγκρίνεται ευνοϊκά με μονοπάτι δείκτες. Από την Ολλανδία σύνολο δεδομένων, τα επίπεδα έκφρασης των γονιδίων κορυφαία είχαν μεγαλύτερη διακριτική δύναμη από τις βαθμολογίες δραστηριότητας της οδού συναχθεί από την Corg, PCA, σημαίνει, και η διάμεση μεθόδους. Μόνο οι βαθμολογίες δραστηριότητα μονοπάτι εκτιμάται από την προτεινόμενη μέθοδο ήταν περισσότερο διακριτική από τις τιμές γονιδιακής έκφρασης. Για το σύνολο δεδομένων ΗΠΑ, οι δείκτες του γονιδίου ήταν πιο διακριτική από δείκτες πορείας με βάση την μέση τιμή, διάμεσος, και τις μεθόδους PCA, αλλά λιγότερο διακριτική σχέση με το μονοπάτι δείκτες με βάση την προτεινόμενη μέθοδο και τη μέθοδο Corg.

(A) Μέση απόλυτη -score από τους κορυφαίους δείκτες για τις Κάτω Χώρες σύνολο δεδομένων του καρκίνου του μαστού. Οι δραστηριότητες του μονοπατιού έχουν συναχθεί χρησιμοποιώντας πέντε διαφορετικές μεθόδους: Corg, PCA, μέση, μέση, και LLR (προτεινόμενη μέθοδος). Η διακριτική εξουσία των κορυφαίων δεικτών γονίδιο εκτιμήθηκε για σύγκριση (με την ένδειξη «Gene»). (Β) Η μέση απόλυτη -score από τους κορυφαίους δείκτες για τις ΗΠΑ σύνολο δεδομένων του καρκίνου του μαστού. (Γ) Οι δείκτες ταξινομήθηκαν με βάση την Ολλανδία σύνολο δεδομένων και η μέση απόλυτη -score από τους κορυφαίους δείκτες υπολογίστηκε με βάση το σύνολο δεδομένων στις ΗΠΑ. (Δ) Οι δείκτες ταξινομήθηκαν με βάση το σύνολο δεδομένων ΗΠΑ και τη μέση απόλυτη -score από τους κορυφαίους δείκτες υπολογίστηκε με βάση την Ολλανδία σύνολο δεδομένων.

Η

Για να αξιολογηθεί η δυνατότητα αναπαραγωγής των δεικτών πορείας, που κατετάγη η δείκτες βασίζονται σε ένα σύνολο δεδομένων και να αξιολογούνται μέση απόλυτη -score τους, χρησιμοποιώντας το άλλο σύνολο δεδομένων. Εικόνα 3C δείχνει το αποτέλεσμα για την κατάταξη των δεικτών βασίζεται στην Ολλανδία σύνολο δεδομένων και υπολογίζοντας τη μέση απόλυτη -score από τους κορυφαίους δείκτες χρησιμοποιώντας το σύνολο δεδομένων στις ΗΠΑ. Ομοίως, το Σχ. 3D δείχνει το αποτέλεσμα για την κατάταξη των δεικτών με βάση το σύνολο δεδομένων ΗΠΑ και υπολογίζοντας την μέση βαθμολογία των κορυφαίων μονοπατιών χρησιμοποιώντας την Ολλανδία σύνολο δεδομένων. Αυτά τα αποτελέσματα δείχνουν σαφώς ότι οι δείκτες οδός επιλέγεται με βάση την προτεινόμενη μέθοδο συμπέρασμα διατηρούν σημαντικά μεγάλη διακριτική εξουσία σε διαφορετικά σύνολα δεδομένων. Στην πραγματικότητα, και στα δύο πειράματα διασταυρούμενης σύνολο δεδομένων, οι βαθμολογίες δραστηριότητα μονοπάτι υπολογίζονται βάσει της μεθόδου LLR ήταν πολύ πιο διακριτική από τις βαθμολογίες δραστηριότητας υπολογίζεται με άλλες μεθόδους εξαγωγής συμπερασμάτων καθώς και οι τιμές έκφραση των κορυφαίων δεικτών γονιδίου. Συνολικά, τα αποτελέσματα αυτά υποδηλώνουν ότι η προτεινόμενη μέθοδος μπορεί να βρει καλύτερων διαγνωστικών δεικτών με μεγαλύτερη επαναληψιμότητα. Επίσης, σημειώστε ότι τα ενιαία δείκτες γονίδιο, το οποίο είχε πολύ μεγάλη διακριτική εξουσία μέσα σε ένα σύνολο δεδομένων (βλέπε Σχ. 3Α και 3Β), έχασε το μεγαλύτερο μέρος της διακριτικής εξουσίας σε ένα διαφορετικό σύνολο δεδομένων.

Στη συνέχεια, θα πραγματοποιηθεί παρόμοια πειράματα για όλα τα 639 μονοπάτια και όλα τα 3.271 γονίδια που καλύπτονται από αυτά τα μονοπάτια, χωρίς καμία prescreening (βλέπε Μέθοδοι). Τα αποτελέσματα αυτών των πειραμάτων φαίνεται στο Σχ. 4, όπου ο -άξονα υποδεικνύει την αναλογία των κορυφαίων οδούς που χρησιμοποιήθηκαν για να υπολογιστεί η μέση απόλυτη -score, και ο -άξονα αντιστοιχεί στην εκτιμώμενη μέση απόλυτη -score των κορυφαίων οδών. Η διακριτική ισχύς των δεικτών οδού και μονών γονιδιακοί δείκτες στην ολλανδική σύνολο δεδομένων που φαίνεται στο Σχ. 4Α, και η διακριτική δύναμη των δεικτών στο σύνολο δεδομένων ΗΠΑ φαίνεται στο Σχ. 4Β. Τα αποτελέσματα που ελήφθησαν από πειράματα διασταυρούμενης σύνολο δεδομένων συνοψίζονται στο Σχ. 4C και 4D. Στο Σχ. 4C, οι δείκτες ταξινομήθηκαν σύμφωνα με την διακριτική εξουσία τους στην ολλανδική ομάδα, και μέση απόλυτη -scores τους υπολογίστηκαν χρησιμοποιώντας το σύνολο δεδομένων στις ΗΠΑ. Τα αποτελέσματα για την κατάταξη των δεικτών με βάση το σύνολο δεδομένων ΗΠΑ και τον υπολογισμό των βαθμολογιών χρησιμοποιώντας την Ολλανδία σύνολο φαίνεται στο Σχ. 4D. Όλα αυτά τα πειράματα δείχνουν ότι οι βαθμολογίες δραστηριότητα οδού μετράται με την προτεινόμενη μέθοδο LLR είναι πολύ πιο διακριτική από τις βαθμολογίες υπολογίζονται με άλλες μεθόδους εξαγωγής συμπερασμάτων και επίσης τις αξίες έκφραση των μεμονωμένων γονιδίων. Επιπλέον, μπορούμε να δούμε ότι οι δείκτες πορείας που επιλέχθηκαν με βάση τις βαθμολογίες δραστηριότητας της οδού LLR που βασίζεται περισσότερο να αναπαραχθούν και οι βαθμολογίες τους δραστηριότητα διατηρούν σημαντική ποσότητα της διακριτικής ικανότητας σε όλη την ανεξάρτητη σύνολα δεδομένων

(A) Μέση απόλυτη. – βαθμολογία από τους κορυφαίους δείκτες για τις Κάτω Χώρες σύνολο δεδομένων. (Β) Η μέση απόλυτη -score από τους κορυφαίους δείκτες για το σύνολο δεδομένων στις ΗΠΑ. (Γ) Οι δείκτες ταξινομήθηκαν με βάση την Ολλανδία σύνολο δεδομένων και η μέση απόλυτη -score από τους κορυφαίους δείκτες υπολογίστηκε με βάση το σύνολο δεδομένων στις ΗΠΑ. (Δ) Οι δείκτες ταξινομήθηκαν με βάση το σύνολο δεδομένων ΗΠΑ και τη μέση βαθμολογία από τους κορυφαίους δείκτες υπολογίστηκε με βάση την Ολλανδία σύνολο δεδομένων.

Η

προτεινόμενη πορεία Δραστηριότητα Σχέδιο Συμπερασμός οδηγεί σε πιο ακριβείς και αξιόπιστες ταξινομητές

Χρησιμοποιήσαμε το προτεινόμενο καθεστώς συμπέρασμα δραστηριότητα οδός για την ταξινόμηση της μετάστασης του καρκίνου του μαστού, για να αξιολογηθεί η χρησιμότητά του στη διάκριση διαφορετικών φαινοτύπων του καρκίνου. Για μια δίκαιη και αποτελεσματική σύγκριση με άλλα συστήματα εξαγωγής συμπερασμάτων, υιοθετήσαμε και πάλι μια παρόμοια πειραματική διάταξη που χρησιμοποιήθηκε στο [26] για την αξιολόγηση της απόδοσης της μεθόδου Corg με βάση ένα σύστημα μονοπάτι συμπέρασμα δραστηριότητα state-of-the-art ότι χρησιμοποιεί μόνο τον όρο-γονιδίων που αποκρίνονται σε ένα συγκεκριμένο μονοπάτι. Για κάθε σύνολο δεδομένων του καρκίνου του μαστού, πραγματοποιήσαμε πενταπλάσια πειράματα διασταυρωμένης επικύρωσης, όπου τα τέσσερα πέμπτα των δειγμάτων χρησιμοποιήθηκαν για την κατασκευή του ταξινομητή και το υπόλοιπο ένα πέμπτο των δειγμάτων χρησιμοποιήθηκαν για την αξιολόγηση της απόδοσης ταξινόμησης (βλέπε Μέθοδοι). Ενώ κατασκευή του ταξινομητή, χρησιμοποιήσαμε τη μέθοδο που βασίζεται LLR συμπέρασμα δραστηριότητα μονοπάτι για την αξιολόγηση της διακριτική εξουσία του κάθε δείκτη μονοπατιού και επιλογή του βέλτιστου συνόλου δεικτών που θα χρησιμοποιηθούν στην ταξινομητή. Η κατασκευασμένη ταξινομητής χρησιμοποιείται επίσης τις βαθμολογίες δραστηριότητας μονοπάτι υπολογίζεται από την προτεινόμενη μέθοδο συμπέρασμα για τη διάκριση μεταστατικό καρκίνο του μαστού δείγματα από μη μεταστατικό δείγματα. Στα πειράματά μας, ορίσαμε την αρχική δέσμη δεικτών πορείας ως οι κορυφαίες 50 μονοπάτια που επιλέγονται με τη χρήση της μεθόδου του Tian et al. [22] (βλέπε Μέθοδοι). Εκτιμήσαμε την απόδοση της κατάταξης σύμφωνα με την μετρική AUC. Επαναλάβαμε την πενταπλάσια διασταυρωμένης επικύρωσης για 100 τυχαία χωρίσματα του συγκεκριμένου συνόλου δεδομένων, και κατά μέσο όρο τα προκύπτοντα 500 AUCs για να αποκτήσετε ένα αξιόπιστο μέτρο των επιδόσεων της μεθόδου ταξινόμησης. Για να συγκρίνετε την απόδοση κατάταξη των διαφόρων μεθόδων εξαγωγής συμπερασμάτων, μπορούμε επανέλαβε επίσης τα προηγούμενα πειράματα χρησιμοποιώντας το Corg, PCA, σημαίνουν, και διάμεση μεθόδους για να συμπεράνει τις δραστηριότητες της οδού. Για σύγκριση, αξιολογήσαμε επίσης την απόδοση της μεθόδου ταξινόμησης γονίδιο που βασίζεται. Συμπεριλάβαμε τα κορυφαία 50 διακριτική γονιδίων στο αρχικό σύνολο δεικτών, να κρατήσει το μέγιστο αριθμό των χαρακτηριστικών ίδιες για όλες τις μεθόδους ταξινόμησης.

Σχήμα 5 συνοψίζει τα αποτελέσματα των πειραμάτων διασταυρωμένης επικύρωσης. Στην πρώτη ομάδα πειραμάτων, χρησιμοποιήσαμε λογιστική παλινδρόμηση για την ταξινόμηση των δειγμάτων. Τα αποτελέσματα της κατάταξης των διαφορετικών προσεγγίσεων που βασίζονται σε λογιστική παλινδρόμηση φαίνεται στο Σχ. 5Α. Οι δύο ιστογράμματα στα αριστερά του Σχ. 5 αντιστοιχούν στα δύο πειράματα μέσα-σύνολο δεδομένων με βάση τις ΗΠΑ σύνολο δεδομένων του καρκίνου του μαστού (με την ένδειξη «ΗΠΑ») και τις Κάτω Χώρες σύνολο δεδομένων (επισημαίνονται ως «Κάτω Χώρες»), αντίστοιχα. Σε αυτά τα πειράματα μέσα-σύνολο δεδομένων, το αρχικό σύνολο των κορυφαίων 50 δείκτες έχουν επιλεγεί χρησιμοποιώντας ολόκληρο το σύνολο δεδομένων, προκειμένου να μειώσουν την επίδραση της ευαισθησίας στην επιλογή δείκτης κατά τη σύγκριση διαφορετικών μεθόδων βάσει διαδρομής. Τα πειράματα διασταυρούμενης επικύρωσης έχουν πραγματοποιηθεί με βάση την επιλεγμένη αρχική δέσμη δεικτών (βλέπε Μέθοδοι). Όπως μπορούμε να δούμε σε αυτά τα ιστογράμματα, η προτεινόμενη μέθοδος πέτυχε την υψηλότερη ακρίβεια ταξινόμησης ανάμεσα σε όλες τις μεθόδους, και στα δύο πειράματα. Η μέθοδος που βασίζεται Corg συγκρίνεται ευνοϊκά με άλλες μεθόδους βάσει διαδρομής, αν και ξεπέρασε με την προτεινόμενη μέθοδο. Μπορούμε επίσης να δούμε ότι το γονίδιο που βασίζεται ταξινομητή πολύ καλές επιδόσεις στο εσωτερικό πειράματα σύνολο δεδομένων, το οποίο δεν αποτελεί έκπληξη, αν λάβουμε υπόψη την υψηλή διακριτική εξουσία των κορυφαίων δεικτών του γονιδίου που παρατηρείται στα σχήματα. 3Α και 3Β.

Το μπαρ διαγράμματα δείχνουν τις μέσες τιμές AUC για τις διάφορες μεθόδους ταξινόμησης. Πέντε μέθοδοι βάσει διαδρομής που χρησιμοποιούν διακριτές συστήματα συμπερασμού δραστηριότητα οδού (LLR, Corg, PCA, σημαίνουν, και διάμεσος) και μία μέθοδος που βασίζεται σε γονίδιο συγκρίθηκαν. (Α) ταξινομητές κατασκευάστηκαν με βάση την λογιστική παλινδρόμηση. Τα αποτελέσματα των εντός-σύνολο δεδομένων πειραμάτων με βάση τα σύνολα δεδομένων ΗΠΑ και Ολλανδία φαίνεται στα δύο διαγράμματα στα αριστερά. Οι δύο γραφικές παραστάσεις στα δεξιά δείχνουν τα αποτελέσματα των πειραμάτων εγκάρσιας σύνολο δεδομένων. (Β) Η απόδοση των διαφορετικών μεθόδων ταξινόμησης βασίζεται στην LDA (γραμμική διακριτική ανάλυση).

Η

Τα αποτελέσματα των πειραμάτων εγκάρσιας σύνολο δεδομένων φαίνεται στα δύο ιστογράμματα στα δεξιά του σχήματος. 5Α. Το διάγραμμα φέρουν την ένδειξη «ΗΠΑ-Ολλανδία» παρουσιάζει τα αποτελέσματα για την επιλογή των χαρακτηριστικών χρησιμοποιώντας το σύνολο δεδομένων των ΗΠΑ, και η κατάρτιση /αξιολόγηση του ταξινομητή χρησιμοποιώντας την Ολλανδία σύνολο δεδομένων.

You must be logged into post a comment.