PLoS One: Ανθεκτική επιλογή του Καρκίνου επιβίωσης Υπογραφές από το High Throughput-γονιδιακά δεδομένα χρησιμοποιώντας διπλές Subsampling


Αφηρημένο

Ο εντοπισμός σχετικών υπογραφών για την κλινική έκβαση των ασθενών αποτελεί θεμελιώδες καθήκον σε μελέτες υψηλής απόδοσης. Υπογραφές, που αποτελείται από χαρακτηριστικά, όπως mRNA, miRNAs, SNPs ή άλλες μοριακές μεταβλητές, είναι συχνά μη-επικαλυπτόμενες, παρόλο που έχουν προσδιοριστεί από παρόμοια πειράματα εξετάζει δείγματα με τον ίδιο τύπο της νόσου. Η έλλειψη συναίνεσης οφείλεται κυρίως στο γεγονός ότι τα μεγέθη των δειγμάτων είναι πολύ μικρότερα από τους αριθμούς των υποψήφιων χαρακτηριστικών πρέπει να θεωρηθεί, και ως εκ τούτου η επιλογή της υπογραφής υποφέρει από μεγάλη διακύμανση. Προτείνουμε μια ισχυρή μέθοδο επιλογής υπογραφής, που θα ενισχύει τη σταθερότητα επιλογή τιμωρούνται αλγορίθμων παλινδρόμησης για την πρόβλεψη του κινδύνου επιβίωσης. Η μέθοδος μας βασίζεται σε μια συνάθροιση πολλών, πιθανώς ασταθή, υπογραφές που λαμβάνεται με την προετοιμασία λάσο αλγόριθμο που εφαρμόζονται σε τυχαία (εσωτερική) επιμέρους δείγματα ενός συγκεκριμένου δεδομένων ομάδα, όπου το συνολικό υπογραφή συρρικνωμένο από μια απλή στρατηγική κατωφλίου. Η προκύπτουσα μέθοδος, RS-PL, είναι εννοιολογικά απλό και εύκολο να εφαρμοστεί, στηριζόμενη σε παραμέτρους συντονισμένοι αυτομάτως από την πολλαπλή επικύρωσης. Ανθεκτική επιλογή υπογραφή χρησιμοποιώντας RS-PL λειτουργεί μέσα σε ένα πλαίσιο (εξωτερική) subsampling να εκτιμήσει τις πιθανότητες επιλογής των χαρακτηριστικών σε πολλαπλές δοκιμές της RS-PL. Αυτές οι πιθανότητες χρησιμοποιηθεί για την αναγνώριση αξιόπιστες λειτουργίες που πρέπει να περιλαμβάνονται σε μια υπογραφή. Η μέθοδός μας αξιολογήθηκε σε σύνολα δεδομένων μικροσυστοιχιών από νευροβλάστωμα, αδενοκαρκίνωμα του πνεύμονα, και οι ασθενείς με καρκίνο του μαστού, εξόρυξη ισχυρή και σχετικές υπογραφές για την πρόβλεψη του κινδύνου επιβίωσης. Υπογραφές που λαμβάνονται με τη μέθοδο μας επιτυγχάνεται υψηλή απόδοση πρόβλεψη και την ευρωστία, με συνέπεια κατά τα τρία σύνολα δεδομένων. Τα γονίδια με υψηλή πιθανότητα επιλογής σε ισχυρή υπογραφές μας έχουν αναφερθεί όπως ο καρκίνος-σχετικές. Η παραγγελία των συντελεστών προγνωστικό παράγοντα που σχετίζεται με τις υπογραφές ήταν καλά διατηρημένο σε πολλαπλές δοκιμές της RS-PL, αποδεικνύοντας την ικανότητα της μεθόδου μας για την αναγνώριση ενός μεταβιβάσιμες συναίνεση υπογραφή. Το λογισμικό είναι διαθέσιμο ως rsig πακέτο R στο CRAN (https://cran.r-project.org)

Παράθεση:. Lee S, Rahnenführer J, Lang Μ, De Preter Κ, Mestdagh P, Koster J, et al. (2014) Στιβαρή Επιλογή του Καρκίνου επιβίωσης Υπογραφές από το High Throughput-γονιδιακά δεδομένα χρησιμοποιώντας διπλές Υποδειγματοληψία. PLoS ONE 9 (10): e108818. doi: 10.1371 /journal.pone.0108818

Επιμέλεια: Ιωάννης Π Ανδρουλάκης, Πανεπιστήμιο Rutgers, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 13 Δεκέμβρη 2013? Αποδεκτές: 5, Σεπτεμβρίου 2014? Δημοσιεύθηκε: 8 Οκτ 2014

Copyright: © 2014 Lee et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Οι συγγραφείς αναγνωρίζει την ενίσχυση της Deutsche Forschungs-Gemeinschaft (DFG) στο πλαίσιο του Collaborative Research Center SFB 876 (https://sfb876.tu-dortmund.de) «Παροχή πληροφοριών από περιορισμένους πόρους Analysis», τα έργα Α3 και Γ1. Λ Varesio υποστηρίχθηκε από επιχορηγήσεις από την Ένωση ιταλική for Cancer Research, το δίκτυο ENCCA, το Υπουργείο Υγείας της Ιταλίας. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Προσδιορισμός των σχετικών χαρακτηριστικών από μεγάλα σύνολα δεδομένων αποτέλεσε το επίκεντρο πολλών ερευνητικών πεδίων για μεγάλο χρονικό διάστημα. Με την έναρξη της υψηλής απόδοσης τεχνολογίες γονιδιακό προφίλ, στιβαρότητα γίνεται αντιληπτή ως ένα σημαντικό παράγοντα για την επιλογή χαρακτηριστικών [1], [2]. Σε γενικές γραμμές, ένα χαρακτηριστικό είναι ισχυρή, αν έχει επιλεγεί με μια μέθοδο πάντοτε της σύνθεσης ομάδα, με την προϋπόθεση ότι όλα τα δείγματα προέρχονται από την ίδια κατανομή του πληθυσμού. Εάν ένας αλγόριθμος εντοπίζει πολλά από αυτά τα ισχυρά χαρακτηριστικά, τότε ο αλγόριθμος μπορεί να θεωρηθεί ως ισχυρή, καθώς και. Ανθεκτικότητα είναι ένας κρίσιμος παράγοντας ειδικά σε κλινικές μελέτες, όταν ο στόχος είναι είτε να προσδιοριστούν οι βασικοί παράγοντες των υποκείμενων βιολογικών συστημάτων, ή να αναπτύξουν κλινικά χρήσιμη δοκιμές.

Δυστυχώς κλινικές μελέτες που πραγματοποιήθηκαν συνήθως χωρίς ρητή εξέταση της ευρωστία σε πειραματικό σχεδιασμό τους. Ένα χαρακτηριστικό παράδειγμα είναι η εκτέλεση επιλογή χαρακτηριστικών σε ένα ενιαίο διαμέρισμα των διαθέσιμων δεδομένων ομάδα, στη συνέχεια, για να καθορίσουν την επιτυχία της επιλογής χρησιμοποιώντας το υπόλοιπο των δεδομένων (που συχνά αποκαλείται ως ένα σύνολο δοκιμής). Όταν τα μεγέθη των δειγμάτων είναι μικρό, όπως στις περισσότερες κλινικές μελέτες, οι πρακτικές αυτές μπορεί να οδηγήσουν σε αναγνώριση διαφορετικές υπογραφές από πολλαπλές μελέτες που φαίνονται απολύτως εντάξει στη δική τους αξιολόγηση, αλλά δεν είναι επιτυχείς όταν εφαρμόζονται στα δεδομένα από άλλες μελέτες.

στην εργασία αυτή προτείνουμε έναν αλγόριθμο για να ασχοληθεί με τα παραπάνω θέματα, με βάση καλά μελετημένη ιδέες του subsampling [3] και την ομαδοποίηση [4]. μας πλαίσιο αποτελείται από δύο βήματα subsampling: (i)

εξωτερικό subsampling

βήμα, το οποίο υπολογίζει την απόδοση πρόβλεψης των μοντέλων και την πιθανότητα επιλογής των χαρακτηριστικών, και (ii)

εσωτερικό subsampling

βήμα , η οποία αποκτά ένα ισχυρό μοντέλο με την άθροιση πολλών, πιθανώς ασταθή, μοντέλα, όπου κάθε μοντέλο λαμβάνεται από ένα επιμέρους δείγμα

στο εξωτερικό subsampling, μπορούμε ουσιαστικά να εκτελέσει bootstrapping [3] για την εκτίμηση δύο ποσότητες:. τις πιθανότητες επιλογής του χαρακτηριστικά και η απόδοση πρόβλεψης των μοντέλων που αποτελείται από ισχυρές υπογραφές. Η εκτίμηση των πιθανοτήτων επιλογής του χαρακτηριστικά χρησιμοποιώντας επιμέρους δειγμάτων έχει επίσης χρησιμοποιηθεί σε Davis et al. [1], στο πλαίσιο της επιλογής των καλύτερων συνδυασμός μιας επιλογής χαρακτηριστικών και ξεχωριστό αλγόριθμο ταξινόμησης για τη μεγιστοποίηση τόσο της συχνότητας επιλογή των χαρακτηριστικών και την ακρίβεια ταξινόμησης. Στη μέθοδο μας, επιλογή χαρακτηριστικών και τοποθέτηση μοντέλο εκτελούνται ταυτόχρονα, και είναι μια εγγενής ιδιότητα ότι οι σχετικές δυνατότητες είναι να επιλεγεί με μεγάλη πιθανότητα. Γι ‘αυτό χρησιμοποιούμε την αναμενόμενη πιθανότητες επιλογής για την κατασκευή στιβαρή υπογραφές, όχι για την εξεύρεση τον καλύτερο συνδυασμό.

Η χρήση της συσσώρευσης να παράγουν ισχυρές υπογραφές όπως στο εσωτερικό βήμα subsampling μας έχει χρησιμοποιηθεί σε διαφορετικά περιβάλλοντα. Abeel et al. [5] θεωρείται απλή και σταθμισμένο μέσο όρο των φορέων λήψης από τις μηχανές διανυσμάτων υποστήριξης (SVMs) [6] και την εξάλειψη αναδρομική λειτουργία χρησιμοποιώντας SVMs [7], όπου κάθε φορέας απόφαση λαμβάνεται από ένα bootstrap δείγμα. Σε Broom, κάνετε και Subramanian [8], ένα τροποποιημένο πλαίσιο έχει προταθεί για κλίνει δομών στην Bayesian δίκτυα. Τα έργα αυτά όμως δεν αντιμετωπίζουν το πρόβλημα του προσδιορισμού ισχυρή υπογραφών από λογοκριμένη αποτέλεσμα την επιβίωση, ένα τυπικό τύπο αποκρίσεων στην κλινική έρευνα. Επίσης, μέθοδοι όπως SVMs δεν έχουν καμία τέτοια εγγύηση ότι τα σημαντικά χαρακτηριστικά θα επιλεγούν με μεγάλη πιθανότητα σε διαφορετικές υπο-δείγματα.

ισχυρή επιλογή μας βασίζεται σε θεωρητικά επιχειρήματα που αναπτύχθηκαν πρόσφατα για το ευρέως χρησιμοποιούμενο λάσο αλγόριθμο [9] και επέκταση που ονομάζεται την προετοιμασία λάσο αλγόριθμο [10], τα οποία εισάγονται στην επόμενη ενότητα.

Cox παλινδρόμησης με το λάσο ποινή

Ας θεωρήσουμε ένα δείγμα ομάδα που αποτελείται από

n

ασθενών, όπου κάθε ένα από τους ασθενείς είναι διαμορφωμένη από ένα

σ

διάστατο διάνυσμα χαρακτηριστικών x

i

και σχολιασμός επιβίωσης:

t

i

είναι το μήκος της επιβίωσης σε χρόνο και

e

i

είναι ένας δείκτης για την κλινική εκδήλωση, έτσι ώστε

e

i

= 1 αν έχει συμβεί ένα γεγονός, και

e

i

= 0 διαφορετικά.

στο παλινδρόμησης Cox [11], ο κίνδυνος για έναν ασθενή που έχει μια εκδήλωση στο χρόνο

t

διαμορφώνεται από μια συνάρτηση, όπου

h

0 (

t

) είναι η συνάρτηση βάσης κινδύνου, το τμήμα ύψωση σε δύναμη περιγράφει την επίδραση των συμμεταβλητών, και. Μια εκτίμηση του διανύσματος συντελεστών

β

λαμβάνεται από τη μέγιστη εκτίμηση πιθανότητας, δηλαδή, (1) όπου είναι η μερική log-πιθανότητα ορίζεται από

Εδώ

E

είναι ένα σύνολο δείκτης απαριθμώντας όλα τα γεγονότα και είναι ένας δείκτης που ασθενών σε κίνδυνο σε σχέση με το χρόνο ενός γεγονότος

i

. Ο δεύτερος όρος στην εξίσωση. (1) είναι ένα regularizer τιμωρεί την πολυπλοκότητα του

β

, με και. Σας καλούν συχνά τη νομιμοποίηση με

α

= 1 ως το λάσο ή και το ένα με το

α

= 0 ως την κορυφογραμμή ή ποινή. Λάσο επιλέγει χαρακτηριστικά με τον καθορισμό των συντελεστών στο

β

ακριβώς μηδέν για άσχετα χαρακτηριστικά, ενώ η κορυφογραμμή δεν εκτελεί επιλογή λειτουργία από μόνη της. Για τη λεπτομερή σύγκριση των δύο, αναφερόμαστε σε Gui και Li [12]. Για 0 & lt?

α

& lt?. 1, η regularizer ονομάζεται ελαστική καθαρό [13], η οποία τείνει να επιλέξετε όλα συσχετίζονται συμπαράγοντες μαζί

προετοιμάζονται Λάσο

Η προετοιμασία λάσο αλγόριθμο [10] είναι μια διαδικασία δύο σταδίων που αποσκοπούν στην αντιμετώπιση των προβλημάτων της υψηλής προκατάληψη στην λάσο εκτιμήσεις, όταν ο αριθμός των χαρακτηριστικών

σ

είναι πολύ μεγάλο σε σχέση με τον αριθμό των ασθενών

ν

. Οι δύο βήματα are Κίνα

βήμα προρύθμιση:.

Λάσο βήμα: να χωρέσει ένα μοντέλο για να

Η

Το πρώτο βήμα δημιουργεί προετοιμασμένων αποτελέσματα από τις δεδομένες δυνατότητες και τα δεδομένα επιβίωσης. . Η προετοιμασία γίνεται με τη μέθοδο της εποπτευόμενης κύριες συνιστώσες [14], η οποία κατέχει την πρώτη θέση χαρακτηριστικά των μεμονωμένων συσχέτισή τους με τα αποτελέσματα της επιβίωσης, και στη συνέχεια να βρει ένα όριο με σταυρό επικύρωσης που δίνει την καλύτερη απόδοση πρόβλεψη αν τα χαρακτηριστικά κατατάσσεται υψηλότερα από το όριο που χρησιμοποιούνται σε παλινδρόμηση μετά προβάλλονται επάνω στις πρώτες κύριες συνιστώσες. Τα αποτελέσματα προετοιμάζονται παράγεται σαν το αποτέλεσμα της πρόβλεψης σε κάθε χαρακτηριστικό διάνυσμα σε ένα σύνολο εκπαίδευσης. Εδώ είναι πραγματικών τιμών, ενώ η αρχική έκβαση περιέχει μια τιμή του χρόνου επιβίωσης και ένας δείκτης εκδήλωση.

Το δεύτερο βήμα χρησιμοποιεί λάσο για να χωρέσει ένα γραμμικό μοντέλο με τα αρχικά διανύσματα χαρακτηριστικών και της προετοιμασμένων αποτέλεσμα. Από προετοιμασμένων απαντήσεις είναι αυξανόμενα, μπορούμε να χρησιμοποιήσουμε τη συνήθη παλινδρόμηση ελαχίστων τετραγώνων με το λάσο ποινή, (2)

Αυτό το πρόβλημα μπορεί να λυθεί αποτελεσματικά με τον αλγόριθμο τουλάχιστον γωνίας παλινδρόμησης (LARS) [15]. Αφού βρεθεί μια λύση, μια πρόβλεψη γραμμική κινδύνου μπορεί να υπολογιστεί για κάθε δοκιμή π.χ. x και σε σύγκριση με τον κίνδυνο την επιβίωσή τους σε μορφές του μοντέλου Cox.

Συνοχή και Στιβαρή Υπογραφή Επιλογής

Ας υποθέσουμε ότι παίρνουμε από την επίλυση της Εξ. (1) με

ν

παραδείγματα, όπου τα παραδείγματα που παράγεται με μια άγνωστη παράμετρος του πληθυσμού κάτω από το μοντέλο Cox. Μια σημαντική έννοια σε στατιστικά στοιχεία σχετικά με ισχυρή επιλογή χαρακτηριστικό είναι η

συνέπειας από την άποψη της μεταβλητής

επιλογής, (3)

Δηλαδή, επιλέγει τα ίδια χαρακτηριστικά με με αυξανόμενη πιθανότητα, καθώς ο αριθμός των ασθενών αυξάνεται . Αυτό σημαίνει ότι, εάν

n

είναι αρκετά μεγάλο ή τη σύγκλιση στην Εξ. (3) είναι αρκετά γρήγορη για ένα σταθερό

ν

, τότε τα υποσύνολα χαρακτηριστικό που επιλέγεται από πολλές χρησιμοποιώντας διαφορετικά δείγματα του μεγέθους

n

θα είναι η ίδια με μεγάλη πιθανότητα, δεδομένου ότι όλοι τους θα είναι κοντά στα χαρακτηριστικά που πρέπει να επιλεγεί από. Ως εκ τούτου, για ισχυρή επιλογή σε κλινικές μελέτες, όπου ο αριθμός των ασθενών

n

είναι σχετικά μικρές και δεν είναι εύκολο να αυξηθεί, προτιμούμε να χρησιμοποιούν μια μέθοδο με γρήγορη σύγκλιση σε συνοχή.

Πρόσφατα υπήρξε δείξει ότι κάτω από το

irrepresentable συνθήκες

[16] ή ισοδύναμα το

συνθηκών σταθερότητας γειτονιά

[17], συνεπείς εκτιμήσεις μπορούν να ληφθούν με λάσο, παρόλο που οι συνθήκες αυτές συνήθως σπάσει σε πραγματικές καταστάσεις. Η προετοιμασία λάσο αλγόριθμο [10] είναι μια εναλλακτική λύση για λάσο, παράγουν συνεπείς εκτιμήσεις π.χ. πότε . Για τους απλούς ελαχίστων τετραγώνων με το λάσο ποινή, αποδεικνύεται ότι, όταν η παράμετρος νομιμοποίησης επιλέγεται να είναι, τότε κάθε ενεργό στοιχείο επιλέγεται από αυστηρά θετική πιθανότητα [18]. Ως εκ τούτου, μια διασταύρωση των συνόλων χαρακτηριστικό που προέρχονται από δοκιμές εκκίνησης θα είναι μη κενά, και να είναι συνεπείς με την εκθετικά αυξανόμενη πιθανότητα ως

n

μεγαλώνει. Ωστόσο, τα επιχειρήματα που βασίζονται σε ισχυρές παραδοχές, οι οποίες μάλλον εύκολα παραβιάζονται στην πράξη, και ως εκ τούτου η επιθυμητή ιδιότητα δεν μπορεί να ακολουθήσει. Μια άλλη τροποποίηση του Lasso έχει προταθεί χρησιμοποιώντας τυχαία νέα στάθμιση των λάσο regularizer [19]. Αυτός ο αλγόριθμος παράγει συνεπείς εκτιμήσεις σε λιγότερο περιοριστικούς όρους από ό, τι την προηγούμενη προσέγγιση, αλλά απαιτεί να ορίσετε μια επιπλέον παράμετρο «αδυναμία», το οποίο δεν είναι εύκολο να καθοριστεί σε τυχαιοποιημένες ρύθμιση.

ισχυρή μέθοδο επιλογής μας βασίζεται στην ακόλουθη τρεις κρίσιμες παρατηρήσεις. Πρώτον, προετοιμάζεται λάσο έχει καλύτερη σύγκλιση σε συνοχή από λάσο όταν [10]. Δεύτερον, η διακύμανση στα μοντέλα μπορεί να μειωθεί με το μοντέλο του μέσου όρου σε συνδυασμό με υπο-δειγματοληψία [4] (εσωτερικό βήμα υποδειγματοληψίας). Και τρίτο, σχετικά χαρακτηριστικά πρέπει να επιλέγονται με θετική πιθανότητα με το λάσο, υπό ορισμένες προϋποθέσεις [18], και ως εκ τούτου θα εμφανίζονται πιο συχνά από ό, άσχετα χαρακτηριστικά σε πολλαπλές δοκιμές με τυχαία μερικά δείγματα (εξωτερική βήμα subsampling).

Ένα στιβαρό υπογραφής ορίζεται ως εξής: δίνεται ένα δείκτη τυχαίο επιμέρους δείγμα που και εκτίμηση λήφθηκαν με τα παραδείγματα που αντιστοιχεί στο

I

, η ευρωστία ενός χαρακτηριστικού αναπροσαρμόζονται από ορίζεται ως πιθανότητα του να επιλεγεί ανάμεσα σε όλες τις δοκιμές με τυχαία επιμέρους δείγματα, όπου όλες οι παράμετροι, αν υπάρχουν, πρέπει να ρυθμίζεται για κάθε

I

. Ένα

στιβαρή υπογραφή

ορίζεται ως ένα σύνολο ισχυρά χαρακτηριστικά, των οποίων οι πιθανότητες επιλογής είναι πάνω από ένα ορισμένο όριο, δηλαδή,

Οι δύο παραπάνω ορισμοί προσαρμοστεί από Meinshausen και Bühlmann [19]. Μετά την αξιολόγηση πιθανότητα επιλογής χαρακτηριστικών στο εξωτερικό subsampling, το χρησιμοποιούμε για να προσδιορίσει ένα κατ ‘εκτίμηση ισχυρή υπογραφή, (4)

Μέθοδοι

Η ροή του νεοαποκτηθέντα μεθόδου μας σκιαγραφείται στο Σχήμα 1. Η αριστερό πάνελ (Α) δείχνει RS-PL, αξιόπιστη διαδικασία επιλογής μας με τον αλγόριθμο προετοιμασία Lasso, το οποίο παράγει ένα διάνυσμα συντελεστών για κάθε τυχαίο δείκτη του τρένου που

I

. Στο δεξιό πίνακα (Β), υπολογίζουμε την πιθανότητα επιλογής της κάθε χαρακτηριστικό που επιλέγεται από τον αλγόριθμο RS-PL για κάθε τυχαίο σύνολο τρένο

I

, τον έλεγχο της απόδοσης των προγνωστικών, καθώς και.

πίνακας Α: αλγορίθμους πυρήνα μας (συντομογραφία RS-PL) εκτελεί ισχυρή επιλογή με μια εσωτερική subsampling, χρησιμοποιώντας τη μέθοδο προετοιμασία λάσο (PL) στο εσωτερικό. Δυνητικά είναι ασταθές μοντέλο φορείς συντελεστή αθροίζονται και στη συνέχεια συρρικνωμένο για να παράγουν ένα ισχυρό φορέα μοντέλο. Πίνακας Β: ένα εξωτερικό υποδειγματοληψίας χρησιμοποιείται για την αξιολόγηση της απόδοσης πρόβλεψη της RS-PL και να εκτιμηθεί πιθανότητες επιλογής χαρακτηριστικών. Οι αναλογίες (63,2% :36.8%) επέλεξαν να μοιάζουν με τις πραγματικές αναλογίες δειγματοληψίας bootstrapping.

Η

μας μέθοδο RS-PL είναι σχεδιασμένη για να ενισχύσει την ευρωστία του λάσο με βάση τις μεθόδους επιλογής υπογραφή, ιδίως η προετοιμασμένων λάσο (PL). PL και RS-PL εκτελέσει τόσο την επιλογή της υπογραφής και η εκτίμηση της συνάρτησης πρόβλεψης ταυτόχρονα σε ένα στενά συζευγμένο τρόπο. Ως εκ τούτου, η βελτίωση της ευρωστίας στην επιλογή υπογραφής τείνει να βελτιώσει τις επιδόσεις πρόβλεψη. Πιο συγκεκριμένα, οι παράγοντες πρόβλεψης της RS-PL βασίζονται σε σύνολο γραμμικών μοντέλων επιλεγεί χαρακτηριστικά, και ως εκ τούτου ευρωστία στην επιλογή υπογραφή είναι άμεσα συνδεδεμένη με τη σταθερότητα των μοντέλων σύνολο και την πρόγνωση του αποτελέσματος.

Ανθεκτική Επιλογή με προετοιμασία Lasso (RS-PL)

προτεινόμενη αλγόριθμο μας RS-PL στο Σχήμα 1 (α) αντιστοιχεί σε ένα εσωτερικό βήμα subsampling σε ολόκληρο το πλαίσιο, όπου ορίζεται ένας δείκτης τρένο

I

χωρίζεται σε ένα σύνολο υπο-τρένο

J

(63,2%) και ένα σετ συντονισμού (το υπόλοιπο). Αυτές οι αναλογίες επιλέγονται ώστε να μοιάζουν του πραγματικού αριθμού των δειγμάτων σε bootstrapping [3]. Σε σύγκριση με άλλες στρατηγικές subsampling όπως

k

φορές σε σταυρό επικύρωσης, αυτό το συγκεκριμένο τρόπο subsampling είναι γνωστό ότι παρέχουν την καλύτερη εκτίμηση όταν ο θόρυβος στα δεδομένα είναι μέτρια [20].

προφιλτραρίσματος.

Στην RS-PL, πρέπει πρώτα να αφαιρέσετε uninformative χαρακτηριστικά από κάθε σετ τρένου (Ι) του οποίου η τυπική απόκλιση τιμές είναι κάτω από ένα προκαθορισμένο εκατοστημόριο των κατ ‘αποκοπή τιμών απόκλισης όλων των χαρακτηριστικών. Αυτό το φιλτράρισμα είναι προαιρετική, αλλά διευκολύνει την επιλογή χαρακτηριστικό. Ειδικότερα, ένας επιθυμητός αριθμός υποψηφίων χαρακτηριστικά

σελ

μπορεί να καθοριστεί χρησιμοποιώντας το Λήμμα 6.7 [21], η οποία αναφέρει ότι ο αριθμός των χαρακτηριστικών που πρέπει να επιλεγεί με στατιστικά συνοχή με το λάσο και το προετοιμασμένων λάσο οριοθετείται από για ένα δείγμα του μεγέθους

n

. Με άλλα λόγια,

σ

δεν πρέπει να είναι μεγαλύτερο από ό, τι. Για παράδειγμα,

σ

θα μπορούσε να είναι μέχρι μερικές χιλιάδες, όταν

n

= 176 και. Στα πειράματά μας περιμέναμε ότι θα ήταν 5~10 και μείωσε τον αριθμό των υποψηφίων χαρακτηριστικά, όπως προτείνεται από το λήμμα χρησιμοποιώντας προφιλτραρίσματος.

προετοιμασία Λάσο.

Στο επίκεντρο των RS-PL, εμείς χρησιμοποιήστε την προετοιμασία λάσο αλγόριθμο (συντομογραφία PL) συζητήθηκε παραπάνω, λόγω της ανώτερης χαρακτηριστικά της για τις περιπτώσεις. PL εσωτερικό του RS-PL μπορεί να αντικατασταθεί από άλλους αλγόριθμους εφόσον παράγουν φορείς συντελεστή γραμμικά μοντέλα, όπως η παλινδρόμηση Cox με το λάσο ποινή.

Ομαδοποίηση και συρρίκνωση των υπογραφών.

Για κάθε σύνολο υπο-σταθμό, παίρνουμε ένα φορέα συντελεστή εκτίμηση ως αποτέλεσμα της επίλυσης το δεύτερο στάδιο της προετοιμασία λάσο στην Εξ. (2). Για Τ

σε = 100 τυχαία σύνολα υπο-σταθμό, ας πούμε, έχουμε κατ ‘εκτίμηση φορείς συντελεστή αντίστοιχα. Δεδομένου ότι οι φορείς συντελεστής είναι από γραμμικά μοντέλα, μπορούμε να τους συγκεντρώσει από μια απλή μέσου όρου, δηλαδή,

Εδώ η συγκεντρωτική φορέας συντελεστής συμβολίζεται με το γράμμα

I

, δεδομένου ότι παράγεται για κάθε σύνολο τρένο

σε ισχύ.

ο αριθμός των χαρακτηριστικών που θα επιλεγούν από το συνολικό διάνυσμα τείνει να είναι αρκετά μεγάλο, δεδομένου ότι το σύνολο των μη μηδενική συστατικά είναι η ίδια με την ένωση υπογραφών που συγκεντρώθηκαν με, όπως προαναφέρθηκε. Γι ‘αυτό «συρρίκνωση» των συντελεστών χρησιμοποιώντας μια απλή στρατηγική κατωφλίου: για τις τιμές κατωφλίου, όπου και είναι το μικρότερο και το μεγαλύτερο μέγεθος των συστατικών μέσα, θα βρείτε ένα κατώφλι έτσι ώστε η συρρικνωμένη υπογραφή και των αντίστοιχων συντελεστών του παράγει τα καλύτερα αποτελέσματα πρόβλεψης πάνω ρύθμιση σύνολα, όπου σύνολα ρύθμιση προέρχονται από το εσωτερικό υποδειγματοληψία στο Σχήμα 1 (Α). Συμβολίζουμε την συγκεντρωτική και συρρικνωμένο ισχυρό φορέα συντελεστή, το τελικό αποτέλεσμα του RS-PL, όπως, κατασκευάζεται ως εξής: (5)

Εκτίμηση της πιθανότητας επιλογής, Πρόβλεψη Απόδοσης, και δύναμη

Η αλγόριθμο στο Σχήμα 1 (Β) αντιστοιχεί σε ένα εξωτερικό βήμα subsampling, όπου το σύνολο δεδομένων κλάσης με το

ν

οι ασθενείς χωρίζονται σε ένα σύνολο τρένο

I

(63,2%) και ένα σύνολο ελέγχου ( το υπόλοιπο), τυχαία για Τ

out = 100 φορές.

προεπεξεργασία.

υπάρχουν δύο ξεχωριστά βήματα προεπεξεργασίας για κάθε σετ τρένου (

I

) και κάθε σύνολο ελέγχου. Αυτός ο διαχωρισμός είναι πολύ σημαντική για την ακριβή εκτίμηση της απόδοσης πρόβλεψης. Για παράδειγμα, όταν εφαρμόζουμε περιλήψεων και την ομαλοποίηση των αλγορίθμων όπως είναι η ισχυρή ανάλυση πολλαπλών array (RMA) [22] για τα δεδομένα μικροσυστοιχιών, θα πρέπει να εφαρμόσει RMA ξεχωριστά σε ένα σύνολο τρένο και μια σειρά δοκιμών, διότι διαφορετικά RMA θα χρησιμοποιεί πληροφορίες από μια δοκιμή που να προεργασία ένα σύνολο τρένο, και αντίστροφα, και ως εκ τούτου, μια τέτοια πρακτική μπορεί να δώσει υπερβολικά αισιόδοξες εκτιμήσεις ακρίβεια πρόβλεψης για το σύνολο ελέγχου.

Εναλλακτικά, [23] μπορεί να εφαρμοστεί η παγωμένη RMA (fRMA) αλγόριθμο ανεξάρτητα σε μεμονωμένες microarrays, χρησιμοποιώντας παγκόσμια μικροσυστοιχίες αναφοράς για την κανονικοποίηση. Λόγω της ανεξαρτησίας, fRMA πρέπει να εφαρμοστεί μόνο μία φορά για όλες τις συστοιχίες, ανεξάρτητα από τις διασπάσεις του τρένου /δοκιμή.

Πρόβλεψη Κινδύνου.

Για την πρόβλεψη, μια ισχυρή και συρρικνωμένο εκτίμηση του συντελεστή στην εξίσωση. (5) που λαμβάνεται με RS-PL χρησιμοποιείται για να συγκρίνει τον κίνδυνο των ασθενών να έχουν μια εκδήλωση στο χρόνο

t

, από την άποψη του μοντέλου Cox αναλογικών κινδύνων [11]. Σε αυτό το μοντέλο, η αναλογία κινδύνου καταγραφής συγκρίνοντας τον κίνδυνο δύο ασθενείς (με τα προφίλ και) becomesfrom ο ορισμός της συνάρτησης κινδύνου (κίνδυνος). Η αναλογία κινδύνου παρέχει μια στατιστική για τις διαφορές δοκιμές στα πρότυπα επιβίωσης. Αξίζει να σημειωθεί ότι ο κίνδυνος βάσης

h

0 (

t

) ακυρώνεται και δεν παίζει κανένα ρόλο στην παραπάνω έκφραση, κάνοντας σύγκριση των κινδύνων τόσο απλό όσο συγκρίνοντας τις τιμές των γραμμικών προγνωστικών και. Αυτό μας δίνει τη δυνατότητα να χρησιμοποιήσετε μια συσχέτιση κατάταξης μεταξύ γραμμικών προγνωστικών και χρόνους επιβίωσης για την αξιολόγηση των επιδόσεων πρόβλεψη, όπως θα συζητήσουμε στην επόμενη ενότητα.

Από την άλλη πλευρά, η βασική κινδύνου

h

0 (

t

) μπορεί να εκτιμηθεί με σκοπό την παραγωγή πιθανότητες επιβίωσης για μεμονωμένους ασθενείς. Μια εκτίμηση του

h

0 (

t

) προτείνεται από τον Cox και Oakes [24], όπου η διακριτή φορές εκδήλωσης και

d

i

είναι ο αριθμός των συμβάντων σε

t

i

. Στη συνέχεια, η συνάρτηση επιβίωσης (η πιθανότητα να επιβιώσει, τουλάχιστον σε χρόνο

t

) για έναν ασθενή x μπορεί να υπολογιστεί από,

Μέτρα για την Πρόβλεψη Απόδοσης.

Για να μετρήσετε την πρόβλεψη απόδοση, χρησιμοποιήστε το

δείκτη αντιστοιχίας

[25], το οποίο είναι το κλάσμα όλων των συγκρίσιμων ζεύγη των ασθενών των οποίων τα αποτελέσματα είναι σύμφωνη με τις προβλέψεις. Ένα ζευγάρι των ασθενών θεωρείται ότι είναι χρησιμοποιήσιμα εκτός από τις περιπτώσεις όπου και οι δύο ασθενείς έχουν εκδηλώσεις ταυτόχρονα, ή ένα έχει βραχύτερο χρόνο επιβίωσης λογοκριμένη από τον άλλο που έχει μια εκδήλωση. Για να εξηγήσει επίσημα, ας υποθέσουμε ότι μια πρόβλεψη είναι διαθέσιμα για κάθε ασθενή του οποίου η επιβίωση του χρόνου δίνεται από με δείκτη εκδήλωση. Εξετάστε τις ακόλουθες λειτουργίες ένδειξη προκειμένου [26] για την,

Στη συνέχεια, το προϊόν των δύο λειτουργίες μέτρα ώστε αν η παραγγελία ενός ζεύγους προβλέψεις είναι σύμφωνη (προϊόν = 1), disconcordant (-1), ή όχι συγκρίσιμες (0) με τη σειρά του αντίστοιχου ζεύγους χρόνο επιβίωσης. Ο δείκτης αντιστοιχία ορίζεται ως το κλάσμα του συγκλίνουσες ζεύγη μεταξύ όλων των συγκρίσιμων ζεύγη, η οποία έχει μια τιμή μεταξύ 0 και 1. Εδώ είναι μια συνάρτηση δείκτης επιστρέφει 1 αν η παράμετρος είναι αληθινό, και 0 διαφορετικά. Σημειώστε ότι ο αριθμητής παραπάνω μετρά τον αριθμό όλων των συγκλίνουσες ζεύγη, όπου ο παρονομαστής υπολογίζει τον αριθμό όλων των συγκρίσιμων ζεύγη (συμφωνούν ή disconcordant). Το μέτρο αυτό μπορεί να περιγραφεί ως μια γενικευμένη AUC (περιοχή κάτω από την καμπύλη ROC) αξίας, όπου οι τιμές & gt? 0.5 συνεπάγεται θετική συσχέτιση και αξίες & lt? 0.5 συνεπάγεται αρνητική συσχέτιση. Για δυαδικό αποτιμάται προβλέψεις, ο δείκτης συμφωνία γίνεται ταυτόσημη με την AUC.

Μέτρα για την ανθεκτικότητα.

Για να μετρήσετε την ευρωστία της επιλογής υπογραφής, χρησιμοποιούμε το

δείκτης Jaccard

και η

rank-τιμωρηθεί Kuncheva δείκτη

.

το

Jaccard δείκτη

μετρά την ευρωστία των υπογραφών των ενδεχομένως διαφορετικών μεγεθών, και ορίζεται ως ο μέσος όρος του μεγέθους της επικάλυψης μεταξύ χαρακτηριστικό υποσύνολα σε σχέση με το μέγεθος της ένωσής τους [2]. Που δηλώνει το σύνολο των χαρακτηριστικών που επιλέγεται με με, αυτό ορίζεται ως εξής:. (6)

Ο δείκτης Jaccard κυμαίνεται 0-1, και οι μεγαλύτερες τιμές υποδεικνύουν μεγαλύτερη σχέση με επικάλυψη

Όταν τα μεγέθη των υπογραφές μπορεί να ελεγχθεί, πιο ακριβή μέτρα της ανθεκτικότητας είναι διαθέσιμα, ήτοι ο δείκτης Kuncheva [27] και η απόσταση Canberra [28], αντί του δείκτη Jaccard που μπορεί να οδηγήσει σε μια μεροληπτική αξιολόγηση της ευρωστίας. Συγκεκριμένα, ο δείκτης Kuncheva παρέχει μια αμερόληπτη εκτίμηση της μέσης επικάλυψη μεταξύ των υπογραφών, καθώς και τα μέτρα απόσταση Καμπέρα πόσο καλά η σειρά της συμβολής των χαρακτηριστικών διατηρείται μεταξύ υπογραφές κατά μέσο όρο. Σε σύγκριση με το δείκτη Jaccard, αυτά τα δύο μέτρα απαιτούν υπογραφές για να είναι του ίδιου μεγέθους για σύγκριση. Το κλάσμα μεταξύ του δείκτη Kuncheva και την απόσταση Καμπέρα, που συμβολίζεται ως

rank-τιμωρηθεί Kuncheva δείκτη

, υπολογίζεται ως σύνοψη των δύο μέτρων της ευρωστία. Δηλώνει τα χαρακτηριστικά που επιλέγονται από επιπλέον συρρίκνωση κατά, και την τάξη στο μέγεθος της ου χαρακτηριστικό του, η τάξη-τιμωρηθεί δείκτη Kuncheva εκφράζεται ως εξής (

σ

είναι ο συνολικός αριθμός των υποψηφίων χαρακτηριστικά), (7)

Οι τιμές αυτού του εύρους του δείκτη από το 0 (μηδέν επικάλυψη, δηλαδή, χαρακτηριστικό τάξεις δεν σώζεται) να ∞ (τέλεια επικάλυψη, δηλαδή, τέλεια διατήρηση της χαρακτηριστικό τάξεις).

Πρόσθετα συρρίκνωση της μοντέλα.

Ο αριθμός των χαρακτηριστικών σε μια υπογραφή που περιγράφεται από ποικίλλει ανάλογα με τα δεδομένα και τις μεθόδους, αλλά είναι συνήθως μεγαλύτερη από 50. Όταν οι μικρότερες υπογραφές προτιμάται για μια σε βάθος διερεύνηση των χαρακτηριστικών, των υπογραφών που περιγράφονται από μπορεί να συρρικνωμένο περαιτέρω επιλέγοντας την κορυφή

G

διαθέτει σύμφωνα με το μέγεθος του συντελεστή τους σε.

Αυτό στη συνέχεια χρησιμοποιείται για την αξιολόγηση της μεθόδου μας να συγκρίνουν την ευρωστία και την πρόβλεψη των επιδόσεων των υπογραφών που αποτελείται από μικρό αριθμό χαρακτηριστικών.

επιλογή πιθανότητες χαρακτηριστικά και Στιβαρή υπογραφές.

Η πιθανότητα επιλογής ενός χαρακτηριστικού, αναπροσαρμόζονται από

k

, εκτιμάται από τη συχνότητα της εμφάνισής του μεταξύ των Τ

από το εξωτερικό δοκιμές subsampling, δηλαδή, όπου είναι μια συνάρτηση δείκτης που ισούται με 1 αν η δήλωση

s

είναι αλήθεια, ή 0 διαφορετικά. Λαμβάνοντας υπόψη αυτές τις πιθανότητες και μια βασική πιθανότητα επιλογής

π

, κατασκευάζουμε μια ισχυρή υπογραφή σύμφωνα με την Εξ. (4).

Λίστα Αλγορίθμων για Σύγκριση

προτεινόμενη αλγόριθμο μας RS-PL, όπου το πρόθεμα «RS» σημαίνει «ισχυρή επιλογή», συγκρίνεται με τις ακόλουθες αλγορίθμων. RS-L είναι το ίδιο με το RS-PL, εκτός από το ότι PL εσωτερικό του RS-PL αντικαθίσταται με το παλινδρόμησης Cox με το λάσο ποινή. Στη συνέχεια, ολόκληρη η RS-PL στο Σχήμα 1 (Α) αντικαθίσταται με τις περιγραφόμενες αλγορίθμων, που δεν κάνουν χρήση του πλαισίου RS μας: PL είναι η προετοιμασία λάσο αλγόριθμος. L είναι η παλινδρόμηση Cox με το λάσο ποινή. Dev είναι μια απλή μέθοδος που επιλέγει τα 100 κορυφαία χαρακτηριστικά με την μεγαλύτερη τυπική απόκλιση σε όλη μικροσυστοιχίες. Μια ράχη Cox παλινδρόμησης εκτελείται έπειτα, χρησιμοποιώντας μόνο αυτά τα χαρακτηριστικά. Αυτό το είδος των μεθόδων είναι γνωστό ότι είναι σταθερός [29]. Cor είναι μια άλλη μονοπαραγοντική μέθοδο, επιλέγοντας τα 100 κορυφαία χαρακτηριστικά με τις υψηλότερες τάξεις όσον αφορά τα ατομικά συσχέτισή τους με σχολιασμό επιβίωσης (μετρούμενη με βάση το δείκτη αντιστοιχίας). Μια κορυφογραμμή Cox παλινδρόμησης πραγματοποιείται στα επιλεγμένα χαρακτηριστικά μετά. CLI είναι μια παλινδρόμησης κατά Cox, χωρίς καμία ποινή χρησιμοποιώντας μόνο κλινική συμπαράγοντες. Το πακέτο BatchExperiments [30] για την Ε χρησιμοποιήθηκε για την παράλληλη υπολογισμό των αλγορίθμων.

Αποτελέσματα

Προετοιμασία Δεδομένων

Τρία σύνολα δεδομένων αναλύθηκαν περιέχει προφίλ έκφρασης mRNA από ένα σύνολο 742 ασθενείς με καρκίνο που αποκτήθηκαν με τη χρήση της τεχνολογίας των μικροσυστοιχιών Affymetrix. Τα δεδομένα ελήφθησαν για τρεις διαφορετικές οντότητες, νευροβλάστωμα, αδενοκαρκίνωμα του πνεύμονα, και καρκίνου του μαστού, όπως συνοψίζεται στον Πίνακα 1. αρχεία CEL είχαν κατεβάσει από το Gene Expression Omnibus ή την πλατφόρμα R2 (https://r2.amc.nl). Προεπεξεργασίας, το παγωμένο αλγόριθμο RMA [23] εφαρμόστηκε σε μεμονωμένα αρχεία CEL να δημιουργήσουν περιλήψεις probeset επίπεδο. Μόνο μικροσυστοιχίες με τη διάμεση τιμή Gnuse [31] τιμές ≤1 (για τον έλεγχο της ποιότητας) και με τις κατάλληλες κλινικές πληροφορίες (συνολική επιβίωση) συμπεριλήφθηκαν στη μελέτη αυτή. Τα χαρακτηριστικά των τριών συνόλων δεδομένων πριν και μετά την προεπεξεργασία συνοψίζονται στους Πίνακες 2, 3, και 4 (βλέπε Εικόνα S1 για τα αντίστοιχα οικόπεδα Kaplan-Meier).

Η

Η

Τα χαρακτηριστικά που λαμβάνονται από προεπεξεργασία συμβολίζεται με

probesets

, οι οποίες αντιστοιχούν σε (μέρη του) εξώνια ή γονίδια ανάλογα με πλατφόρμες μικροσυστοιχιών. Ο συνολικός αριθμός των probesets (χαρακτηριστικά) διαφέρουν ανάλογα με πλατφόρμες μικροσυστοιχιών: HG-U133A Plus 2.0 πλατφόρμα περιέχει 54.675 probesets (HG-U133A περιέχει περίπου 10000 λιγότερο probesets), και την Ανθρώπινη εξόνιο ST πλατφόρμα v1.0 περιέχει 1.432.143 probesets, σύμφωνα με την NetAffx probeset v33.1 σχολιασμό από Affymetrix. Κάθε probeset έχει ένα συνοψίζονται τιμές έκφραση του αντίστοιχου

ανιχνευτές

στα αρχικά δεδομένα CEL, όπου 9~11 (HG-U133A) ή 1~4 (Human εξόνιο ST v1.0) ανιχνευτές αποτελούν probeset. Για το σύνολο δεδομένων νευροβλάστωμα (Human εξόνιο ST v1.0), εστιάσαμε στις probesets επίπεδο πυρήνα, όπως χαρακτηριστικά αντιστοιχούν σε εξώνια που πληρούνται τρία κριτήρια: το μοναδικό υβριδισμό, μοναδική εντοπισμό σε ένα από τα ανθρώπινα χρωμοσώματα, και η παρουσία των έγκυρων αναθέσεις γονιδίου . Χρησιμοποιώντας το probeset σχολιασμό NetAffx, αυτό οδήγησε σε 228476 χαρακτηριστικά. Όταν προφιλτράρισμα εφαρμόστηκε, οι probesets με τυπική απόκλιση μικρότερη από το 99ο εκατοστημόριο της τυπικής απόκλισης του συνόλου των χαρακτηριστικών απορρίφθηκαν για κάθε τυχαίο σύνολο τρένο

I

, με αποτέλεσμα 2285 χαρακτηριστικά. Για αδενοκαρκίνωμα (HG-U133 Plus 2) και του καρκίνου του μαστού (HG-U133A) σύνολα δεδομένων, εστιάσαμε στις probesets ποιότητας-Α, όπως χαρακτηριστικά αντιστοιχούν σε γονίδια με μοναδική υβριδοποίηση και μοναδική εντοπισμού. Χρησιμοποιώντας το σχολιασμό NetAffx, αυτό οδήγησε σε 28.476 (αδενοκαρκίνωμα) και 20492 (καρκίνος του μαστού) διαθέτει, αντίστοιχα. Όταν προφιλτράρισμα εφαρμόστηκε, οι probesets με τυπική απόκλιση μικρότερη από το 90ο εκατοστημόριο της τυπικής απόκλισης του συνόλου των χαρακτηριστικών απορρίφθηκαν για κάθε τυχαίο σύνολο τρένο

I

, με αποτέλεσμα 2848 (αδενοκαρκίνωμα) και 2050 (καρκίνος του μαστού) χαρακτηριστικά .

Κλινική συμπαράγοντες χρησιμοποιήθηκαν μόνο για τη μέθοδο Cli, συμπεριλαμβανομένων των εξής χαρακτηριστικά: ηλικία κατά τη διάγνωση, την κατάσταση MYCN και το στάδιο INSS για νευροβλάστωμα? την ηλικία, την κατάσταση, το φύλο, το στάδιο, και την κατάσταση MYC για αδενοκαρκίνωμα του πνεύμονα το κάπνισμα? την ηλικία, το στάδιο, το μέγεθος του όγκου, και βαθμού για καρκίνο του μαστού.

Στιβαρή υπογραφές

Οι αλγόριθμοι RS-PL, RS-L, PL, L, Dev, Cor και Cli ελέγχθηκαν στο πλαίσιο πλαίσιο αξιολόγησης μας (Εικόνα 1: Β), χρησιμοποιώντας τις ίδιες τυχαίες διασπάσεις των δεδομένων μεταξύ των διαφόρων μεθόδων για την δίκαιη σύγκριση (βλέπε πίνακα S1 για την επιβίωση της χρονικής κατανομής των τρένων και δοκιμής σετ). Αυτό είχε ως αποτέλεσμα μια ακολουθία διανυσμάτων συντελεστή ως έξοδος της κάθε μεθόδου. Αυτά χρησιμοποιήθηκαν για να υπολογιστεί η πιθανότητα επιλογής του κάθε χαρακτηριστικό,. Για το σύνολο δεδομένων νευροβλάστωμα, η βασική πιθανότητα ορίστηκε με την εκτιμώμενη πιθανότητα επιλογής του συμμεταβλητή καθεστώτος ενίσχυσης MYCN (). Για τα άλλα δύο σύνολα δεδομένων, μία αυθαίρετη τιμή () ορίστηκε και ελήφθησαν ισχυρή υπογραφές.

Ποιοτική Επικύρωση Στιβαρή υπογραφές.

Οι πίνακες 5, 6, και 7 δείχνουν τα χαρακτηριστικά που περιλαμβάνονται στο εύρωστη υπογραφές που παράγονται με RS-PL, για νευροβλάστωμα, αδενοκαρκίνωμα του πνεύμονα, και καρκίνου του μαστού, αντίστοιχα (βλέπε πίνακες S2, S3, S4 και για τους αντίστοιχους καταλόγους των επιλεγμένων χαρακτηριστικών και πιθανότητα επιλογής τους). Σε κάθε πίνακα, οι συχνότητες επιλογή των χαρακτηριστικών φαίνεται στη δεύτερη στήλη. Όσο για το νευροβλάστωμα, τα δεδομένα ήταν διαθέσιμα με ανάλυση επίπεδο εξόνιο, έτσι τιμές συχνότητας επιλογής υπολογίστηκαν κατά μέσο όρο πάνω από πολλαπλά εξώνια εάν περισσότερα από ένα εξόνιο ήταν σταθερά προσδιοριστεί για ένα γονίδιο.

You must be logged into post a comment.