PLoS One: Χρησιμοποιώντας βασισμένο σε κανόνες Machine Learning για τις υποψήφιες Ασθενειών Gene ιεράρχηση και Δείγμα Ταξινόμηση Cancer Gene Expression Data


Αφηρημένο

ανάλυση δεδομένων μικροσυστοιχιών έχει αποδειχθεί ότι παρέχει ένα αποτελεσματικό εργαλείο για τη μελέτη του καρκίνου και γενετικών ασθενειών. Αν και κλασικές τεχνικές μηχανικής μάθησης έχουν επιτυχώς εφαρμοστεί για να βρείτε πληροφοριακά γονίδια και να προβλέψουμε τις ετικέτες τάξη για νέα δείγματα, κοινή περιορισμοί ανάλυση μικροσυστοιχιών όπως μικρά μεγέθη δείγματος, ένα μεγάλο χώρο χαρακτηριστικό και υψηλά επίπεδα θορύβου ακόμη να περιορίσει την επιστημονική και κλινικές εφαρμογές της. Η αύξηση της interpretability των μοντέλων πρόβλεψης, διατηρώντας μια υψηλή ακρίβεια θα σας βοηθήσει να εκμεταλλευτεί το περιεχόμενο των πληροφοριών στα δεδομένα μικροσυστοιχιών πιο αποτελεσματικά. Για το σκοπό αυτό, θα αξιολογεί τα συστήματα μας βασίζεται σε κανόνες εξελικτικής μηχανικής μάθησης, BioHEL και GAssist, σε τρία δημόσια σύνολα δεδομένων καρκίνο μικροσυστοιχιών, η απόκτηση απλά μοντέλα που βασίζεται σε κανόνες για την ταξινόμηση του δείγματος. Μια σύγκριση με άλλα αναφοράς ταξινομητές δείγμα μικροσυστοιχιών βασισμένη σε τρεις διαφορετικές αλγόριθμοι επιλογής χαρακτηριστικών δείχνει ότι αυτές οι εξελικτικές τεχνικές μάθησης μπορεί να ανταγωνιστεί με state-of-the-art μεθόδους, όπως μηχανές διανυσμάτων υποστήριξης. Τα λαμβανόμενα μοντέλα φτάσει ακρίβεια πάνω από 90% σε δύο επίπεδα εξωτερικού διασταυρωμένης επικύρωσης, με την προστιθέμενη αξία για τη διευκόλυνση της ερμηνείας χρησιμοποιώντας μόνο τους συνδυασμούς απλών if-then-else κανόνες. Ως επιπλέον όφελος, μια ανάλυση των ορυχείων της βιβλιογραφίας αποκαλύπτει ότι prioritizations ενημερωτικών γονιδίων που προέρχονται από σύνολα κανόνων ταξινόμησης BioHEL μπορεί να έχει υψηλές επιδόσεις βαθμολογίες γονίδιο που λαμβάνεται από μια συμβατική επιλογή χαρακτηριστικό σύνολο από την άποψη του κατά σημείο αμοιβαία ενημέρωση μεταξύ των σχετικών όρων της νόσου και τα τυποποιημένα ονόματα του ανωτάτου κατετάγη γονίδια

Παράθεση:. Glaab E, Bacardit J, Garibaldi JM, Krasnogor Ν (2012) Χρησιμοποιώντας τον κανόνα-Based Learning μηχάνημα για τις υποψήφιες Ασθενειών Gene ιεράρχηση και Δείγμα Ταξινόμηση Cancer Gene Expression Data. PLoS ONE 7 (7): e39932. doi: 10.1371 /journal.pone.0039932

Επιμέλεια: Χρήστος Α Ουζούνης, Το Εθνικό Κέντρο Έρευνας και Τεχνολογίας, Ελλάς, Ελλάδα |

Ελήφθη: 29, Ιαν, 2012? Αποδεκτές: 29 Μάη, 2012? Δημοσιεύθηκε: 11 Ιουλίου 2012 |

Copyright: © 2012 Glaab et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αναγνωρίζουμε υποστήριξη από το πρόγραμμα Marie-Curie Early-Stage-Κατάρτισης (χορηγήσουν MEST-CT-2004- 007597), από το Μηχανικών και Φυσικών Επιστημών Συμβούλιο Έρευνας του Ηνωμένου Βασιλείου (ΕΚ /E017215 /1, ΕΚ /H016597 /1 και ΕΡ /J004111 /1) και η Βιοτεχνολογίας και Βιολογικών Επιστημών Συμβούλιο Έρευνας (ΒΒ /F01855X /1). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

προφίλ γονιδιακής έκφρασης και ανάλυση δεδομένων είναι μια ευρέως χρησιμοποιούμενη προσέγγιση για να αποκτήσουν νέες γνώσεις σχετικά με τη ρύθμιση των κυτταρικών διαδικασιών σε βιολογικά συστήματα που παρουσιάζουν ενδιαφέρον. Για το σκοπό αυτό, κοινών στατιστικών μεθόδων και τεχνικών μηχανικής μάθησης μπορούν να χρησιμοποιηθούν, συμπεριλαμβανομένων των μεθόδων ομαδοποίησης για να ανακαλύψετε τις κατηγορίες των σχετικών βιολογικών δειγμάτων, των μεθόδων επιλογής χαρακτηριστικών για την αναγνώριση ενημερωτικό γονίδια και τις μεθόδους ταξινόμησης για να εκχωρήσετε την κατηγορία ετικέτες με τα δείγματα των κυττάρων με άγνωστες βιολογικές συνθήκες.

Εδώ εστιάζουμε σε εποπτευόμενους ανάλυση της γονιδιακής έκφρασης των δεδομένων για τον καρκίνο των μικροσυστοιχιών χρησιμοποιώντας μεθόδους επιλογής χαρακτηριστικών και ταξινόμησης. Η περαιτέρω πρόοδος στην ακρίβεια και επεξηγηματικότητας των μοντέλων ταξινόμησης των μικροσυστοιχιών είναι μεγάλο πρακτικό ενδιαφέρον, δεδομένου ότι μια πιο ακριβή διάγνωση του καρκίνου χρησιμοποιώντας μικροσυστοιχίες θα βοηθήσει να αποτρέψει ακατάλληλη επιλογή θεραπείας.

Αν και ακρίβειες υψηλή πρόβλεψη έχει ήδη επιτευχθεί σε πολλές μικροσυστοιχιών σύνολα δεδομένων καρκίνου, τα μοντέλα είναι συχνά πολύ περίπλοκο και δύσκολο να ερμηνευθούν, και στερούνται ευρωστία, όταν εφαρμόζεται σε εξωτερικά δεδομένα από άλλες πειραματικές πλατφόρμες. Συγκεκριμένα, προκλήσεις προκύπτουν από μικρά μεγέθη δείγματος, μεγάλο αριθμό uninformative γονίδια, τα υψηλά επίπεδα θορύβου, αρκετές ακραίες τιμές και συστηματική προκατάληψη. Ενώ τα πειράματα μπορεί συχνά να διεξαχθεί με υψηλή επαναληψιμότητα μέσα σε ένα μόνο εργαστήριο, τα αποτελέσματα που ελήφθησαν με βάση διαφορετικές τεχνολογίες τσιπ και πειραματικές διαδικασίες από διαφορετικά εργαστήρια είναι συχνά δύσκολα συγκρίσιμα. Μερικά από αυτά τα ζητήματα μπορούν να αντιμετωπιστούν με τη χρήση μεθόδων κανονικοποίησης διασταυρούμενη μελέτη και ανάλυση ενοποιητική μικροσυστοιχιών [1], [2], ή με συνδυασμό των δεδομένων μικροσυστοιχιών με τα κλινικά δεδομένα [3], [4]. Για να αποκτήσετε περαιτέρω βελτιώσεις, σε προηγούμενες μελέτες έχουμε απασχολούνται σύνολο τεχνικών μάθησης [5] – [7] και ολοκληρωμένων στοιχείων από κυτταρικά μονοπάτια, δίκτυα συν-έκφραση και μοριακές αλληλεπιδράσεις στην ανάλυση [8] – [11]. Ωστόσο, παραμένει η ανάγκη για πιο ακριβή, ισχυρό και εύκολα ερμηνεύσιμο μεθόδους πρόβλεψης.

Για να ανακουφίσει ορισμένα από τα τυπικά προβλήματα της τρέχουσας μελέτες μικροσυστοιχιών και να δείξει τα οφέλη των συστημάτων εξελικτικής μηχανικής μάθησης που βασίζεται σε κανόνες για μικροσυστοιχιών ταξινόμηση του δείγματος, που προκύπτουν από τις δυνατότητες της εξελικτικής υπολογιστικής ισχύος και την ενισχυμένη επεξηγηματικότητας των κανόνων απόφασης, αξιολογούμε προηγουμένως αναπτύξει συστήματα μηχανικής μάθησης μας BioHEL [12] – [15] και GAssist [16] – [20] σε τρία μεγάλης κλίμακας, δημόσια καρκίνο μικροσυστοιχιών σύνολα δεδομένων.

Εξελικτική μεθόδους μάθησης έχουν ήδη εφαρμοστεί με επιτυχία σε διάφορες μελέτες μικροσυστοιχιών, π.χ. για την επιλογή ενημερωτική υποσύνολα γονιδίων [21] – [23], για την ομαδοποίηση και biclustering [24] – [26] και την ταξινόμηση του δείγματος [27] – [29]. Επιπλέον, τα τελευταία χρόνια ο νέος κανόνας που βασίζεται σε προσεγγίσεις ταξινόμησης δοκιμάστηκαν με επιτυχία σε υψηλό διαστάσεων δεδομένων συστοιχίας γονιδίων [30] – [33], παρέχοντας ανθρώπου κράτος-ερμηνεύσιμο θέτει ως μοντέλα

Τα συστήματα μηχανικής μάθησης που παρουσιάζονται σε. αυτό το χαρτί συνδυάσει αυτά τα δύο παραδείγματα, εξελικτική αναζήτηση και τη μάθηση κανόνα, παρέχοντας τόσο μια αποτελεσματική εξερεύνηση του διαστήματος αναζήτησης και ενισχυμένο μοντέλο επεξηγηματικότητας. Ειδικότερα, συνδετικός κανόνες BioHEL μπορεί να δείξει τον πειραματιστή σε πιθανούς λειτουργική σχέση μεταξύ γονιδίων [34], και οι κανόνες εύρος τιμών της παρέχουν στο χρήστη μια ένδειξη για το αν ένα γονίδιο που τείνει να είναι πάνω ή προς τα κάτω-ρυθμίζονται με την αντίστοιχη βιολογική κατάσταση, με δεδομένη την πλήρη γκάμα αξία σε όλα τα δείγματα. Μια απεικόνιση του συνόλου της αναλυτικής πρωτόκολλο δείχνεται στο Σχ. 1. Κατ ‘αρχάς, θα εξομαλύνει κάθε σύνολο δεδομένων μικροσυστοιχιών και προ-φίλτρο τα χαρακτηριστικά για τη μείωση της διάσταση. Στη συνέχεια, εφαρμόζουμε αλγορίθμους μάθησης μας

BioHEL

[12] – [15] και

GAssist

[16] – [20], σε συνδυασμό με διαφορετικούς αλγορίθμους επιλογής χαρακτηριστικών χρησιμοποιώντας ένα σχήμα διασταυρωμένης επικύρωσης και επαναλάβετε αυτή τη διαδικασία με τρία εναλλακτικά ταξινομητές (βλέπε Πειραματικό πρωτόκολλο). Στο τελευταίο βήμα, τα παραγόμενα αποτελέσματα της πρόβλεψης και οι γενετικοί ανιχνευτές (που αργότερα από τα αντίστοιχα γονίδιά τους), που θεωρήθηκαν ως πιο κατατοπιστική από το σύστημα εκμάθησης αναλύονται στατιστικά και χρησιμοποιώντας μια προσέγγιση κείμενο εξόρυξης να βρει συσχετίσεις μεταξύ σχετικούς όρους της νόσου και . που αντιστοιχεί τυποποιημένα αναγνωριστικά γονίδιο

Το πρωτόκολλο αποτελείται από τρία στάδια: 1) προ-επεξεργασία? 2) Με επίβλεψη ανάλυση? . 3) Μετα-ανάλυση

Η

Θα συζητήσουμε αυτά τα βήματα αναλυτικά, σύμφωνα με την ακόλουθη δομή: Στην ενότητα Μέθοδοι παρέχουμε ένα βήμα-προς-βήμα περιγραφή των πειραμάτων μας και να εξηγήσει κάθε χρησιμοποιήθηκαν τεχνικές στη λεπτομέρεια, που ασχολούνται πρώτα με τις προσεγγίσεις επιλογής χαρακτηριστικών, στη συνέχεια, με την BioHEL συστήματα μηχανικής μάθησης και GAssist, και, τέλος, με τα σύνολα δεδομένων και τις μεθόδους προ-επεξεργασίας. Το τμήμα Αποτελέσματα περιέχει τα αποτελέσματα πρόβλεψης της λειτουργίας BioHEL, GAssist και τις εναλλακτικές ταξινομητές για τα τρία σύνολα δεδομένων καρκίνο μικροσυστοιχιών. Επιπλέον, αυτή η ενότητα παρουσιάζει μια μετα-ανάλυση των αποτελεσμάτων με τη χρήση βιοϊατρικής εξόρυξης λογοτεχνία. Στην ενότητα συμπεράσματα, παρέχουμε μια προοπτική για περαιτέρω πιθανές επεκτάσεις του πλαισίου ταξινόμησης.

Εν ολίγοις, ο γενικός στόχος της μελέτης ήταν να αποκτήσουν βιολογικά πιο ερμηνεύσιμη μοντέλα για την ταξινόμηση του δείγματος καρκίνο μικροσυστοιχιών, οι οποίες επιτρέπουν μια ισχυρή ιεράρχηση των θεωρούμενων βιοδεικτών και να φτάσει ανταγωνιστική ακρίβεια πρόβλεψης. Αντί μικροαλλαγές αλγορίθμων ή την εκ νέου ανάπτυξή τους από το μηδέν για να μεγιστοποιήσουν την ακρίβεια στο κόστος της τριτοβάθμιας πολυπλοκότητας, ο στόχος επετεύχθη με μια νέα αγωγού ανάλυσης που ερευνά το πώς διαφορετικοί αλγόριθμοι κέρδος από εξωτερικές επιλογής χαρακτηριστικών, και ότι εκμεταλλεύεται τα γνωστά οφέλη των υφιστάμενων εξελικτικής αλγόριθμοι από την άποψη της εξερεύνησης του διαστήματος αναζήτησης και εκμετάλλευσης, καθώς και των μεθόδων μάθησης με βάση κανόνες όσον αφορά την interpretability.

μέθοδοι

Πειραματικό πρωτόκολλο

αγωγού ανάλυσή μας να συγκρίνουν τόσο χαρακτηριστικό μέθοδοι επιλογής και πρόβλεψη για την ταξινόμηση του δείγματος μικροσυστοιχιών αποτελείται από τρία βασικά βήματα: τα στοιχεία προ-επεξεργασία, υπό την εποπτεία ανάλυση των δεδομένων και μετα-ανάλυση των αποτελεσμάτων

Κατά το πρώτο στάδιο, τα σύνολα δεδομένων μικροσυστοιχιών είναι προ-επεξεργασία. και κανονικοποιούνται (βλέπε παράγραφο Σύνολα Δεδομένων). Στη συνέχεια, ένας εξωτερικός διασταυρούμενης επικύρωσης εκτελείται [35], δηλαδή σε κάθε κύκλο της διασταυρωμένης επικύρωσης, πρώτα μια μέθοδο επιλογής χαρακτηριστικό εφαρμόζεται επί των τρεχόντων δεδομένων κατάρτισης και το προκύπτον υποσύνολο των χαρακτηριστικών χρησιμοποιείται για την ταξινόμηση των σετ δοκιμής δείγματα με μια μέθοδος μηχανικής μάθησης. Αυτή η διαδικασία χρησιμοποιείται χρησιμοποιώντας τόσο 10-πλάσια διασταυρωμένης επικύρωσης (CV, με τυχαία διασπάσεις, αλλά συνεπή διασπάσεις σε όλες τις συγκρίσεις) και αφήστε-one-out CV (LOOCV) και διαφορετικούς συνδυασμούς επιλογής χαρακτηριστικών και αλγορίθμων ταξινόμησης. Συγκεκριμένα, οι μέθοδοι επιλογής χαρακτηριστικών περιλαμβάνουν την μονοπαραγοντική φίλτρο «Μερική-ελαχίστων τετραγώνων με βάση Feature Selection» (plss), η συνδυαστική φίλτρο «Συσχέτιση με βάση Δυνατότητα επιλογής» (CFS) [36] και η μέθοδος επιλογής ενσωματωμένο χαρακτηριστικό γνώρισμα «που βασίζεται Τυχαία Δάσος Δυνατότητα επιλογής «(RFS, όλες οι μέθοδοι επιλογής που συζητούνται λεπτομερώς παρακάτω). Οι μέθοδοι ταξινόμησης περιλαμβάνουν τις δικές μας μεθόδους BioHEL και GAssist, μια μηχανή διανυσμάτων υποστήριξης [37], ένα ταξινομητή Τυχαία Δάσους (RF) [38] και την «Πρόβλεψη Ανάλυση μικροσυστοιχίες» μέθοδο (PAM) [39]? βλέπε διάγραμμα ροής στο σχήμα. 1.

Στο τελευταίο βήμα του πρωτοκόλλου, χρησιμοποιούμε μια ανάλυση εξόρυξης βιβλιογραφία για να συγκρίνετε βαθμολογίες των ενημερωτικών γενετικών ανιχνευτών (που αναφέρεται ως

γονίδια

στην ενότητα Αποτελέσματα, επειδή όλα τα επιλεγμένα γενετική ανιχνευτές θα μπορούσαν να αντιστοιχίζονται με ένα μοναδικό αναγνωριστικό γονιδίου μέσω των πληροφοριών χαρτογράφησης που παρέχονται από τον κατασκευαστή του chip), που προέρχονται από τις κλασσικές μεθόδους επιλογής χαρακτηριστικών και από μια μετα-επεξεργασία των μοντέλων με βάση κανόνες που δημιουργείται από την προσέγγιση BioHEL.

Σύνολα Δεδομένων

Όλες οι μέθοδοι αξιολογούνται σε τρεις δημόσιους μικροσυστοιχιών σύνολα δεδομένων καρκίνου που αντιπροσωπεύουν τρεις διαφορετικούς τύπους καρκίνου: Ο καρκίνος του προστάτη (52 δείγματα όγκων έναντι 50 ελέγχους) [40], λέμφωμα (58 διάχυτη δείγματα από μεγάλα Β-κύτταρα λέμφωμα εναντίον 19 ωοθυλακίων δείγματα λεμφώματος) [41], καθώς και ένα σύνολο δεδομένων με καρκίνο του μαστού που λαμβάνονται από το συνεργαζόμενο Ιατρικό Κέντρο Queens στο Nottingham (84 αυλού δειγμάτων έναντι 44 μη-αυλική δείγματα) [6], [42] – [44] (βλέπε πίνακα 1 ). Οι λεπτομέρειες για κάθε σύνολο δεδομένων και τη μέθοδο προ-επεξεργασίας που χρησιμοποιούνται σε αυτή τη συγκριτική αξιολόγηση που προβλέπεται στο υλικό S1. Όλα τα προ-επεξεργασμένα σύνολα δεδομένων είναι επίσης διαθέσιμη στο διαδίκτυο (https://icos.cs.nott.ac.uk/datasets/microarray.html), συμπεριλαμβανομένων των υποσυνόλων διασταυρωμένης επικύρωσης μετά την επιλογή χαρακτηριστικό.

Η

διαθέτουν Μέθοδοι επιλογής

ο μεγάλος αριθμός των χαρακτηριστικών (γενετική ανιχνευτές) και ο σχετικά μικρός αριθμός των παρατηρήσεων (δείγματα) σε τυπικές μελέτες μικροσυστοιχιών θέτουν διάφορα στατιστικά προβλήματα, τα οποία είναι γνωστά ως «κατάρα των διαστάσεων» στη μηχανική μάθηση (βλέπε [45]). Ως εκ τούτου, μετά την εξομάλυνση και προ-φιλτράρισμα των αρχικών συνόλων δεδομένων, εφαρμόζουμε διαφορετικές προσεγγίσεις επιλογής χαρακτηριστικών για να εξαγάγετε συμπαγή σύνολα των διακριτικών γνωρισμάτων, πριν από την εφαρμογή των μεθόδων ταξινόμησης. Επιπλέον, προκειμένου να αξιολογηθεί σε ποιο βαθμό εξελικτικής μηχανικής μάθησης μας πλησιάζει BioHEL και GAssist είναι σε θέση να την ταξινόμηση των δειγμάτων χωρίς προηγούμενη επιλογή χαρακτηριστικό, αξιολογούμε την προβλεπτική απόδοση αυτών των προσεγγίσεων τόσο με όσο και χωρίς αποκλειστικό εξωτερική επιλογής χαρακτηριστικών.

για να ληφθεί υπόψη η ποικιλομορφία των μεθόδων επιλογής χαρακτηριστικών, οι τρεις τύποι προσεγγίσεων επιλογής εξετάζονται χωριστά: μια μονοπαραγοντική φίλτρο (plss [46]), μια συνδυαστική φίλτρο (CFS [36]) και μια προσέγγιση ενσωματωμένο επιλογής (RFS [38]) . Είναι σημαντικό, θεωρούμε μόνο αλγόριθμους που είναι εγγυημένα για να έχουν μια εφικτή χρόνου εκτέλεσης ακόμα και σε πολύ μεγάλα σύνολα δεδομένων, και αντί να προσπαθεί να εντοπίσει όλα τα σχετικά χαρακτηριστικά, στοχεύουμε στην αποφυγή της επιλογής των περιττών χαρακτηριστικά, τα οποία μπορεί να υποβαθμίσει την απόδοση ταξινόμησης (βλέπε [47 ] για τη σύγκριση του

όλες οι σχετικές πρόβλημα επιλογής

κατά του

ελάχιστη βέλτιστου πρόβλημα επιλογής

θεωρείται εδώ). Για μια γενική επισκόπηση σχετικά με την επιλογή χαρακτηριστικό προσεγγίσεις στη βιοπληροφορική, παρακαλούμε δείτε [48].

Για όλες τις μεθόδους επιλογής χαρακτηριστικών το μέγιστο μέγεθος χαρακτηριστικό υποσύνολο ορίστηκε στο 30 να αποφευχθεί η υπερβολική τοποθέτηση, να μειώσει το μοντέλο πολυπλοκότητα και την πιθανότητα συμπερίληψης ψευδώς θετικά χαρακτηριστικά (ωστόσο, οι μέθοδοι επιτρέπεται να επιλέξουν ευέλικτα λιγότερο από 30 χαρακτηριστικά). Αυτό το άνω όριο επιλέχθηκε σύμφωνα με τα αποτελέσματα των μελετών εκτίμησης κατά προσέγγιση τον αριθμό των χαρακτηριστικών που πρέπει να επιλέγονται σε διαφορετικούς τύπους μελετών μικροσυστοιχιών για την απόκτηση μόνο γενετικό ανιχνευτές με σημαντική ενημερωτική αξία για το χαρακτηριστικό αποτέλεσμα (χρησιμοποιώντας διαφορετικά μοντέλα για να υπολογίσει τα αποτελέσματα σημαντικότητας p-value , βλέπε [49] – [51]). Οι μέθοδοι επιλογής που περιγράφονται λεπτομερώς στις παραγράφους που ακολουθούν.

Μερική-ελαχίστων τετραγώνων επιλογής με βάση Feature (plss)

Ως εκπρόσωπος της κλασικής μονοπαραγοντική φίλτρο, μια μέθοδος που χρησιμοποιεί η μερική Τουλάχιστον τετράγωνα (PLS) [52] αλγόριθμος που χρησιμοποιείται. Συγκεκριμένα, τα χαρακτηριστικά εντολή των απόλυτων τιμών του διανύσματος βάρους που ορίζει το πρώτο λανθάνουσα συστατικό σε ένα μοντέλο PLS που χτίστηκε πάνω στα δεδομένα εκπαίδευσης. Όπως φαίνεται προηγουμένως [53], η διάταξη των χαρακτηριστικών που λαμβάνονται από την προσέγγιση αυτή είναι ισοδύναμη με την F-στατιστική που χρησιμοποιείται στην ανάλυση της διακύμανσης (ANOVA). Έτσι, αντί του υπολογισμού PLS, το ίδιο το F-στατιστική μπορούσαν να έχουν χρησιμοποιηθεί, αλλά plss παρέχει ένα πιο αποτελεσματικό τρόπο εκτέλεσης του υπολογισμού (ο αλγόριθμος γρήγορα SIMPLS [54] χρησιμοποιείται για το σκοπό αυτό).

συσχέτιση Βασισμένο Δυνατότητα επιλογής (CFS)

Η συνδυαστική μέθοδος με φίλτρο CFS [36] αναζητήσεις για υποσύνολα των χαρακτηριστικών που έχουν υψηλή συσχέτιση με τη μεταβλητή έκβασης αλλά χαμηλή συσχέτιση μεταξύ τους. Η έννοια αυτή επισημοποιήθηκε με την ακόλουθη βαθμολογία χαρακτηριστικό υποσύνολο: (1) όπου το επιλεγμένο υποσύνολο με τα χαρακτηριστικά γνωρίσματα, είναι η μέση συσχέτιση χαρακτηριστικό κατηγορίας και ο μέσος χαρακτηριστικό γνώρισμα συσχέτιση. Ενώ ο παρονομαστής μειώνει το σκορ για την συσχετίζονται χαρακτηριστικά για να εξαλείψει τις περιττές μεταβλητές, ο αριθμητής προωθεί χαρακτηριστικά με υψηλή συσχέτιση με τη μεταβλητή της κατηγορίας για να τα διατηρήσει ως ισχυρό διευκρινιστές. Όπως προτείνεται στην αρχική δημοσίευση CFS, ένας άπληστος πρώτα στο καλύτερο στρατηγική αναζήτησης χρησιμοποιήθηκε για να εξερευνήσετε το χώρο χαρακτηριστικό υποσύνολο [36].

Τυχαία Δάσος βασίζεται Δυνατότητα επιλογής (RFS)

Σε αντίθεση με η CFS και ο αλγόριθμος plss, η επιλογή χαρακτηριστικό που βασίζεται στην ταξινομητή Random Forest [38] χρησιμοποιεί μια μέθοδο ενσωματωμένα απευθείας στον αλγόριθμο πρόβλεψης. Συγκεκριμένα, ένα μοντέλο Random Forest είναι χτισμένο με την εκπαίδευση πολλά δυαδικά, ακλάδευτος δέντρα απόφασης σχετικά εκκίνησης υπο-δείγματα των δεδομένων εκπαίδευσης. Η σημασία ενός χαρακτηριστικού μπορεί να αξιολογηθεί με βάση το Gini κόμβο δείκτη ακαθαρσία μέτρο [55], υπολογίζοντας τη μέση μείωση του μέτρου αυτού (ΑΣΧ) από την μητρική κόμβους σε απευθείας απόγονοι-κόμβοι τους πάνω από όλους τους κόμβους δέντρο, ή εναλλακτικά, με τη μέση μείωση της ακρίβειας (MDA). Διάφορες μελέτες μηχανικής μάθησης έλαβαν διαφορετικά αποτελέσματα όσον αφορά τη συγκριτική ευρωστία της MDA και ΑΣΧ [56], [57], αλλά τα δεδομένα γονιδιακής έκφρασης μικροσυστοιχιών τα αποτελέσματα για αυτά τα δύο μέτρα ακαθαρσία έχουν παρατηρηθεί να είναι πολύ παρόμοια [58]. Έτσι, μόνο το κριτήριο του ΑΣΧ θα εξεταστεί στην παρούσα μελέτη. Ένα υποσύνολο χαρακτηριστικό λαμβάνεται από το αντίστοιχο χαρακτηριστικό κατάταξη επιλέγοντας τα κορυφαία χαρακτηριστικά (εδώ, επιλέγεται έτσι ώστε τα λαμβανόμενα μεγέθη υποσύνολο είναι συγκρίσιμα με εκείνα της μεθόδου CFS)

Ταξινόμηση:. BioHEL και GAssist

BioHEL (Βιοπληροφορική-Oriented Ιεραρχική μάθησης) [12] – [15] είναι μια εξελικτική σύστημα μηχανικής μάθησης που απασχολούν την Επαναληπτική κανόνα μάθησης (IRL) παράδειγμα [59], [60] (πηγαίος κώδικας BioHEL είναι διαθέσιμα στο διαδίκτυο: http: //icos.cs.nott.ac.uk/software/biohel.html). Η IRL διαδικασία αρχίζει με ένα άδειο κανόνα και το πλήρες σύνολο των παρατηρήσεων ως είσοδο. Οι κανόνες ταξινόμησης προστίθενται επαναληπτικό στο σύνολο των κανόνων μέχρι το συνδυασμό τους καλύπτει όλα τα δείγματα. Τα τελικά αποτελέσματα δομημένα σύνολα κανόνα, επίσης γνωστή ως

καταλόγους απόφαση

[61]. Ένα πραγματικό παράδειγμα κανόνα που λαμβάνονται σχετικά με το σύνολο δεδομένων του καρκίνου του προστάτη φαίνεται στο Σχ. 2 και αναδεικνύει τους διαφορετικούς τύπους κανόνα BioHEL:

Συνδυαστική κανόνες

, τα οποία μπορούν να παρέχουν πληροφορίες σχετικά με τις πιθανές λειτουργικές συσχετίσεων μεταξύ γονιδίων?

κανόνες εύρος τιμών

, που τονίζουν την προτιμησιακή πάνω ή προς τα κάτω ρύθμιση των γονιδίων υπό διαφορετικές βιολογικές συνθήκες και την ευρωστία για μια ανάθεση τάξη όσον αφορά το σχετικό πλάτος ή στενότητα ενός εύρους τιμών έκφραση? και

προεπιλεγμένους κανόνες

, οι οποίες εφαρμόζονται όταν καμία από τις προηγούμενες ειδικούς κανόνες ταιριάζει. Κάθε φορά που ένα νέο κανόνα απόφαση έχει μάθει και να προστεθεί σε μια αντίστοιχη σειρά κανόνα, οι παρατηρήσεις που καλύπτει αφαιρεθεί από τα παραδείγματα που έχουν τεθεί.

«Exp (x)» είναι μικρή για «Έκφραση του γονιδίου x», όπου x είναι ένα σύμβολο γονίδιο HUGO »,« αντιπροσωπεύει το συνδετικό κΑΙ χειριστή, «[x, y]» είναι ένα διάστημα τιμών έκφρασης στην οποία η τιμή του χαρακτηριστικού πρέπει να βρίσκονται να εκπληρώσει μία παραδοχή του κανόνα, και «- «είναι ένας χειριστής ανάθεση τάξη, ακολουθούμενη από την κατηγορία εξόδου του κανόνα. Κανόνας 5 είναι ένας γενικός κανόνας που ισχύει και στην περίπτωση κανένας κανόνας παραπάνω αντιστοιχείται.

Η

Για να διερευνήσουν το χώρο αναζήτησης των πιθανών κανόνων αποτελεσματικά, BioHEL χρησιμοποιεί μια τυπική γενεών Γενετικός Αλγόριθμος (GA), το οποίο εφαρμόζεται σε κάθε IRL επανάληψη για να βρει το καλύτερο κανόνα για τα δείγματα που δεν έχουν καλυφθεί ακόμη από τους κανόνες που βρέθηκαν σε προηγούμενες επαναλήψεις. Δεδομένου ότι το φυσικό αέριο είναι μη ντετερμινιστική, πολλαπλές επαναλήψεις της διαδικασίας μάθησης κανόνα με όμοια σύνολα εκπαίδευσης μπορεί να χρησιμοποιηθεί για να αυξήσει την πιθανότητα να βρεθεί η βέλτιστη κανόνα. Επιπλέον, μπορεί επίσης να εφαρμοστεί επαναλήψεις της πλήρους διαδικασίας μάθησης (δηλαδή δημιουργώντας ένα πλήρες σύνολο κανόνων και όχι ένα μόνο κανόνα), προκειμένου να συνδυάσουν διάφορα κανόνα θέτει σε πρόβλεψη κατά πλειοψηφία ψήφο συναίνεση και να επωφεληθούν από τις διακύμανση μείωσης επιπτώσεις της σύνολο της μάθησης [62].

για να βρείτε το καλύτερο κανόνα σε κάθε IRL επανάληψη, η συνάρτηση καταλληλότητας που χρησιμοποιούνται για την GA λογαριασμούς τόσο για την ακρίβεια και τη γενικότητα, δηλαδή τον αριθμό των καλυμμένων παρατηρήσεις, ενός κανόνα . Σε BioHEL, αυτή η συνάρτηση καταλληλότητας βασίζεται στην ελάχιστη Περιγραφή Μήκος (MDL) αρχής [63] και τα οφέλη που κυβερνά με.

υψηλή ακρίβεια, δηλαδή τους κανόνες που κατατάσσουν σωστά τα περισσότερα δείγματα,

υψηλή κάλυψη , δηλαδή κανόνες που ταιριάζουν με πολλά δείγματα, και

χαμηλή πολυπλοκότητα, δηλαδή τους κανόνες με απλό κατηγορήματα.

Η

Ο ακριβής ορισμός της συνάρτησης fitness BioHEL έχει παρουσιαστεί και συζητηθεί αλλού [15]. Ωστόσο, όσον αφορά την κάλυψη κανόνα, αξίζει να σημειωθεί ότι οι κανόνες σε BioHEL που καλύπτουν ένα συγκεκριμένο ελάχιστο ποσοστό των παρατηρήσεων λάβετε μια μεγάλη ανταμοιβή, αλλά μετά ξεπερνώντας το όριο αυτό, η πρόσθετη αμοιβή για την κάλυψη περισσότερα δείγματα είναι μικρότερα.

BioHEL έχει επηρεαστεί έντονα από το λογισμικό προκάτοχό του

GAssist

[16] – [20] (https://icos.cs.nott.ac.uk/software/gassist.html), από την οποία έχει κληρονόμησε την αναπαράσταση γνώσης. Σε αντίθεση με την IRL προσέγγιση που χρησιμοποιείται στην BioHEL, GAssist είναι ένα σύστημα μάθησης ταξινομητή Πίτσμπουργκ στυλ [64], δηλαδή τα άτομα που έχουν εξελιχθεί σε ένα γενεών GA δεν είναι μόνο οι κανόνες ταξινόμησης, αλλά αποκλείει ομάδες που εκπροσωπούν την πλήρη δειλά λύσεις του προβλήματος της εξόρυξης δεδομένων . Για τον ακριβή ορισμό του τύπου γυμναστήριο GAssist, παρακαλούμε δείτε [16].

Προηγούμενες εμπειρικές συγκρίσεις των BioHEL και GAssist έχουν δείξει ότι GAssist τείνει να αποδίδουν καλύτερα σε μικρά σύνολα δεδομένων, ενώ ο διάδοχός του BioHEL παρέχει ανώτερη απόδοση σε μεγάλα σύνολα δεδομένων , τόσο από την άποψη του αριθμού των περιπτώσεων ή /και τον αριθμό των χαρακτηριστικών. Έτσι, χρησιμοποιούν και τις δύο μεθόδους εδώ για να διερευνήσει σχετική προβλεπτική ισχύ τους σε δεδομένα μικροσυστοιχιών. Ειδικότερα, BioHEL ήταν ο μόνος προγνωστικός δείκτης για την οποία ήταν δυνατή μια εφαρμογή για τα δεδομένα μικροσυστοιχιών χωρίς εξωτερική επιλογή χαρακτηριστικών σε ένα εφικτό εκτέλεσης για τις πίστες LOOCV, ως εκ τούτου, αυτή η μέθοδος εκμάθησης εφαρμόστηκε με και χωρίς εξωτερική επιλογής χαρακτηριστικών.

η διαδικασία διασταυρωμένης επικύρωσης, BioHEL και η εναλλακτική αλγορίθμων αναφοράς και οι μέθοδοι επιλογής χαρακτηριστικών έχουν ενσωματωθεί σε διαθέσιμες στο κοινό web-based λογισμικό ανάλυσης δεδομένων μικροσυστοιχιών μας

ArrayMining

[5].

μέθοδοι αξιολόγησης και Παράμετροι Εφαρμογής

Η κύρια μέθοδος αξιολόγησης που χρησιμοποιείται στην παρούσα μελέτη είναι ένα σχήμα διασταυρωμένης επικύρωσης γνωστή ως

δύο επιπέδων εξωτερική διασταυρωμένης επικύρωσης

[35]. Σε μια

εξωτερικές

διασταυρωμένης επικύρωσης, ο αλγόριθμος επιλογής χαρακτηριστικών εφαρμόζεται ανεξάρτητα σε κάθε σύνολο εκπαίδευσης που δημιουργούνται κατά μήκος των κύκλων της διαδικασίας επικύρωσης. Αυτή η προσέγγιση αποφεύγει τη μεροληψία της επιλογής της κλασικής εσωτερικής διασταυρούμενης επικύρωσης, όπου η επιλογή χαρακτηριστικό γίνεται μόνο μια φορά σε ολόκληρο το σύνολο δεδομένων πριν από την cross-επικύρωσης [65].

Δύο επίπεδο

εξωτερική διασταυρωμένης επικύρωσης χρησιμοποιεί ένα επιπλέον ένθετα διασταυρωμένης επικύρωσης για τη βελτιστοποίηση των παραμέτρων για τον αλγόριθμο πρόβλεψης χρησιμοποιώντας μια αναζήτηση στο δίκτυο. Έχουμε εφαρμόσει αυτό το δεύτερο επίπεδο της διασταυρωμένης επικύρωσης για να χωρέσει τις παραμέτρους για το εναλλακτικό σημείο αναφοράς προγνωστικοί παράγοντες SVM, RF, και ΡΑΜ.

BioHEL χρησιμοποιείται με τις ίδιες προεπιλεγμένες παραμέτρους όπως αναφέρεται στο [15], εκτός από τον αριθμό των επαναλήψεις που έχει οριστεί σε 500 και οι πιθανότητες για την γενίκευση και την εξειδίκευση που έχουν οριστεί σε 0,5. GAssist εφαρμόζεται χρησιμοποιώντας προεπιλεγμένες παραμέτρους του [19], εκτός από τον αριθμό των επαναλήψεων που έχει οριστεί σε 500, καθώς και. Τόσο GAssist και BioHEL έτρεξαν 100 φορές για κάθε εκπαίδευση που με διαφορετικές τυχαία σπόρους. Κάθε επιχείρηση οδήγησε σε μια σειρά κανόνα. Ένα σύνολο από τα προκύπτοντα 100 σύνολα κανόνας αυτός χρησιμοποιείται για να προβλέψει το αντίστοιχο σύνολο δοκιμής.

Για να συγκρίνετε BioHEL και GAssist ενάντια μεθόδους που χρησιμοποιούνται συνήθως για την ταξινόμηση του δείγματος μικροσυστοιχιών, η όλη διαδικασία διασταυρωμένης επικύρωσης εφαρμόστηκε σε τρεις εναλλακτικές αναφοράς ταξινομητές: μια μηχανή διανυσμάτων υποστήριξης (SVM) [37], μια τυχαία δάσος ταξινομητή (RF) [38] και η «Πρόβλεψη Ανάλυση μικροσυστοιχίες» μέθοδο (PAM) [39]

ο φορέας μηχάνημα υποστήριξης. που χρησιμοποιούμε είναι ένα γραμμικό πυρήνα C-SVM από το E1071-πακέτο της στατιστικής μαθησιακό περιβάλλον R, ένα περιτύλιγμα για το γνωστό βιβλιοθήκη LibSVM. Άλλες πολυώνυμο πυρήνες και τα πυρήνας λειτουργία ακτινικές βάση ελέγχθηκαν χωρίς να παρέχει ανώτερα αποτελέσματα στα πειράματά μας (δεν παρουσιάζονται τα δεδομένα). Αυτή η παρατήρηση ταιριάζει καλά σε προηγούμενα ευρήματα στη βιβλιογραφία, σύμφωνα με την οποία γραμμική SVMs πυρήνα συχνά εκτελούν παρόμοια ή καλύτερα στα δεδομένα μικροσυστοιχιών από SVMs χρησιμοποιώντας πολυώνυμο πυρήνες του υψηλότερου βαθμού [66], [67]. Να απασχολούν την RF και η μέθοδος PAM, χρησιμοποιήσαμε τα αντίστοιχα πακέτα R

randomForest

και

PAMR

που είναι και οι δύο διαθέσιμες στην ιστοσελίδα της Συνολικής R Archive Network (CRAN, http: //Cran .r-project.org).

για τη σύγκριση της μεθόδου μας με εναλλακτικές λύσεις από τη βιβλιογραφία μπορούμε μόνο θεωρείται προσεγγίσεις με τη χρήση διασταυρωμένης επικύρωσης για την αξιολόγηση, δεδομένου ότι οι μέθοδοι που βασίζονται σε ένα ενιαίο σύνολο διαμέρισμα τυχαία εκπαίδευσης /εξέτασης είναι τώρα που θεωρείται ευρέως ως αναξιόπιστα [65]. Για τον ίδιο λόγο, έχουμε αποκλείσει επίσης τις μεθόδους από τη βιβλιογραφία που χρησιμοποιούν εσωτερικά διασταυρωμένης επικύρωσης αντί των εξωτερικών διασταυρωμένης επικύρωσης, όπου αυτό αναφέρεται σαφώς από τους συγγραφείς.

Από υψηλότερου επιπέδου στατιστική ανάλυση των δεδομένων των μικροσυστοιχιών μπορεί να εξαρτάται σημαντικά για τη διαδικασία προ-επεξεργασίας δεδομένων, μπορούμε επιπλέον να διερευνήσει την ορθότητα των προβλέψεων και επιλογή χαρακτηριστικών αποτελέσματα για διαφορετικές προ-επεξεργασίες που εφαρμόζονται στο μεγαλύτερο σύνολο δεδομένων αναφοράς. Νέα προ-επεξεργασίες ελήφθησαν με τη χρήση δύο διαφορετικών φίλτρων πολλαπλή μεταβολή και 4 διαφορετικές ρυθμίσεις για το μέγιστο αριθμό των επιλεγμένων χαρακτηριστικών, και ολόκληρο το αναλυτικό πρωτόκολλο τρέχει και πάλι για κάθε μία από αυτές τις παραλλαγές. Η σταθερότητα των αποτελεσμάτων αναλύθηκε τόσο από την άποψη των αποτελεσμάτων cross-επικυρωμένη πρόβλεψης και του αριθμού των κοινών επιλεγμένα χαρακτηριστικά σε όλα τα CV-κύκλους (βλ Υλικό S1 για τα αποτελέσματα και τη συζήτηση όλων των ευρωστία των αναλύσεων).

είναι σημαντικό, οι λαμβάνονται μοντέλα πρόβλεψης ισχύουν μόνο για δείγματα από την ίδια πλατφόρμα, τον τύπο κυττάρου, τις συνθήκες του περιβάλλοντος και της πειραματικής διαδικασίας. Ωστόσο, όπως ταξινομητές μας υποστηρίζουν και τις δύο συνεχή και discretized δεδομένων εισόδου, που είναι συμβατό με τις περισσότερες από τις μεθόδους κανονικοποίησης διασταυρούμενη μελέτη που έχουν προταθεί στη βιβλιογραφία για την επέκταση της εφαρμογής των μοντέλων μηχανικής μάθησης σε διάφορες πειραματικές πλατφόρμες (έχουμε αναπτύξει προηγουμένως αντίστοιχο πλαίσιο λογισμικού που παρέχει πρόσβαση σε πολλές από αυτές τις μεθόδους ενσωμάτωσης cross-platform σε απευθείας σύνδεση [5]).

Λογοτεχνία Mining ανάλυση επιλεγμένων γονιδίων

Η στατιστικά σημαντική διαφορική έκφραση των γονιδίων και η χρησιμότητά τους ως προγνωστικοί παράγοντες σε ένα μοντέλο μηχανικής μάθησης για την ταξινόμηση του δείγματος μπορεί να υποδείξει λειτουργικές συσχετίσεις μεταξύ αυτών των γονιδίων και τις βιολογικές συνθήκες των κυττάρων υπό εξέταση (για να κυριολεκτήσουμε, τα μοντέλα μας χρησιμοποιούν γενετικές ανιχνευτές αντί των γονιδίων, αλλά από τη στιγμή που λαμβάνεται μια μοναδική χαρτογράφηση για όλους τους επιλεγμένους ανιχνευτές, θα αναφερθούμε σε αντίστοιχων γονιδίων τους στα ακόλουθα). Ωστόσο, αν και αυτές οι πηγές πληροφόρησης είναι χρήσιμες για την ιεράρχηση των γονιδίων ασθενειών υποψήφιος στις βιοϊατρικές μελέτες, μόνο πειραματικά στοιχεία ή προηγούμενη γνώση από τη βιβλιογραφία μπορούν να επιδείξουν μια λειτουργική σχέση με τις βιολογικές συνθήκες του ενδιαφέροντος.

Ένα από τα πιο ελπιδοφόρα υποψήφια γονίδια που λαμβάνονται από την ανάλυση μας για το σύνολο δεδομένων του καρκίνου του μαστού αξιολογήθηκε με επιτυχία σε μια πειραματική μελέτη σε συνεργασία με το Ιατρικό Κέντρο της Βασίλισσας στο Nottingham με ανοσοϊστοχημεία χρησιμοποιώντας μικροσυστοιχίες ιστό σε όλη 1140 δείγματα διηθητικού καρκίνου του μαστού (βλέπε προηγούμενη δημοσίευση μας [6], η οπτικοποίηση του συνόλου δεδομένων στο [68], και την ενότητα Αποτελέσματα παρακάτω), ωστόσο, μια πειραματική επικύρωση όλων κορυφαία γονίδια σε όλες τις σειρές δεδομένων καρκίνου τρεις μικροσυστοιχιών δεν εμπίπτουν στο πεδίο εφαρμογής της παρούσας μελέτης.

Ως εκ τούτου, προκειμένου να εξετάσει πιθανές συσχετίσεις μεταξύ των όρων της νόσου αντιπροσωπεύεται από τα τρία σύνολα δεδομένων και τα πληροφοριακά γονίδια που λαμβάνονται από τις μεθόδους επιλογής χαρακτηριστικών και τις πιο συχνά εμφανιζόμενες χαρακτηριστικά σε σύνολα κανόνα BioHEL, μια ανάλυση των ορυχείων λογοτεχνία εφαρμόστηκε σε αυτά τα γονίδια χρησιμοποιώντας άρθρα πλήρους κειμένου από η βάση δεδομένων PubMed. Συγκεκριμένα, σημείωσε υποτιθέμενο συσχετίσεις μεταξύ τυποποιημένα ονόματα κορυφαία γονίδια και τους όρους της νόσου από ελεγχόμενο λεξιλόγιο (η Ιατρική θεματικές επικεφαλίδες (mesh) επικεφαλίδες νόσου) με τον προσδιορισμό της συχνότητας εμφάνισης και της συνύπαρξης των αντίστοιχων όρων και υπολογίζοντας το κατά σημείο αμοιβαίας πληροφόρησης (PMI) [69]. Η PMI δύο όρων και, συμβαίνουν με σχετική συχνότητα f () και f (), και συν-συμβαίνουν με σχετική συχνότητα f (,) σε μια βάση δεδομένων των εγγράφων που ορίζεται ως εξής: (2)

Η συγκεκριμένοι όροι MeSH ασθένεια που χρησιμοποιείται εδώ ήταν «προστάτη νεοπλάσματα» για το σύνολο δεδομένων του καρκίνου του προστάτη, «νεοπλάσματα του μαστού» για το σύνολο δεδομένων του καρκίνου του μαστού, και «λέμφωμα, β-κυττάρων» για το σύνολο δεδομένων β-κυττάρων του λεμφώματος (τα άρθρα PubMed σχολιασμένη με το χέρι από ειδικούς με αυτούς και άλλους όρους από το πλέγμα ελεγχόμενο λεξιλόγιο θησαυρού). Η PMI-τιμή για ένα ζευγάρι των όρων του γονιδίου /ασθένεια μπορεί έτσι να χρησιμοποιηθεί για να ταξινομήσει και να ιεραρχηθούν πιθανών λειτουργικών ενώσεων, και παρόμοια συστήματα βαθμολόγησης ΡΜΙ-based έχουν προηγουμένως χρησιμοποιηθεί για να ταξινομήσει την ομοιότητα των γονιδίων και φαρμάκων που χρησιμοποιούν τη λογοτεχνία εξόρυξης [70].

Δεδομένου ότι οι ΡΜΙ-βαθμολογίες για τον όρο ζεύγη μόνο γονίδιο /ασθένεια δεν είναι αρκετά αξιόπιστη για να συγκρίνουν τη χρησιμότητα των διαφόρων prioritizations γονιδίου της νόσου, υπολογίσαμε πρώτα το άθροισμα των θετικών ΡΜΙ-βαθμολογίες σε όλα τα κορυφαία γονίδια που προέρχονται από είτε οι μέθοδοι επιλογής χαρακτηριστικών ή οι συχνότερα εμφανιζόμενες χαρακτηριστικά στο BioHEL κανόνες σύνολα. Γονίδια με αρνητικό ΡΜΙ-βαθμολογίες θεωρήθηκαν ως άνευ σημασίας και η αντίστοιχη βαθμολογία ορίστηκε σε μηδέν, αφού το μέγεθος των αρνητικών βαθμολογιών είναι πιθανόν υπόκειται σε τυχαίο θόρυβο. Τα τελικά ποσά των βαθμολογιών συγκρίθηκαν με αντίστοιχες βαθμολογίες για 100 τυχαία επιλεγμένα σύνολα γονιδίων συμφωνημένα μεγέθους από τις αντίστοιχες πλατφόρμες μικροσυστοιχιών. βαθμολογίες σημασία τιμή Ρ υπολογίστηκαν με βάση την αναλογία του φορές υψηλότερη ΡΜΙ-βαθμολογίες επιτεύχθηκαν με το τυχαίο μοντέλο σε σύγκριση με τις αλγοριθμικές μεθόδους επιλογής. Τα κορυφαία γονίδια ορίστηκαν ως αυτά τα γονίδια που είχαν επιλεγεί από τουλάχιστον δύο διαφορετικές μεθόδους επιλογής χαρακτηριστικών, (δηλαδή τα γονίδια που αντιστοιχούν σε ένα σύνολο επιλογής), η οποία οδήγησε σε μια συμπαγή σύνολα λιγότερο από 20 επιλεγμένα χαρακτηριστικά για καθένα από τα τρία σύνολα δεδομένων (βλέπε ενότητα Αποτελέσματα). Οι ίδιοι αριθμοί των γονιδίων επελέγησαν από τις πιο συχνά εμφανιζόμενες χαρακτηριστικά στο BioHEL κανόνες σύνολα προκειμένου να επιτύχει μια δίκαιη σύγκριση μεταξύ αυτής της επιλογής BioHEL με βάση το χαρακτηριστικό και το σύνολο επιλογής χαρακτηριστικών που προέρχονται από τις αφιερωμένη μεθόδους επιλογής.

αποτελέσματα και Συζήτηση

Σύγκριση των αποτελεσμάτων πρόβλεψη

Μια επισκόπηση των συγκριτικών αποτελεσμάτων πρόβλεψης λαμβάνονται με όλους τους συνδυασμούς λειτουργία επιλογής, μέθοδοι πρόβλεψης και σύνολα δεδομένων δίνεται στον πίνακα 2 για 10 φορές βιογραφικό σημείωμα και πίνακα 3 για LOOCV. Κάτω από τα αποτελέσματα για όλα τα σύνολα δεδομένων συζητούνται.

Η

Καρκίνος του προστάτη

Από το σύνολο δεδομένων του καρκίνου του προστάτη, τα καλύτερα αποτελέσματα πρόβλεψης με BioHEL είχαν φτάσει χωρίς εξωτερική επιλογής χαρακτηριστικών, παρέχοντας ένα μέση ακρίβεια 94% (10 φορές CV), ή όταν συνδυάζονται BioHEL με το φίλτρο plss (avg. acc. 94%, LOOCV). Μεταξύ των εναλλακτικών ταξινομητές αναφοράς που εξετάζεται στην παρούσα μελέτη (SVM, RF και ΡΑΜ, βλέπε πίνακες 2 και 3), μόνο ο συνδυασμός PLS /PAM επιτευχθεί η ίδια ακρίβεια για 10 φορές βιογραφικό σημείωμα και ο συνδυασμός CFS /RF φτάσει σε ένα ελαφρώς μεγαλύτερη ακρίβεια για LOOCV (95%).

You must be logged into post a comment.