You must be logged into post a comment.
Αφηρημένο
Η εποχή προσωπικής γονιδιωματικής έχει προσελκύσει ένα μεγάλο ποσό της προσοχής για αντικαρκινική θεραπεία με ανάλυση ειδικά για τον ασθενή. ανάλυση Patient-ειδική επιτρέπει ανακάλυψη των επιμέρους γονιδιωματικών χαρακτηριστικών για κάθε ασθενή, και ως εκ τούτου μπορούμε να προβλέψουμε αποτελεσματικά άτομο γενετικό κίνδυνο νόσου και να εκτελέσει εξατομικευμένη αντικαρκινική θεραπεία. Παρά το γεγονός ότι οι υπάρχουσες μέθοδοι για την ανάλυση ειδικά για τον ασθενή να έχει επιτυχία ακάλυπτο κρίσιμο βιοδείκτες, οι επιδόσεις τους παίρνει μια ξαφνική στροφή προς το χειρότερο με την παρουσία των ακραίων τιμών, δεδομένου ότι οι μέθοδοι που βασίζονται σε μη-ισχυρή τρόπους. Στην πράξη, οι κλινικές και γονιδιώματος σύνολα δεδομένων αλλοιώσεις συνήθως περιέχουν ακραίες τιμές από διάφορες πηγές (π.χ., λάθος πείραμα, σφάλμα κωδικοποίησης, κλπ) και των ακραίων τιμών μπορεί να επηρεάσει σημαντικά το αποτέλεσμα της ανάλυσης ειδικά για τον ασθενή. Προτείνουμε μια ισχυρή μεθοδολογία για την ανάλυση ειδικά για τον ασθενή, σύμφωνα με το NetwrokProfiler. Στην προτεινόμενη μέθοδο, οι ακραίες τιμές σε υψηλά επίπεδα διαστάσεων γονιδιακής έκφρασης και σύνολα δεδομένων απόκρισης του φαρμάκου που ελέγχεται ταυτόχρονα από ισχυρή απόσταση Mahalanobis στην ισχυρή κύρια διαστημική συνιστώσα. Έτσι, μπορούμε να εκτελέσει αποτελεσματικά για την πρόβλεψη της αντικαρκινικό φάρμακο ευαισθησίας και τον προσδιορισμό της ευαισθησίας ειδικών βιοδεικτών για μεμονωμένους ασθενείς. Παρατηρούμε μέσω Monte Carlo προσομοιώσεις ότι η προτεινόμενη ισχυρή μέθοδος παράγει εξαιρετικές επιδόσεις για την πρόβλεψη της μεταβλητής απόκρισης με την παρουσία των ακραίων τιμών. Εφαρμόζουμε επίσης την προτεινόμενη μεθοδολογία για το σύνολο δεδομένων Sanger προκειμένου να αποκαλύψει βιοδείκτες του καρκίνου και να προβλέψει κατά του καρκίνου ευαισθησία των ναρκωτικών, και να δείξει την αποτελεσματικότητα της μεθόδου μας
Παράθεση:. Πάρκο H, Shimamura Τ, Miyano S, Imoto S (2014) Στιβαρή Πρόβλεψη Anti-Cancer Drug Ευαισθησία και Ευαισθησία-Ειδικές βιοδεικτών. PLoS ONE 9 (10): e108990. doi: 10.1371 /journal.pone.0108990
Επιμέλεια: María Mar Abad-Grau, Πανεπιστήμιο της Γρανάδας – Q1818002F, Ισπανία
Ελήφθη: 3 του Απριλίου του 2014? Αποδεκτές: 27 Αύγ 2014? Δημοσιεύθηκε: 17 του Οκτώβρη του 2014
Copyright: © 2014 Πάρκο et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται
Δεδομένα Διαθεσιμότητα:. Η συγγραφείς επιβεβαιώνουν ότι όλα τα δεδομένα που διέπουν τα ευρήματα είναι πλήρως διαθέσιμα χωρίς περιορισμούς. Η Sanger Γονιδιωματική των ναρκωτικών Ευαισθησία στον Καρκίνο σύνολο δεδομένων από το Πρόγραμμα Καρκίνου Γονιδιώματος (https://www.cancerrxgene.org/)
Χρηματοδότηση:. Οι συγγραφείς δεν έλαβαν καμία ειδική χρηματοδότηση για το έργο αυτό
Αντικρουόμενα συμφέροντα:. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα
Εισαγωγή
Πρόσφατα, πολλές μελέτες έχουν προσπαθήσει να εξατομικευμένη θεραπεία και φάρμακα που βασίζονται σε προηγμένες τεχνολογίες βιοϊατρικής [2], [9] . Ένα κρίσιμο ζήτημα για την έρευνα των προσωπικών γονιδιώματος είναι να αποκαλύψει τις γονιδιωματικής χαρακτηριστικά του κάθε ασθενούς που έχουν σημασία για τη θεραπεία. Το ελαστικό δίχτυ τύπου τακτοποιηθεί παλινδρόμησης (π.χ., κορυφογραμμή [11], λάσο [29], ελαστικό δίχτυ [34], κ.λπ.) έχει χρησιμοποιηθεί ευρέως για να αποκαλύψει βιοδείκτες, και με επιτυχία πραγματοποιήθηκε για τον εντοπισμό γονιδιωματική χαρακτηριστικά και την πρόβλεψη της μεταβλητής απόκρισης βασίζεται στην υψηλής διαστάσεων του συνόλου δεδομένων εκφράσεως γονιδίων. Οι μέθοδοι, όμως, μπορούν να παρέχουν μόνο αποτελέσματα με βάση το μέσο όρο των γονιδιωματικών χαρακτηριστικών όλων των ασθενών. Στην ουσία, δεν είναι ακόμη δυνατό να χρησιμοποιήσετε αυτές τις μεθόδους για τον εντοπισμό γονιδιωματικής χαρακτηριστικά για ένα συγκεκριμένο ασθενή, έτσι είναι δύσκολο να αποτελεσματικό εξατομικευμένη θεραπεία και την ιατρική.
Wang et al. [30] θεωρούνται οι δραστηριότητες οδός ειδικά για τον ασθενή βασίζεται σε ένα μικτό μοντέλο, όπου οι σταθερές επιδράσεις διαμόρφωσε τη μέση οδό προφίλ γονιδιακή έκφραση για ομάδες ασθενών και τυχαίες επιδράσεις περιγράφονται παραλλαγές των ασθενών από την ομάδα που σημαίνουν. Shimamura et al. [28] πρότεινε μια μέθοδο, που ονομάζεται NetworkProfiler, για τον εντοπισμό των ρυθμιστικών δικτύων γονίδιο ειδικά για τον ασθενή βασίζεται σε ένα διαφορετικό μοντέλο συντελεστή και του πυρήνα με βάση ελαστικό δίχτυ τύπου τακτοποιηθεί παλινδρόμησης. Με τη χρήση μιας λειτουργίας Gaussian πυρήνα, η NetworkProfiler μπορεί να εκτελέσει αποτελεσματικά ανάλυση ειδικά για τον ασθενή που βασίζονται σε δείγματα γειτονιά γύρω από έναν ασθενή. Παρά το γεγονός ότι οι υπάρχουσες μέθοδοι νομιμοποίησης ελαστικό δίχτυ τύπου εκτελέσει αποτελεσματικά για τον ασθενή ειδική ανάλυση, οι επιδόσεις τους να λάβει μια ξαφνική στροφή προς το χειρότερο με την παρουσία των ακραίων τιμών, διότι οι μέθοδοι κατασκευασμένα από μη-ισχυρή τρόπους (π.χ., τουλάχιστον λειτουργία πλατεία ζημία). Στην πράξη, οι κλινικές και οι γονιδιωματικές σειρές δεδομένων αλλοιώσεις περιέχουν συνήθως ακραίες τιμές από διάφορες πηγές (π.χ., σφάλμα πείραμα, σφάλμα κωδικοποίησης, κλπ), και ως εκ τούτου οι υπάρχουσες μέθοδοι δεν μπορεί να αποκαλύψει αποτελεσματικά ειδικά για τον ασθενή βιοδείκτες και προβλέψουμε αντικαρκινικό ευαισθησία φαρμάκου.
Αν και το θέμα είναι πάρα πολύ σημαντικό, έχει δοθεί σχετικά λίγη προσοχή στην ευρωστία της ανάλυσης ειδικά για τον ασθενή. Θεωρούμε μια ισχυρή μέθοδο για να αποκαλύψει τον ασθενή συγκεκριμένη γενετική χαρακτηριστικά και την πρόβλεψη αντικαρκινική απόκριση του φαρμάκου, σύμφωνα με την NetworkProfiler. Το γονιδιωματικό αλλοιώσεις σύνολο δεδομένων είναι συνήθως κατασκευάζεται με ένα μεγάλο αριθμό χαρακτηριστικών για ένα μικρό αριθμό δειγμάτων (δηλαδή, υψηλή διαστάσεων του συνόλου δεδομένων), και την ανίχνευση και τον έλεγχο των ακραίων τιμών σε υψηλό διαστάσεων του συνόλου δεδομένων είναι δύσκολες εργασίες. Αναφερόμαστε στη μέθοδο για τον έλεγχο των ακραίων τιμών, χρησιμοποιώντας την ισχυρή απόσταση Mahalanobis βασίζεται στην ανάλυση κύριων συνιστωσών (PCA) [25]. Με τη χρήση τα κύρια συστατικά, μπορούμε να εντοπίσουμε ακραίων τιμών σε υψηλό διαστάσεων σύνολο δεδομένων γονιδιωματικής μεταβολή βασίζεται στην ισχυρή απόσταση Mahalanobis ξεπερνώντας τον υπολογισμό του αντίστροφου πίνακα συνδιασποράς. Επιπλέον, επειδή ο κύριος χώρος συστατικό ορίζεται από τη μεγιστοποίηση της διακύμανσης κατά μήκος κάθε συνιστώσα, και ακραίες τιμές αυξάνουν τη διακύμανση των δεδομένων, μπορούμε να εκτελέσουμε αποτελεσματικά ακραία ανίχνευσης [5], 25.
Προτείνουμε μια ισχυρή στρατηγική μοντελοποίησης για ανάλυση ειδικά για τον ασθενή, η οποία συνάγει ειδικά για τον ασθενή βιοδείκτες που σχετίζονται με απόκριση αντικαρκινικό φάρμακο. Η προτεινόμενη στρατηγική βασίζεται σε πυρήνα με βάση ελαστικό δίχτυ τύπου τακτοποίηση, και ως εκ τούτου μπορεί να εκτελέσει την ανάλυση ειδικά για τον ασθενή μέσω δειγμάτων γειτονιά γύρω από έναν ασθενή στόχο. Επιπλέον, η μέθοδος μας μπορεί να εκτελέσει αποτελεσματικά για την πρόβλεψη της αντι-καρκινικών ευαισθησία φαρμάκου και τον εντοπισμό του φαρμάκου βιοδείκτες απόκριση ειδική για κάθε ασθενή, ακόμη και με την παρουσία των ακραίων τιμών, δεδομένου ότι η μέθοδος βασίζεται σε ένα στιβαρό τακτοποιηθεί παλινδρόμησης χρησιμοποιώντας ένα βάρος μέσα από την απόσταση Mahalanobis σε κύρια διαστημική συνιστώσα [25].
Έχουμε διεξάγει προσομοιώσεις Monte Carlo για να εξετάσει την αποτελεσματικότητα της προτεινόμενης μεθόδου, και δείχνουν την εξαιρετική απόδοση της μεθόδου μας στο σημείο άποψη της ακρίβειας πρόβλεψης. Εφαρμόζουμε επίσης την προτεινόμενη στρατηγική μοντελοποίησης για τη δημόσια διαθέσιμες Sanger Γονιδιωματική των ναρκωτικών Ευαισθησία στο σύνολο δεδομένων του καρκίνου από το Πρόγραμμα Καρκίνου Γονιδιώματος (https://www.cancerrxgene.org/). Η μεθοδολογία μας αποκαλύπτει βιοδείκτες για μεμονωμένους ασθενείς και προβλέπει απόκριση αντικαρκινικό φάρμακο δίδεται ως IC50 τιμές με βάση τα επίπεδα γονιδιακής έκφρασης. Αν και προσομοιώσεις Monte Carlo και η εφαρμογή στο σύνολο δεδομένων Sanger, μπορούμε να δούμε ότι η μέθοδός μας εκτελεί αποτελεσματικά για την επιλογή χαρακτηριστικό ειδικά για τον ασθενή και την πρόβλεψη της ενδιαφέροντα μεταβλητή απόκρισης, ακόμη και με την παρουσία των ακραίων τιμών.
Μέθοδοι
Ας υποθέσουμε ότι έχουμε ανεξάρτητες παρατηρήσεις, όπου είναι μεταβλητές τυχαία απόκριση (π.χ., αντικαρκινική απόκριση φαρμάκου) και είναι
σ
διάστατο φορείς των μεταβλητών πρόβλεψης (π.χ., γονιδιωματικό αλλαγή). Εξετάστε το μοντέλο γραμμικής παλινδρόμησης, (1) όπου είναι ένας τομής, είναι μια άγνωστη
σ
διάστατο διάνυσμα των συντελεστών παλινδρόμησης και είναι τα τυχαία σφάλματα που υποτίθεται ότι είναι ανεξάρτητα και πανομοιότυπα κατανεμημένα με μέση τιμή 0 και διακύμανση.
για να αποκαλύψουν ένα βιοδείκτη, έχουν εφαρμοστεί ευρέως οι μέθοδοι νομιμοποίησης ελαστικό δίχτυ-τύπου (π.χ., κορυφογραμμή, λάσο, ελαστικό δίχτυ, κλπ), και να χρησιμοποιηθεί με επιτυχία για τον εντοπισμό κρίσιμο γονίδια με βάση το ακόλουθο πρόβλημα βελτιστοποίησης, (2), όπου (3) και όπου μια παράμετρος νομιμοποίησης ελέγχει την πολυπλοκότητα του μοντέλου. Ο όρος ποινή της ελαστικής δίχτυ είναι ένα κυρτό συνδυασμό της κορυφογραμμής και λάσο κυρώσεις. Όταν, το ελαστικό δίχτυ γίνεται η παλινδρόμηση κορυφογραμμής με ποινή, ενώ όταν, γίνεται το λάσο με ποινή. Το ελαστικό δίχτυ εκτελεί μεταβλητή επιλογής και εκτίμησης μαζί με τις ιδιότητες και των δύο λάσο και κορυφογραμμή παλινδρόμησης για.
Το ελαστικό δίχτυ τύπου κυρώσεις που θα μας επιτρέψουν να εντοπίσει ταυτόχρονα κρίσιμο βιοδείκτες και προβλέπουν την απόκριση φαρμάκου. Επιπλέον, μπορούμε να εκτελέσουμε αποτελεσματικά μοντέλα παλινδρόμησης στην υψηλή διαστάσεων γονιδιωματικής μεταβολές σύνολο δεδομένων και με την παρουσία των πολυσυγγραμμικότητα με την επιβολή της ποινής για την λιγότερο λειτουργία τετραγώνων απώλεια. Παρά το γεγονός ότι οι υπάρχουσες μεθοδολογίες εντοπίσει επιτυχώς κρίσιμο βιοδείκτες και δείχνουν αξεπέραστες επιδόσεις για την πρόβλεψη της απόκρισης του φαρμάκου, έχουν χρησιμοποιηθεί για να προσδιορίσει κατά μέσο όρο βιοδεικτών για όλους τους ασθενείς. Με άλλα λόγια, η υφιστάμενη μέθοδος δεν μπορεί να εντοπίσει τα χαρακτηριστικά ειδικά για τον ασθενή σε μία ασθένεια.
NetworkProfiler
Shimamura et al. [28] προτείνει μια νέα στατιστική μέθοδο για να συμπεράνει ρυθμιστικά δίκτυα γονιδίων ειδικά για τον ασθενή βασίζεται σε ένα διαφορετικό-συντελεστή μοντέλο διαρθρωτικές εξίσωση. Ας είναι δυνατόν οι ρυθμιστικές αρχές, και να είναι το γονίδιο στόχο που ελέγχεται από τις ρυθμιστικές αρχές σε [28]. Το διαφορετικό συντελεστή μοντέλο διαρθρωτικές εξίσωση δίνεται ως (4), όπου είναι ένας συντελεστής παλινδρόμησης της για το διαμορφωτή. Οι συντελεστές παλινδρόμησης ειδικά για τον ασθενή υπολογίζεται με τη μέθοδο νομιμοποίησης πυρήνα που βασίζεται ελαχιστοποιώντας, (5), όπου, και (6), όπου είναι ένα βάρος για μια αναδρομική ελαστικό δίχτυ ποινή για την αποτελεσματική επιλογή χαρακτηριστικών [28], και είναι μια Gaussian πυρήνα λειτουργία με εύρος ζώνης, (7)
Η λειτουργία Gaussian πυρήνα χρησιμοποιείται για να ταιριάζει με το μοντέλο στο βασίζονται σε δείγματα στη γειτονιά γύρω από τον ασθενή. Με τη χρήση της λειτουργίας Gaussian πυρήνα στην τακτοποιημένη παλινδρόμησης, η NetworkProfiler εκτελεί αποτελεσματικά να συμπεράνουμε ρυθμιστικών δικτύων ασθενή-ειδικό γονίδιο, και τα αποτελέσματα μας επιτρέπουν την αποτελεσματική εξατομικευμένη αντικαρκινική θεραπεία.
Είναι, ωστόσο, γνωστό ότι οι γονιδιωματικής σύνολα δεδομένων αλλοιώσεις συνήθως περιέχουν ακραίες τιμές από διάφορες πηγές (π.χ., λάθος πείραμα, σφάλμα κωδικοποίησης, κλπ). Συνεπάγεται ότι η υπάρχουσα μέθοδος δεν θα αποδίδουν καλά για την αποκάλυψη βιοδείκτες και την πρόβλεψη αντικαρκινικό φάρμακο απόκριση, επειδή η υπάρχουσα μέθοδο στην (5) στηρίζεται σε μειονεκτική τουλάχιστον λειτουργία τετραγώνων απώλεια. Είχε προηγουμένως δείξει ότι οι ελαστικές μεθόδους νομιμοποίησης των καθαρών τύπου που βασίζονται σε τουλάχιστον λειτουργία πλατεία απώλεια κακές επιδόσεις στην παρουσία ακραίων τιμών, και έχουν αρκετές ισχυρές μεθοδολογίες έχουν προταθεί για να ξεπεραστούν τα μειονεκτήματα ενός τουλάχιστον λειτουργία πλατεία απώλεια τακτοποιημένη μοντέλων παλινδρόμησης [ ,,,0],1], [14], [25].
προτείνουμε μια ισχυρή μέθοδο για την ανάλυση ειδικά για τον ασθενή, σύμφωνα με το NetworkProfiler.
στιβαρή νομιμοποίησης για ανάλυση ασθενή συγκεκριμένες ακραία ανθεκτικά
Πρέπει πρώτα δείξουμε πώς ακραίες τιμές θα μπορούσαν να επηρεάσουν τη διαδικασία εκτίμησης κατά τη χρήση του τιμωρείται τουλάχιστον μεθοδολογία πλατείες. Το σχήμα 1 δείχνει την επανάληψη των συντελεστών κατά τη διάρκεια της βελτιστοποίησης του τακτοποιηθεί μοντέλων παλινδρόμησης με ένα λάσο ποινή [25] υπό το αρχικό και το μολυσμένο σύνολα δεδομένων διαβήτη [3] στο (Α) και (Β), αντίστοιχα. Το μολυσμένο σύνολο δεδομένων περιέχει 10% ακραίες τιμές για τις εντός και μεταξύ των μεταβλητών 10 προγνωστικός δείκτης. Οι συντελεστές συνέκλιναν μετά από 26 επαναλήψεις στο αρχικό σύνολο δεδομένων, όπως φαίνεται στο Σχήμα 1 (Α). Με την παρουσία των ακραίων τιμών, ωστόσο, η διαδικασία βελτιστοποίησης με το λάσο εκτιμητή διαταράσσεται και ο αριθμός που απαιτείται για την επανάληψη της σύγκλισης αυξάνεται σημαντικά, όπως φαίνεται στο Σχήμα 1 (Β). Αυτό σημαίνει ότι οι ακραίες τιμές διαταράξει σημαντικά την τακτοποιηθεί μοντέλων παλινδρόμησης, και, επομένως, μπορεί να οδηγήσει σε άσχημα αποτελέσματα στην αποκάλυψη βιοδεικτών και την πρόβλεψη ανταπόκριση των ναρκωτικών, όπου η ανάλυση ειδικά για τον ασθενή.
Η
Προτείνουμε μια ισχυρή μέθοδο για να αποκαλύψει αποτελεσματικά τον ασθενή συγκεκριμένες βιοδείκτες του καρκίνου και να προβλέψει κατά του καρκίνου ευαισθησία των ναρκωτικών, σύμφωνα με την NetworkProfiler. Το σύνολο δεδομένων γενωμική χαρακτηριστικά είναι κατασκευασμένο με ένα μεγάλο αριθμό χαρακτηριστικών και ένα σχετικά μικρό αριθμό δειγμάτων (δηλαδή, υψηλή διαστάσεων του συνόλου δεδομένων), και την ανίχνευση και τον έλεγχο των ακραίων τιμών σε υψηλό διαστάσεων του συνόλου δεδομένων είναι γενικά δύσκολες εργασίες. Για να επιλύσετε αυτό το ζήτημα, θεωρούμε το βάρος για τον έλεγχο των ακραίων τιμών βασίζεται στην ισχυρή απόσταση Mahalanobis υπολογίζεται ισχυρή κύρια διαστημική συνιστώσα, όπως αποδείχθηκε προηγουμένως από το πάρκο και Konishi [25], (8), όπου είναι το 95% ποσοστημόριο της κατανομής [14] , και είναι ένα ισχυρό απόσταση Mahalanobis βασίζεται στην σθεναρά εκτιμώμενη μέση τιμή και συνδιακύμανση πίνακα με Ελάχιστη Ellipsoid Όγκος (MVE) υπολογίζεται με τον στιβαρό χώρο κύριες συνιστώσες ως εξής, (9), όπου είναι μια μήτρα ισχυρή κύρια συστατικά που βασίζονται στην ισχυρή φορτώσεις με τη χρήση η τεχνική προβολής-άσκηση [12]. Με τη χρήση του ισχυρή κύρια διαστημική συνιστώσα, μπορούμε να ανιχνεύσουμε αποτελεσματικά ακραίες τιμές με βάση την ισχυρή απόσταση Mahalanobis, ξεπερνώντας έτσι τον υπολογισμό του αντίστροφου πίνακα συνδιασποράς σε ένα υψηλό διαστάσεων του συνόλου δεδομένων. Επιπλέον, ο χώρος κύριες συνιστώσες ορίζεται από τη μεγιστοποίηση της διακύμανσης κατά μήκος κάθε συστατικό, και από ακραίες τιμές αυξάνουν τη διακύμανση του συνόλου δεδομένων, είμαστε σε θέση να ανιχνεύσουν πιο πιστά ακραίες τιμές [5]. Αυτό σημαίνει ότι το βάρος που βασίζεται στην ισχυρή απόσταση Mahalanobis υπολογίζεται ισχυρή κύρια διαστημική συνιστώσα είναι ένα χρήσιμο εργαλείο για τον έλεγχο των ακραίων τιμών σε υψηλά διαστάσεων γονιδιακά δεδομένα.
Αναφερόμαστε στο βάρος (8) για ακραία ανθεκτικά ασθενή -εξειδικευμένης ανάλυση, και να προτείνει μια ισχυρή μέθοδο για την αποκάλυψη βιοδείκτες και την πρόβλεψη της ευαισθησίας φάρμακο για ένα συγκεκριμένο ασθενή ως εξής (10), (11), όπου είναι το βάρος της προσαρμοστικής ελαστικό δίχτυ ποινή [35].
Η προτεινόμενη στρατηγική μοντελοποίηση αποτελεσματικά διεξάγεται με τη χρήση του αλγορίθμου συντονίσει κάθοδο με βάση το σταθμισμένο ενημέρωση [6]. Η μέθοδός μας μπορεί να εκτελέσει αποτελεσματικά ανάλυση ειδικά για τον ασθενή με βάση τη λειτουργία Gaussian πυρήνα και αποτελεσματική εκτέλεση της μπορεί να παρέχεται με συνέπεια ακόμη και στην παρουσία ακραίων τιμών με τον έλεγχο των ακραίων τιμών μέσω του βάρους.
Αποτελέσματα
έχουμε εξετάσει την αποτελεσματικότητα της προτεινόμενης στρατηγικής μοντελοποίηση ως μια ισχυρή μέθοδος για ανάλυση ειδικά για τον ασθενή μέσω Monte Carlo προσομοιώσεις και εφαρμογή σε δεδομένα καρκίνο γονιδιωματικής. Για την αξιολόγηση της προτεινόμενης μεθόδου, συγκρίνουμε την ακρίβεια της πρόβλεψης και ποικίλα αποτελέσματα επιλογής της μεθόδου μας, το NetworkProfiler και ελαστικό δίχτυ. Στη μελέτη μας, η NetworkProfiler χρησιμοποιείται για να αποκαλύψει επιμέρους βιοδείκτες αντί των δικτύων γονιδίων. Για τις αριθμητικές μελέτες, χρησιμοποιούμε το προσαρμοζόμενο ελαστικό δίχτυ ποινή [35] στην προτεινόμενη μέθοδο, NetworkProfiler και ελαστικό δίχτυ. Επιλέγουμε τις παραμέτρους ρύθμισης και το εύρος ζώνης σε συνάρτηση Gauss πυρήνα με βάση k-φορές εγκάρσια επικύρωσης [18], (12), όπου είναι δείγματα επικύρωσης για, και τα δεδομένα που χρησιμοποιούνται για την εκτίμηση για το καθένα. Σε αριθμητικές μελέτες, χρησιμοποιούμε το 3-πλάσιο σταυρό επικύρωσης, το οποίο έχει χρησιμοποιηθεί σε υψηλές ανάλυση διαστάσεων δεδομένων, όπως γονιδιωματική ανάλυση των δεδομένων [13], [20], [22], [26], [32]. Η στιβαρή απόσταση Mahalanobis υπολογίζεται με βάση τις ισχυρές κύριες συνιστώσες που συνέβαλαν το 95% της συνολικής διακύμανσης.
προσομοιώσεις Monte Carlo
Προσομοιώσαμε 100 σύνολα δεδομένων που αποτελείται από παρατηρήσεις από το μοντέλο (13), όπου υποτίθεται να διανεμηθούν ως και παράγεται από μια ομοιόμορφη κατανομή για. Η συσχέτιση μεταξύ και είναι με το τρισδιάστατο πολυμεταβλητή κανονική κατανομή με μέση τιμή μηδέν. Θεωρούμε ένα διάστατο διάνυσμα συντελεστών με τυχαία επιλεγμένων 100 μη μηδενικό και 900 μηδενικών συντελεστών 1000.
Δύο τύποι λειτουργιών συντελεστή στο ανωτέρω διαφορετικό μοντέλο συντελεστής θεωρείται, όπως φαίνεται στο Σχήμα 2. Θεωρούμε δειγμάτων όπως ακραίες τιμές στα δείγματα. Αν το δείγμα είναι ένα ακραίες τιμές, και της συνέχειας. Εδώ θέτουμε, και 20, και και σε προσομοιώσεις 1 και 2, αντίστοιχα.
Η
Θεωρούμε ένα σύνολο δεδομένων εκπαίδευσης με 75 δείγματα και μια δοκιμή σύνολο δεδομένων με 25 δείγματα σε κάθε 100 προσομοιώσεις. Οι hyperparameters επιλέγονται από 3-φορές σταυρό επικύρωση στο σύνολο δεδομένων εκπαίδευσης, και τα σφάλματα πρόβλεψης υπολογίζεται δοκιμή σύνολο δεδομένων με βάση τις παραμέτρους που έχουν επιλεγεί. Στη συνέχεια συγκρίνει την ακρίβεια πρόβλεψης δίνεται ως μέσος όρος του μέσου τετραγωνικού σφάλματος, και το μεταβλητό ακρίβεια επιλογής δίνεται ως αληθώς θετικό (δηλαδή, κατά μέσο όρο το ποσοστό των μη μηδενικών συντελεστών, που εκτιμάται ως μη-μηδέν) και αληθινό αρνητικό (δηλαδή, η μέσο ποσοστό της πραγματικής μηδενικών συντελεστών, που είχαν οριστεί σωστά στο μηδέν) για κάθε ένα από τα 100 που δημιουργούνται σύνολα δεδομένων.
Ένας μεγάλος αριθμός των μεταβλητών πρόβλεψης οδηγεί σε χρονοβόρες ανάλυση, και έτσι αυξάνει το συνολικό υπολογιστικό κόστος μιας μεθόδου . Επιπλέον, έχει εκτεθεί ότι ένας μεγάλος αριθμός των μεταβλητών πρόβλεψης με θορυβώδεις γονίδια μπορεί να διαταράξει την διαδικασία μοντελοποίησης, και έτσι οδηγεί σε άσχημα αποτελέσματα πρόβλεψης [19]. Ο Πίνακας 1 δείχνει την ακρίβεια πρόβλεψη της NetworkProfiler βασίζονται σε όλες τις λειτουργίες και βασίζονται σε ένα προ-επιλεγμένο μικρό αριθμό από χαρακτηριστικά που έχουν την υψηλότερη διακύμανση. Μπορεί να δει μέσα από τον Πίνακα 1 ότι η εξέταση όλων των χαρακτηριστικών δεν παράγει υψηλή απόδοση πρόβλεψη σε σχέση με την απόδοση ενός μοντέλου παλινδρόμησης χτισμένο σε μια προ-επιλεγμένο μικρό αριθμό χαρακτηριστικών. Συνεπάγεται ότι δεν υπάρχει ανάγκη να εξεταστούν όλες οι δυνατότητες για ανάλυση ειδικά για τον ασθενή, διότι οδηγεί σε μη αποδοτική μοντελοποίηση χωρίς βελτίωση της απόδοσης του μοντέλου.
Η
Έτσι, συγκρίνουμε την προτεινόμενη ισχυρή μέθοδος για την NetworkProfiler και ελαστική καθαρό βασίζεται σε μοντέλο με μεταβλητές πρόβλεψης που έχουν την υψηλότερη διακύμανση σε όλα τα δείγματα. Οι Πίνακες 2 και 3 δείχνουν τα αποτελέσματα της προσομοίωσης (δηλαδή, αληθώς θετικά (ΤΡ), η αληθινή αρνητικό (ΤΝ) και το σφάλμα πρόβλεψης (ΡΕ)) σε προσομοιώσεις 1 και 2, αντίστοιχα, όπου οι έντονους τιμές δείχνουν την καλύτερη απόδοση μεταξύ των τριών μεθόδων ( δηλαδή, ελαστικό δίχτυ: ΕΛΑ, NetworkProfiler: NP, ισχυρή μέθοδο: R). Το διαφορετικό μοντέλο συντελεστής παράγει διακριτική μεταβλητή αποτελέσματα της επιλογής σε κάθε δείγμα, και έτσι συγκρίνουμε μόνο τα αποτελέσματα της επιλογής χαρακτηριστικό της NetworkProfiler και πρότεινε ισχυρή, γιατί το ελαστικό δίχτυ δεν μπορεί να εκτελέσει δείγμα ειδικές επιλογής χαρακτηριστικών.
Η
οι πίνακες 2 και 3 δείχνουν ότι η προτεινόμενη ισχυρή μέθοδο για την ανάλυση ειδικά για τον ασθενή υπερτερεί για την πρόβλεψη της μεταβλητής απόκρισης σε όλες τις καταστάσεις προσομοίωσης και τους τύπους λειτουργίας συντελεστή. Παρατηρούμε επίσης ότι η προτεινόμενη εύρωστη μέθοδος και NetworkProfiler δεν κάνουν διαφορά καταλήγει σε μεταβλητή επιλογής. Από τα αποτελέσματα, μπορούμε να δούμε ότι ο έλεγχος των ακραίων τιμών στη διαδικασία μοντελοποίησης παράγει ακραία ανθεκτικά αποτελέσματα εκτίμησης, καθώς και τα αποτελέσματα οδηγούν σε εξαιρετική πρόβλεψη της ενδιαφέροντα μεταβλητή απόκρισης
Ακίνητα κόσμο παράδειγμα:. Sanger σύνολο δεδομένων
Έχουμε εφαρμόσει την προτεινόμενη στρατηγική μοντελοποίησης για τη δημόσια διαθέσιμες Sanger Γονιδιωματική των ναρκωτικών Ευαισθησία στο σύνολο δεδομένων του καρκίνου από το Πρόγραμμα Καρκίνου Γονιδιώματος (https://www.cancerrxgene.org/). Ο κύριος στόχος του έργου είναι ο προσδιορισμός των μοριακών χαρακτηριστικών των διαφόρων μορφών καρκίνου και για την πρόβλεψη της ευαισθησίας των αντικαρκινικών φαρμάκων. Το σύνολο δεδομένων αποτελείται από τα επίπεδα γονιδιακής έκφρασης, αριθμός αντιγράφων και την κατάσταση μετάλλαξης για 654 κυτταρικές σειρές. Οι τιμές IC50 (δηλ, το ήμισυ της μέγιστης ανασταλτικές συγκεντρώσεις του φαρμάκου) από 138 φάρμακα δίνονται ως του φυσικού λογαρίθμου της τιμής ευαισθησίας φαρμάκου. Οι τιμές IC50 από το σύνολο δεδομένων Sanger δεν μπορεί να περιέχει μερικές από τις τιμές που λείπουν, και έτσι μπορούμε να εκτελέσουμε βιοδείκτες ανακάλυψη και την πρόβλεψη ανταπόκριση φάρμακο κατά του καρκίνου βασίζεται σε 200 τυχαία επιλεγμένα δείγματα, εκ των οποίων 150 κυτταρικές σειρές χρησιμοποιήθηκαν ως δεδομένα εκπαίδευσης και 50 κυτταρικές σειρές χρησιμοποιήθηκαν ως δεδομένα δοκιμών για κάθε ένα από τα 138 φάρμακα.
για να αξιολογηθεί η προτεινόμενη μεθοδολογία ισχυρή, πρέπει πρώτα να αποφασίσουν κατά πόσον το σύνολο δεδομένων κατασκευάστηκε με τιμές IC50 από κάθε επίπεδο του φαρμάκου και της έκφρασης των 13.321 γονιδίων που έχει μολυνθεί ή όχι. Για κάθε ένα από τα 138 συνόλου δεδομένων (δηλαδή, τα επίπεδα έκφρασης των γονιδίων και οι τιμές IC50) αντιστοιχούν 138 φάρμακα, βρίσκουμε μια πρώτη κύρια συνιστώσα του συνόλου δεδομένων, και στη συνέχεια να αποφασίσει με βάση το εξής κριτήριο (14), όπου είναι η ισχυρή Mahalanobis απόσταση υπολογίζεται από η πρώτη κύρια συνιστώσα. Το κριτήριο έχει μία τιμή μηδέν σε ένα μη-μολυσμένο σύνολο δεδομένων, ενώ μια μεγάλη τιμή του υποδεικνύει ότι το σύνολο δεδομένων περιέχει ακραίες τιμές. Το Σχήμα 3 δείχνει τα ταξινομημένα τιμές για τα 138 σύνολα δεδομένων.
Η
Θεωρούμε τα σύνολα δεδομένων με που βρίσκεται στην πάνω δεξιά πλευρά του σχήματος 3 ως μολυσμένη σύνολα δεδομένων, τα οποία έχουν σχετικά μεγάλες τιμές που είναι πολύ παρέκκλινε από τη μέση αξιών. Η προτεινόμενη ισχυρή μέθοδος εφαρμόζεται στη συνέχεια το μολυσμένο σύνολα δεδομένων για την αξιολόγηση της απόδοσης των μεθόδων κατά τον προσδιορισμό των βιολογικών δεικτών και την πρόβλεψη αντι-καρκίνου ευαισθησία των ναρκωτικών. Συγκρίνουμε την ακρίβεια πρόβλεψης βασίζεται σε 10 σύνολα δεδομένων που αντιστοιχούν στα 10 φάρμακα εμφανίζονται ως κόκκινες κουκκίδες στο Σχήμα 3: φάρμακα FTI.277, DMOG, NSC.87877, AKT.inhibitor.VIII, MIDOSTAURIN, BMS.754807, θαψιγαργίνη, βλεομυκίνη, δοξορουβικίνη , Epothilone.B.
Όπως αναφέρθηκε προηγουμένως, ένας μεγάλος αριθμός από χαρακτηριστικά όχι μόνο οδηγεί σε αναποτελεσματική μοντελοποίηση, αλλά μπορεί επίσης να παράγουν ανεπαρκή αποτελέσματα σε σχέση με μοντελοποίηση με βάση ένα προ-επιλεγμένο μικρό αριθμό χαρακτηριστικών. Συγκρίνουμε πρώτα την ακρίβεια πρόβλεψης (δηλαδή, διάμεσος τετραγωνικού σφάλματος του 50 δειγμάτων δοκιμής) της ανταπόκρισης αντικαρκινικού φαρμάκου με βάση τα επίπεδα έκφρασης του 133 (1% του συνόλου των 13.321 γονιδίων) γονιδίων και τα 500 γονίδια που έχουν την υψηλότερη διακύμανση με βάση την NetworkProfiler στον πίνακα 4. Ο Πίνακας 4 δείχνει ότι μοντελοποίησης με βάση τα επίπεδα έκφρασης του 133 γονιδίων παράγει εξαιρετική ακρίβεια πρόβλεψης σε σχέση με μοντελοποίηση που βασίζεται σε 500 γονίδια. Από το αποτέλεσμα, μπορούμε επίσης να συμπεράνουμε ότι δεν υπάρχει ανάγκη να εξεταστεί ένας μεγάλος αριθμός γονιδίων με θόρυβο, και ότι ένας μεγάλος αριθμός των χαρακτηριστικών οδηγεί μόνο σε αναποτελεσματική μοντελοποίηση και φτωχά αποτελέσματα πρόβλεψης. Έτσι, αξιολογούμε την προτεινόμενη εύρωστη μέθοδο σε σύγκριση με την NetworkProfiler και ελαστικό δίχτυ με βάση τα επίπεδα έκφρασης του 133 γονιδίων. Ο Πίνακας 5 δείχνει το μεσαίο τετραγωνικού σφάλματος 50 δειγμάτων δοκιμής ως σφάλμα πρόβλεψης της ανταπόκρισης αντικαρκινικού φαρμάκου. Η προτεινόμενη ισχυρή μέθοδος υπερτερεί τις υπάρχουσες μεθόδους για την πρόβλεψη αντικαρκινική ανταπόκριση των ναρκωτικών στα μολυσμένα σύνολα δεδομένων.
Η
Το σχήμα 4 δείχνει τα ακάλυπτα βιοδείκτες του καρκίνου που επιλέγονται σε ποσοστό μεγαλύτερο του 80% των μοντέλων για το καθένα 150 ιστούς (δηλαδή, επιλέγεται μεγαλύτερη από 120 δείγματα βασίζεται σε διαφορετικό μοντέλο συντελεστή) με τη μέθοδο μας για την ανταπόκριση του κάθε φαρμάκου. Για να δείξει την αξιοπιστία της μεθόδου μας, δείχνουν επίσης τα 10 πιο συχνά ανακάλυψαν γονίδια κατά την πρόβλεψη της ευαισθησίας των 10 φαρμάκων και οι αναφορές τους στον Πίνακα 6. Υπάρχουν διαφορές μεταξύ των βιοδεικτών ανακαλύφθηκε με βάση την μέθοδο μας και εκείνους που ανακάλυψε χρησιμοποιώντας το ελαστικό καθαρό [8], δεδομένου ότι η μέθοδος μας εντοπίζει βιοδείκτες του καρκίνου για κάθε ασθενή και όχι το μέσο όρο των βιοδεικτών για όλα τα δείγματα. Ωστόσο, το φάρμακο ευαισθησία ειδικά βιοδείκτες που ανακαλύφθηκε από τη μέθοδο μας είχαν υποστηρίζεται σθεναρά ως αληθινοί βιοδείκτες του καρκίνου στη βιβλιογραφία (στήλη της «αναφοράς» στον Πίνακα 6). Το αποτέλεσμα υποδηλώνει ότι η προτεινόμενη μέθοδος για την ανάλυση ειδικά για τον ασθενή παράγει ένα αξιόπιστο αποτέλεσμα για την αποκάλυψη βιοδείκτες του καρκίνου.
Η
Με λίγα λόγια, η μέθοδος μας είναι ένα χρήσιμο εργαλείο για την πρόβλεψη αντι-καρκίνου ευαισθησία των ναρκωτικών και αποκάλυψη βιοδείκτες του καρκίνου ειδικά για τον ασθενή.
Συζήτηση
Έχουμε προτείνει μια νέα μέθοδο ακραία ανθεκτικά για την αποκάλυψη των ασθενών ειδικών βιοδεικτών και την πρόβλεψη αντικαρκινική ανταπόκριση των ναρκωτικών. Με τη χρήση του ισχυρή απόσταση Mahalanobis υπολογίζεται ισχυρή κύρια διαστημική συνιστώσα, η προτεινόμενη μέθοδος εντοπίζει αποτελεσματικά και ελέγχει ακραίες τιμές σε υψηλά διαστάσεων γονιδιωματική σύνολα δεδομένων αλλαγές. Έτσι, η προτεινόμενη ισχυρή μέθοδο μπορεί να εκτελέσει αποτελεσματικά να αποκαλύψει βιοδείκτες του καρκίνου και για την πρόβλεψη της ευαισθησίας φαρμάκων, ακόμη και με την παρουσία των ακραίων τιμών. Από τις προσομοιώσεις Monte Carlo, έχουμε βρει ότι η μέθοδος μας δείχνει εξαιρετική ακρίβεια πρόβλεψης σε σχέση με το υφιστάμενο NetworkProfiler και ελαστικό δίχτυ. Έχουμε εφαρμόσει την προτεινόμενη μέθοδο στο σύνολο δεδομένων Sanger από την Γονιδιώματος του Καρκίνου. Με τη χρήση της μεθόδου μας, έχουμε ακάλυπτο βιοδείκτες του καρκίνου και την προβλεπόμενη αντικαρκινικό φάρμακο απόκριση. Μπορεί να φανεί από τα αποτελέσματα ότι η προτεινόμενη μέθοδος είναι ένα χρήσιμο εργαλείο για την πρόβλεψη αντικαρκινικό φάρμακο απόκριση. Επιπλέον, οι βιοδείκτες που αποκάλυψε η μέθοδος μας είχε προηγουμένως αναγνωριστεί ως βιοδείκτες του καρκίνου. Τα αποτελέσματα σημαίνει ότι η μέθοδός μας όχι μόνο παρέχει αξιόπιστη επιλογή χαρακτηριστικών, αλλά και ακριβή αποτελέσματα πρόβλεψη.
Επί του παρόντος υπάρχει πολλή συζήτηση σχετικά με την ανάλυση ειδικά για τον ασθενή και την εξατομικευμένη ιατρική βασίζεται στην υψηλή διαστάσεων γονιδιωματικής σύνολα δεδομένων. Αναμένουμε ότι η μεθοδολογία μας θα είναι χρήσιμο για τους τομείς, δεδομένου ότι γονιδιακά δεδομένα συνήθως περιέχει ακραίες τιμές.
Αν και η μέθοδος ειδικά για τον ασθενή βασίζεται σε ένα διαφορετικό μοντέλο συντελεστής είναι ένα αποτελεσματικό εργαλείο, ελέγχει τα αποτελέσματα των παρατηρήσεων, προκειμένου για την παροχή του δείγματος-συγκεκριμένα αποτελέσματα. Με άλλα λόγια, μειώνει την επίδραση των παρατηρήσεων μακριά από έναν ασθενή-στόχο, και κατά συνέπεια οδηγεί σε ένα υψηλό πλαίσιο διαστάσεων δεδομένων. Κτίριο μοντέλα που βασίζονται σε ένα μεγάλο αριθμό χαρακτηριστικών με ένα μικρό αριθμό δειγμάτων μπορούν να οδηγήσουν σε overfitting στην επιλογή χαρακτηριστικό, και μπορεί να παράγει αποτελέσματα αναποτελεσματική πρόβλεψη. Προκειμένου να βελτιωθεί η απόδοση μοντελοποίηση, το μελλοντικό έργο μπορεί να περιλαμβάνει την επέκταση της ανάλυσης ειδικά για τον ασθενή με βάση την bootstrap τεχνική.
Το σύνολο των δεδομένων Sanger από την Γονιδιώματος Καρκίνου παρέχει αναλυτικές πληροφορίες σχετικά με τα μοριακά χαρακτηριστικά του καρκίνου (π.χ., μετάλλαξη, τα επίπεδα έκφρασης και αριθμό αντιγράφων παραλλαγή) και απόκριση των διαφόρων φαρμάκων κατά του καρκίνου. Έτσι, η ανάλυση του συνόλου δεδομένων μπορεί να παρέχει ενημερωτικό αποτελέσματα για τη συστημική βιολογία του καρκίνου και πολύτιμες πληροφορίες για την εξατομικευμένη θεραπεία και την αντικαρκινική θεραπεία. Οι τιμές IC50 από 138 φάρμακα δίνονται ως ευαισθησίας των ναρκωτικών, ωστόσο, περιέχει πολλές τιμές που λείπουν (44-364 τιμές που λείπουν συνολικά 654 κυτταρικές σειρές). Για να χρησιμοποιήσετε αποτελεσματικά το σύνολο δεδομένων Sanger για να αποκαλύψει τον μηχανισμό του καρκίνου, αντί να αγνοώντας τις ελλιπείς πεδία, απαιτείται η κατάλληλη επεξεργασία των ελλείπουσες τιμές.
Επιπλέον, έχουμε επίσης προσδιορίζονται μέσω αριθμητικές μελέτες ότι ένα μεγάλο αριθμός θορυβώδεις λειτουργίες ενδέχεται να διαταράξει τις επιδόσεις μοντελοποίηση, και, συνεπώς, οι στρατηγικές για την προ-επιλογή ενός υποψηφίου σύνολο θα πρέπει να βελτιώσει τις επιδόσεις μοντέλων.
Ευχαριστίες
η έρευνα χρησιμοποίησε υπολογιστικούς πόρους του υπολογιστή Κ παρέχονται από το RIKEN για προχωρημένους Ινστιτούτο Υπολογιστικής Επιστήμης μέσα από το έργο HPCI Σύστημα Έρευνας (πρόγραμμα ID: hp140230) και το Super System του υπολογιστή, Genome Κέντρο του Ανθρώπου, Ινστιτούτο Ιατρικών Επιστημών, Πανεπιστήμιο του Τόκιο. Οι συγγραφείς θα ήθελα να ευχαριστήσω τον συνεργάτη συντάκτης και ανώνυμους αναθεωρητές για τις εποικοδομητικές και πολύτιμα σχόλια που βελτίωσε την ποιότητα του χαρτιού.
You must be logged into post a comment.