PLoS One: Μηχανική Μάθηση Πρόβλεψη Cancer Cell Ευαισθησία για τα ναρκωτικά Με βάση Γονιδιωματική και χημικές ιδιότητες


Αφηρημένο

Η πρόβλεψη της απόκρισης ενός συγκεκριμένου καρκίνου σε θεραπεία είναι ένας σημαντικός στόχος στη σύγχρονη ογκολογία που θα πρέπει τελικά να οδηγήσει σε μια εξατομικευμένη θεραπεία. High-throughput προβολές δυνητικά δραστικών ενώσεων έναντι ενός πάνελ γονιδιωματικά ετερογενών κυτταρικών σειρών καρκίνου έχουν αποκαλυφθεί πολλαπλές σχέσεις μεταξύ γονιδιωματική μετατροπές και ανταποκρίσεις του φαρμάκου. Διάφορες υπολογιστικές προσεγγίσεις έχουν προταθεί για την πρόβλεψη της ευαισθησίας βασίζεται στην γονιδιωματική χαρακτηριστικά, ενώ άλλοι χρησιμοποίησαν τις χημικές ιδιότητες των φαρμάκων για να εξακριβωθεί η επίδρασή τους. Σε μια προσπάθεια να ενσωματώσει αυτές τις συμπληρωματικές προσεγγίσεις, αναπτύξαμε μοντέλα μηχανικής μάθησης για την πρόβλεψη της απόκρισης του καρκινικές κυτταρικές γραμμές για φαρμακευτική θεραπεία, ποσοτικοποιούνται μέσω IC

50 τιμές, με βάση τόσο τα γονιδιωματικά χαρακτηριστικά των κυτταρικών γραμμών και των χημικών ιδιοτήτων του οι θεωρούνται φάρμακα. Μοντέλα προβλέψει IC

50 τιμές σε ένα 8-fold cross-επικύρωση και ένας ανεξάρτητος

τυφλή

δοκιμή με συντελεστή προσδιορισμού R

2 των 0,72 και 0,64 αντίστοιχα. Επιπλέον, τα μοντέλα ήταν σε θέση να προβλέψει με ακρίβεια συγκρίσιμη (R

2 0,61) IC50s των κυτταρικών σειρών από έναν ιστό που δεν χρησιμοποιούνται στο στάδιο της κατάρτισης. Μας

in silico

μοντέλα μπορούν να χρησιμοποιηθούν για τη βελτιστοποίηση της πειραματικού σχεδιασμού του φαρμάκου-κυττάρων προβολές υπολογίζοντας ένα μεγάλο ποσοστό των αγνοουμένων IC

50 αξίες και όχι πειραματικά αυτά μέτρησης. Οι επιπτώσεις των αποτελεσμάτων μας πάει πέρα ​​από

εικονικό σχεδιασμό διαλογής

φαρμάκων: δυνητικά χιλιάδες φάρμακα θα μπορούσαν να ανιχνευθούν

in silico

να δοκιμαστεί συστηματικά πιθανή αποτελεσματικότητα τους ως παράγοντες κατά των όγκων με βάση τη δομή τους, έτσι παρέχοντας ένα υπολογιστικό πλαίσιο για τον εντοπισμό νέων ευκαιριών επανατοποθέτηση των ναρκωτικών, καθώς και, τελικά, να είναι χρήσιμη για την εξατομικευμένη ιατρική, συνδέοντας τις γονιδιωματικής χαρακτηριστικά των ασθενών με την ευαισθησία των ναρκωτικών

Παράθεση:. Menden MP, Iorio F, Garnett Μ, McDermott U, Benes CH, Ballester PJ, et al. Μάθησης Πρόβλεψη (2013) Μηχανή Cancer Cell Ευαισθησία για τα ναρκωτικά Με βάση Γονιδιωματική και χημικές ιδιότητες. PLoS ONE 8 (4): e61318. doi: 10.1371 /journal.pone.0061318

Επιμέλεια: Gajendra Π Σ Raghava, CSIR-Ινστιτούτο Μικροβιακή Τεχνολογία, την Ινδία

Ελήφθη: 26 Οκτ του 2012? Δεκτές: 7, Μαρτίου, 2013? Δημοσιεύθηκε: 30 Απριλίου 2013

Copyright: © 2013 Menden et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο χρηματοδοτήθηκε από το Εργαστήριο Βιολογίας διδακτορικό πρόγραμμα European Molecular να MPM, το πρόγραμμα Sanger /Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής ESPOD σε FI, ένα Ιατρικό Συμβούλιο Έρευνας Μεθοδολογία Έρευνας Fellowship να PJB, επιχορήγηση Wellcome Trust στο MG και CHB, και Cancer Research UK στο UM. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

διαλογής υψηλής απόδοσης ενός μεγάλου αριθμού μορίων είναι μια ευρέως χρησιμοποιούμενη προσέγγιση για τον εντοπισμό ενώσεων μολύβδου ασκούν ευεργετική επίδραση σε μία δεδομένη φαινότυπο. Στο πλαίσιο του καρκίνου, οι βιβλιοθήκες των χημικών οντοτήτων έχουν δοκιμαστεί με τον τρόπο αυτό κατά πάνελ των κυτταρικών γραμμών που καλλιεργούνται σε διαφορετικές συνθήκες και με ετερογενείς γονιδιωματικό υπόβαθρο [1]. Μετά την πρωτοποριακή εργασία του «NCI-60″, μια συλλογή από 59 ανθρώπινες κυτταρικές γραμμές καρκίνου που αναπτύχθηκε από το Εθνικό Ινστιτούτο Καρκίνου για

in vitro

διαλογής φαρμάκων [2], πρόσφατες μελέτες έχουν δείξει σήμα κατατεθέν ότι διαλογή πολύ μεγάλων συλλογές κυτταρική γραμμή μπορεί να ανακεφαλαιώσω γνωστά και ταυτοποίηση νέων μοριακών γονιδιωματικής καθοριστικούς παράγοντες της ευαισθησίας των ναρκωτικών [1], [3] – [5]

Σε αυτές τις μελέτες, χρησιμοποιώντας συστηματική στατιστική συμπερασματολογία και παλινδρόμηση μεθόδους, καθοριστικός όπως ογκογόνο βλάβες. , έχουν υψηλά ή χαμηλά επίπεδα βασικής έκφρασης γονιδίου και άλλων γονοτυπική γνωρίσματα έχουν συσχετισθεί με το προφίλ της αυξημένης ευαισθησίας /αντοχής σε συγκεκριμένες ενώσεις. Για παράδειγμα, με την εφαρμογή ενός πολυμεταβλητή ανάλυση διακύμανσης [6] και το πλαίσιο παλινδρόμηση του «Ελαστική Net» [7], έχουν δημιουργήσει συλλόγους ναρκωτικά γονότυπο έχουν επιβεβαιωθεί και να συμπληρωθεί με δείκτες των ιστών-εξειδίκευσης και νέων συνδέσεων, π.χ. η

EWS-FLI1

μετατόπιση στο σάρκωμα Ewing και την ευαισθησία να

PARP

αναστολείς, έχουν ταυτοποιηθεί και περαιτέρω πειραματικά επικυρωθεί. έχουν αποτελέσματα αυτών των μελετών έχουν γίνει διαθέσιμες στο κοινό, παρέχοντας μοναδικές πόρους που υποστηρίζουν την ανακάλυψη νέων βιοδεικτών πρόβλεψης για την εξατομικευμένη θεραπεία του καρκίνου.

Αύξηση περαιτέρω το μέγεθος των εξεταζόμενων κυττάρων-line /ένωση πάνελ θα είναι πολύ επωφελής, καθώς παρέχει τη βάση για τη βελτίωση της ακρίβειας και προβλεπτική ικανότητα των τεκμαιρόμενη ενώσεων. Ωστόσο, αυτό απαιτεί μεγαλύτερες υποδομές και το κόστος αυξάνεται με το μέγεθος διαλογής. Επιπλέον, οφείλεται σε διάφορους τεχνικούς και οργανωτικούς λόγους σε μια οθόνη υψηλής απόδοσης [7], η προκύπτουσα ένωση-από-κυτταρική σειρά μήτρα της αποτελεσματικότητας του φαρμάκου (συνήθως συνοψίζεται στο IC τους

50, το μισό της μέγιστης (50%) ανασταλτική συγκέντρωση μιας ουσίας σε σχέση με την βιωσιμότητα των κυττάρων), δεν είναι συχνά πλήρης. Παρά το γεγονός ότι πολλά βήματα αυτοματοποιημένες, γεμίζοντας πειραματικά κάθε χάσμα θα μπορούσε να είναι δαπανηρή και επίπονη [6]. Ως εκ τούτου, ένα ακριβές εργαλείο για να καταλογίσει λείπει IC

’50 και την εκτίμηση τους για τις νέες κυτταρικές σειρές θα είναι μεγάλη αξία για το σχεδιασμό διαλογής φαρμάκων.

Επιπλέον, ένα ισχυρό εργαλείο πρόβλεψης για

in silico

εντοπισμός δυνητικά αποτελεσματικών φαρμάκων για την θεραπεία ενός ειδικού καρκίνου θα μπορούσε να χρησιμοποιηθεί για την επαναστόχευση φαρμάκων [8], [9]. Μια προσέγγιση αυτού του είδους εκπροσωπείται από τον ΣΥΓΚΡΙΣΗ αλγόριθμο [10], [11] που χρησιμοποιεί τα προφίλ απάντηση ναρκωτικών του NCI-60 προσυμπτωματικού ελέγχου, μέσω ενός παραδείγματος «ενοχή-από-ένωση». Μετά από αυτή την αρχή, τα φάρμακα προκαλούν ένα παρόμοιο προφίλ ναρκωτικά απάντηση σε όλες τις κυτταρικές σειρές στον πίνακα NCI-60 υποτίθεται ότι μοιράζονται έναν κοινό τρόπο δράσης (υπουργείο οικονομικών), επιτρέποντας έτσι ΥΓΦΠΠ ανακάλυψη για νέα φάρμακα (εάν το προφίλ των όγκων-καταστολή τους είναι παρόμοια με εκείνη ενός γνωστού και καλά χαρακτηρισμένο φάρμακο) καθώς και η ανακάλυψη νέων ή δευτερογενείς επιδράσεις για τις καθιερωμένες φάρμακα.

Τελικά,

in silico

μεθόδους για να προβλέψει με ακρίβεια την αποτελεσματικότητα των φαρμάκων με βάση σχετικά με τη μοριακή κατασκευή των όγκων (δηλαδή γονιδίωμα, μεταγραφικό) θα ήταν ένα σημαντικό ορόσημο προς την κατεύθυνση εξατομικευμένες θεραπείες για τους ασθενείς με καρκίνο που βασίζεται στη μοριακή βιοδείκτες [12].

Αποτελέσματα

για το λόγο αυτό διερευνήθηκε κατά πόσον είναι δυνατό να οικοδομήσουμε μοντέλα μηχανικής μάθησης (για λεπτομέρειες την ενότητα «Υλικά και Μέθοδοι» δούμε «Μηχανική μάθηση» υποενότητα) που μπορεί να προβλέψει την ευαισθησία των ναρκωτικών, χρησιμοποιώντας κυτταρική γραμμή διαλογής πειραματικά δεδομένα, όπου οι κυτταρικές σειρές αντιμετωπίζονται με μεταβλητή συγκέντρωση ενός συγκεκριμένου φαρμάκου και της προκύπτουσας καμπύλη δόσης-απόκρισης συνοψίζονται από IC

50. Έχουμε επικεντρωθεί στην πιο ολοκληρωμένη δέσμη στοιχείων προσυμπτωματικό έλεγχο του καρκίνου του φαρμάκου διατίθενται στην αγορά σήμερα, από τις «Γονιδιωματική των ναρκωτικών Ευαισθησία στον Καρκίνο» (GDSC) του έργου [3]. Για κάθε φάρμακο, ένα νευρικό πρότυπο δίκτυο είχε εκπαιδευτεί να προβλέψει IC του

50 προφίλ κατά μήκος του πάνελ των κυτταρικών γραμμών με βάση την γενωμική φόντο του κάθε κυττάρου, όπως χαρακτηρίζεται από μικροδορυφορική κατάσταση αστάθειας (1 = ασταθής ή 0 = σταθερή), σωματικών παραλλαγές κωδικοποίησης στην ακολουθία κωδικοποίησης του 77 γονιδίων του καρκίνου (1 = οποιαδήποτε αλλαγή στην αλληλουχία της πρωτεΐνης και 0 = άγριου τύπου) και τον αριθμό αντιτύπου αλλοιώσεις που δηλώνει ενίσχυση γονιδίου και τη διαγραφή αυτών των γονιδίων του καρκίνου (1 = ενίσχυση /περισσότερο από 7 αριθμούς αντιγράφων, 0 = άγριου τύπου /μεταξύ 1 και 7 αριθμούς αντιγράφων, και -1 = διαγραφή /χωρίς αριθμό αντιγράφων). Ωστόσο, η προγνωστική δύναμη αυτών των αρχικών μοντέλων ήταν περιορισμένη, ειδικά για εκείνα τα φάρμακα χωρίς γνωστό εξάρτηση απόκριση ογκογονίδιο-to-φάρμακο.

αιτιολογημένη ότι η ευαισθησία των καρκινικών κυττάρων με μόρια φαρμάκου κινείται από τα χαρακτηριστικά τόσο από κύτταρα και τα ναρκωτικά. Ενώ τα χαρακτηριστικά των κυττάρων είναι τελικά συνδέονται με τις εσωτερικές διεργασίες του κυττάρου, τα χαρακτηριστικά του φαρμάκου συμπεριλαμβάνουν φυσικοχημικές ιδιότητες που συσχετίζεται με την ικανότητα του μορίου να διασχίσουν την κυτταρική μεμβράνη (π.χ. λιποφιλικότητα) ή εκλεκτικότητα του να ενδοκυτταρική στόχων (π.χ. δακτυλικών αποτυπωμάτων που κωδικοποιεί την χημική δομή )

Μάλιστα, η εκτεταμένη δουλειά έχει γίνει στην Ποσοτική σχέσης δομής-δραστικότητας (QSAR) προσεγγίσεις για την πρόβλεψη της δραστηριότητας ολόκληρου κυττάρου των μορίων βάσει των χημικών τους ιδιοτήτων [13] – [16]., συμπεριλαμβανομένων των εφαρμογών για την πρόβλεψη αντικαρκινική δράση σε φάρμακα [17], [18]. Ωστόσο, τέτοιες προσεγγίσεις QSAR βασίζεται αποκλειστικά σε χημικά χαρακτηριστικά που δεν μπορούν να διακρίνουν μεταξύ ανθεκτικά και ευαίσθητα κυτταρικές σειρές. Για παράδειγμα, η κατασκευή ενός μοντέλου χωρίς οποιαδήποτε πληροφορία από τις κυτταρικές γραμμές, το μοντέλο θα είναι μη ικανά να προβλέπουν κυτταρικής γραμμής Α να είναι πιο ανθεκτικά από κυτταρική γραμμή Β στο φάρμακο C, που είναι ο κύριος στόχος της ενσωμάτωσης χημικών και γονιδιωματικών χαρακτηριστικών σε μας μοντέλα.

ως εκ τούτου, παρατείνεται μοντέλα μηχανικής μάθησης μας για να συμπεριλάβει ως χημικά είσοδο χαρακτηριστικά από τα φάρμακα, εκτός από το μοριακό χαρακτηρισμό των κυτταρικών σειρών (βλέπε Εικόνα 1). Αυτή η ολοκληρωμένη προσέγγιση ενσωματώνει όχι μόνο δύο συμπληρωματικές ροές των πληροφοριών, αλλά και επιτρέπει στο μοντέλο να εκπαιδευτεί με πολύ μεγαλύτερες ποσότητες δεδομένων, τα οποία είναι συχνά ένας παράγοντας κλειδί για τη βελτίωση της πρόβλεψης των επιδόσεων (βλέπε σχήμα 2). Ως εκ τούτου, τα δεδομένα προ-επεξεργασία για να περιλαμβάνει 689 χημικές παράμετροι για τα ναρκωτικά και 138 γονιδιωματικής δυνατότητες για διαφοροποίηση των κυτταρικών σειρών, με αποτέλεσμα ένα χώρο εισόδου των 827 χαρακτηριστικών

Η μέθοδος μας βασίζεται σε δύο διαφορετικά ρεύματα εισόδου.: (1) χαρακτηριστικά κυτταρική γραμμή των 77 ογκογονιδίων και την κατάσταση μετάλλαξης τους, (2) τα χαρακτηριστικά του φαρμάκου που δημιουργούνται με το λογισμικό PaDEL [19] από το σύστημα εισόδου γραμμής απλοποιημένη μοριακού εισόδου (χαμογελάει), βλέπε παράγραφο μέθοδο για λεπτομέρειες. Η συνεχής IC

50 αξία προβλεφθεί με state-of-the-art αλγόριθμοι μηχανικής μάθησης (νευρωνικά δίκτυα και τυχαία δάση).

Η

Οι επιδόσεις του μοντέλου σε πολλαπλά φάρμακα (κόκκινο αστερίσκο) και η οικογένεια του 111 μοντέλα μόνο φαρμάκου (μπλε ιστόγραμμα) εκπροσωπείται με τρεις διαφορετικές μετρήσεις: (Α) Pearson συσχέτιση R

p, (Β) συντελεστής προσδιορισμού R

2, και (Γ) της μέσης τετραγωνικής ρίζας RMSE σφάλμα.

Η

Χημική περιγραφείς δημιουργήθηκαν με το λογισμικό PaDEL [19] από το απλοποιημένο σύστημα εισόδου γραμμής μοριακού εισόδου (χαμογελάει) δομές. Περιγραφείς περιλαμβάνουν φυσικοχημικά χαρακτηριστικά όπως το βάρος, λιποφιλικότητα, κανόνας των πέντε ετών, και επιπλέον τα δακτυλικά αποτυπώματα των φαρμάκων (για λεπτομέρειες την ενότητα «Υλικά και Μέθοδοι» δούμε «Χαρακτηριστικά» εδαφίου, και https://padel.nus.edu.sg/software /padeldescriptor /).

για την οικοδόμηση μοντέλο μας, χρησιμοποιήσαμε τα δεδομένα ελέγχου GDSC από 608 γονιδίωμά χαρακτηρίζεται κυτταρικές σειρές και 111 φάρμακα, για τα οποία χημικών πληροφορίες ήταν διαθέσιμες (βλέπε σχήμα 2 και Μέθοδοι για λεπτομέρειες). Η δημοσιευμένη έκδοση αυτού του πίνακα κατέχει 38.930 IC

50 τιμές (~58% του συνόλου, λόγω τεχνικών και οργανωτικούς λόγους).

Πραγματοποιήσαμε μια 8-fold cross-επικύρωσης, όπου το σύνολο ελέγχου της κάθε πτυχής δεν χρησιμοποιήθηκε για την κατάρτιση, έτσι ώστε να μετρηθεί η προβλεπτική ικανότητα των προκυπτόντων μοντέλων σε όλες φάρμακα και όχι για κάθε φάρμακο ξεχωριστά. Νευρωνικά δίκτυα ήταν σε θέση να καταλογίσει λείπει log (IC

50) τιμές για τα σύνολα δοκιμής με ένα μέσο όρο συντελεστή συσχέτισης Pearson (R

p), συντελεστής προσδιορισμού (

R

2

) και ρίζα του μέσου τετραγωνικού σφάλματος (RMSE) (S1 Κείμενο) 0.85, 0.72 και 0.83 σε όλες τις 111 φάρμακα, αντίστοιχα (Σχήμα 3Α). Εναλλακτικά, τυχαία δάση επιτευχθεί συγκρίσιμες επιδόσεις (R

p 0,85,

R

2

0,72 και RMSE 0,84? Πλήρη στοιχεία στο συμπληρωματικό υλικό). Επιπλέον, πραγματοποιήσαμε μια τυφλή δοκιμή με τη χρήση 13.565 νέα πειραματική IC

50 τιμές που λαμβάνονται μόνο μετά την προπόνηση τα μοντέλα μας, προκειμένου να εξακριβώσει τα αποτελέσματα διασταυρωμένης επικύρωσης μας (ναρκωτικά-to-κυτταρική μήτρα γραμμή ενημερώθηκε από περίπου 18%, με αυτά που δημιουργήθηκε πρόσφατα IC

’50 χρησιμοποιούνται αποκλειστικά ως τυφλή ομάδα ελέγχου). Τα αποτελέσματα για την τυφλή δοκιμή ήταν σχεδόν τόσο καλή όσο στο διασταυρωμένης επικύρωσης, απόκτηση ενός Ε

p 0,79,

R

2

0,64 και RMSE 0,97 (Σχ S1, Κείμενο S2). Η ακρίβεια των προβλέψεων μας ενθάρρυνε να εκπαιδεύσει τα δίκτυα με λιγότερες IC

50 τιμές. Αξίζει να σημειωθεί ότι, η προβλεπτική ικανότητα των μοντέλων δεν έπεσε αισθητά μακριά στην ποιότητα, ακόμη και αν η ποσότητα των δεδομένων εκπαίδευσης μειώθηκε στο 20% του συνόλου (Σχήμα 3Β).

Οι προβλέψεις επιτυγχάνεται με 8 φορές σταυρό -validations. Οι τιμές απόδοσης που υπολογίζεται αποκλειστικά στα σύνολα δοκιμής. (Α) Συσχέτιση μεταξύ της προβλεπόμενης για την πειραματική παρατηρούμενη log (IC

50) τιμές (Pearson συσχέτιση R

p = 0,85? Συντελεστής προσδιορισμού R

2 = 0,72, μέση τετραγωνική ρίζα RMSE σφάλμα = 0,83). Παρά το γεγονός ότι υπάρχει ένας εμπλουτισμός της ανθεκτικές κυτταρικές σειρές, οι οποίες τείνουν να έχουν (50 IC

) τιμές υψηλότερες από ό, τι log ευαίσθητες κυτταρικές σειρές, το χαμηλότερο log (IC

50) οι τιμές εξακολουθούν να είναι αξιοπρεπώς προβλεφθεί. (Β) την αναμενόμενη βελτίωση της IC

50 πρόβλεψη συμπληρώνοντας πειραματικά κενά στο πλέγμα των κυττάρων-να-φάρμακο. Η κατακόρυφη γκρι γραμμή αντιστοιχεί με το δημοσιευμένο σύνολο δεδομένων (πληρούται στο ~58%, λόγω οργανωτικούς λόγους), το οποίο αντιστοιχεί στα αποτελέσματα του πίνακα (Α). Ωστόσο, παρόμοια ακρίβειες (R

p 0,84 αντί του 0,85, Ρ

2 0,70 αντί 0,72) μπορεί να επιτευχθεί με τη χρήση αποκλειστικά και μόνο το 20% του συνόλου της μήτρας.

Η

Χρησιμοποιώντας ένα ανάλυση διακύμανσης (ANOVA) για να προσδιορίσετε το φάρμακο-to-ογκογονίδιο ενώσεις, ερευνήσαμε το πόσο καλά το IC

50 τιμές προβλέπεται για το σύνολο της δοκιμής χρησιμοποιώντας το μοντέλο μας Ανακεφαλαιώνοντας ενώσεις που εκδηλώνεται με τα πειραματικά δεδομένα, για παράδειγμα, εάν μια δεδομένη μετάλλαξη είναι προκαλώντας ευαισθησία ή αντίσταση έναντι ενός φαρμάκου [3]. Χρησιμοποιώντας μόνο προέβλεψε IC

50 τιμές, εμείς σωστά κατέλαβε το 79% (168/213) των σημαντικών παρατηρήσεων με την ίδια τάση t-test (θετική ή αρνητική επίδραση στην ευαισθησία των ναρκωτικών) ταυτίζεται με την πειραματική IC

’50. Κατά την εξέταση μόνο σημαντικές συσχετίσεις από το μοντέλο (p-value ρυθμίζεται με Benjamini-Hochberg, FDR = 0.2) μας, έχουμε προβλέψει σωστά το 28% (59/213) όλων των πειραματικά προσδιορίζονται ενώσεις. Εκεί που απέτυχαν να ανιχνεύσουν τη σύνδεση το μέγεθος της επίδρασης ANOVA είναι συχνά μικρές, ή η πειραματική συσχέτιση συνδέεται με μια μετάλλαξη είτε όχι, ή σπάνια εκπροσωπούνται στο υποσύνολο των κυτταρικών σειρών με προβλεπόμενη IC

50 τιμές. Αξίζει να σημειωθεί ότι, όπως παράδειγμα της χρησιμότητας αυτής της προσέγγισης, χρησιμοποιώντας προέβλεψε μόνο IC

50 τιμές εντοπίσαμε γνωστό φάρμακο-to-ογκογονίδιο ενώσεις, όπως η ευαισθησία του

BRAF

-mutated κύτταρα γραμμές για

MEK1 /2

-inhibitors (Εικόνα 4Β) [20]. Το εύρος της προβλεπόμενης IC

50 τιμές για ένα φάρμακο είναι συνήθως πιο περιορισμένο από ό, τι για τις παρατηρούμενες τιμές και είναι πιθανό, επειδή προς το παρόν διαθέσιμες γονιδιωματικής σύνολο δεδομένων είναι επαρκής για να εξηγήσει την παρατηρούμενη φάσμα των απαντήσεων των ναρκωτικών σε όλες τις κυτταρικές σειρές.

(Α) Ανάλυση διακύμανσης (ANOVA) των πειραματικών δεδομένων και προβλεπόμενη απόδοση για τα ναρκωτικά-to-ογκογονίδιο ενώσεις (20% FDR). Το μέγεθος της κάθε σύνδεσης (dot) είναι ανάλογη προς την ποσότητα των επεξεργασμένων κυτταρικές γραμμές που περιέχουν το συγκεκριμένο μεταλλαγμένο ογκογονίδιο. Μπλε κουκκίδες που δείχνει το ίδιο t-test τάση στις προβλέψεις μας, και κόκκινα το αντίθετο. (Β) Προβλεπόμενη και μετράται IC

’50 του

BRAF

-mutated εναντίον κυτταρικές σειρές άγριου τύπου εκτίθενται στο

MEK1 /2

υγρή ατμόσφαιρα PD-0325901 (p-τιμή πρόβλεψη = 1.91 × 10

-05, t-τεστ πολλαπλών υπόθεση διορθωθεί με Benjamini & amp?. Hochberg)

η

Επιπλέον, εκτιμήσαμε την προβλεπτική ικανότητα του μοντέλου μας για άγνωστους κυτταρικές σειρές. Ως εκ τούτου, εφαρμόσαμε μια πιο αυστηρή 8 φορές διασταυρωμένης επικύρωσης, όπου μια κυτταρική γραμμή είτε περιλαμβάνονται στο τρένο ή δοκιμασία σύνολο. Αυτά τα μοντέλα πέτυχε R

p 0,82,

R

2

0,68 και RMSE 0,89 (Σχ S2) που αποδεικνύουν την ορθότητα του μοντέλου μας να προβλέψουμε IC

50 τιμές για εντελώς νέες κυτταρικές σειρές. Σε μία πρόσθετη προσομοίωση, αφήσαμε όλες τις καρκινικές κυτταρικές γραμμές από ένα συγκεκριμένο ιστό, π.χ. έχουμε αφαιρέσει όλα τα καρκίνο του πνεύμονα κυτταρικών σειρών (106 από 608 κυτταρικές σειρές) και εξακολουθεί να λαμβάνεται ένα R

p 0,79,

R

2

των 0,61 και RMSE 0,99 (Σχ S3).

Συζήτηση

τα αποτελέσματά μας δείχνουν ότι χρησιμοποιώντας γονιδιωματική χαρακτηριστικά από τις κυτταρικές σειρές και τα χημικά στοιχεία από τα ναρκωτικά, είναι δυνατό να οικοδομήσουμε

in silico

μοντέλα πολυ-φάρμακο για να καταλογίσει λείπει IC

50 τιμές με μη-παραμετρικές αλγόριθμους μηχανικής μάθησης, όπως τα νευρωνικά δίκτυα και τυχαία δάση. Δεδομένου ότι η παραγωγή για τη μέθοδο μας, επιλέξαμε να εξερευνήσετε τιμές IC50 όπως δημιουργείται από Garnett et al. [3], η οποία μας δίνει τη δυνατότητα να συγκρίνουν τα αποτελέσματά μας σε αυτούς, ωστόσο άλλες μετρήσεις (όπως ένα ανώτατο όριο IC50 ή την περιοχή κάτω από την καμπύλη), μπορεί να επιφέρει πρόσθετη διορατικότητα και ενδεχομένως να οδηγήσει σε πιο ισχυρή μοντέλα.

Η Pearson συσχέτιση (Εικ. 2Α) και συντελεστής προσδιορισμού (Σχ. 2Β) του μοντέλου σε πολλαπλά φάρμακα είναι σημαντικά καλύτερες από τα μοντέλα ενός μόνο φαρμάκου, ενώ το σφάλμα RMSE είναι παρόμοια (Σχήμα 2C). Αυτό σημαίνει ότι το σφάλμα (κατά μέσο όρο) για να προβλέψουμε μια δεδομένη τιμή IC50 είναι η ίδια στα μοντέλα πολυ-φαρμάκου και ενός μόνο φαρμάκου (RMSE) και, δεδομένου ότι ορισμένα φάρμακα είναι ενεργές σε διαφορετικές περιοχές συγκέντρωσης, το μοντέλο είναι σε θέση να καλύψει ένα πολύ μεγαλύτερο δυναμικό εύρος με παρόμοια ακρίβεια. Ο συντελεστής προσδιορισμού ισορροπεί αυτά τα δύο όρους, και έτσι ένα ευρύτερο φάσμα με την ίδια RMSE αυξάνει R

2. Χάρη στη χρήση των χημικών περιγραφέων, τα μοντέλα πολυ-φαρμάκου εκπαιδευτεί με όγκο δεδομένων που είναι δύο τάξεις μεγέθους μεγαλύτερο από τα στοιχεία για την εκπαίδευση κάθε μοντέλο ενός μόνο φαρμάκου. Αυτό το μεγαλύτερο βάρος του συνόλου δεδομένων η δυσκολία στην κατάρτιση ετερογενή τιμές ανταπόκρισης σε όλη φάρμακα.

Σε αρκετές περιπτώσεις, η χρήση των μοντέλων σε πολλαπλά φάρμακα επιτρέπεται η

in silico

ταυτοποίηση του γονιδιακού γεγονός που να σχετίζεται με αλλαγμένη ευαισθησία των ναρκωτικών , η οποία είναι δυνατή μόνο όταν θεωρούνται γονιδιωματικής ιδιότητες.

Αν και τα μοντέλα μας δεν συλλαμβάνει όλη γνωστό γονίδιο στις ενώσεις των ναρκωτικών, αναμένουμε ότι όσο μεγαλύτερη ευαισθησία των ναρκωτικών και της γονιδιωματικής σύνολα δεδομένων είναι διαθέσιμα τα επόμενα χρόνια την προγνωστική δύναμη αυτών των μοντέλα θα αυξηθεί. Πιστεύουμε ότι η προβλεπτική ικανότητα των μοντέλων μας οφείλεται στον μεγάλο αριθμό κυτταρικών γραμμών και ευρύ φάσμα φαρμάκων στον πίνακα GDSC ότι τα δείγματα εντατικά η χημική χώρος κοινά φάρμακα καρκίνου (χημειοθεραπευτικά και αναστολείς κινάσης). Απομένει να καθοριστεί πώς αυτά τα μοντέλα θα προβλέψει εντελώς άγνωστη οικογένειες των θεραπευτικών παραγόντων.

Η προβλεπτική ικανότητα των μεθόδων μας για μεμονωμένες τιμές είναι ακόμη περιορισμένη και θα μπορούσε να βελτιωθεί περαιτέρω με την επέκταση το σύνολο των εισροών διαθέτει με πρόσθετες στρώσεις τον μοριακό χαρακτηρισμό των κυτταρικών γραμμών, όπως βασική προφίλ μεταγραφικές και phosphoproteomic δεδομένων. Αυτοί οι τύποι δεδομένων έχουν χρησιμοποιηθεί για την πρόβλεψη αποκρίσεων φαρμάκου σε διάφορα πλαίσια [21] – [24]. Ένα άλλο πολύτιμο επέκταση θα μπορούσε να είναι η συμπερίληψη των δεδομένων γονιδιακής έκφρασης μετά από φαρμακευτική αγωγή, ένα ισχυρό

in silico

πόρων για την πρόβλεψη των αποτελεσμάτων της θεραπείας και την αποσαφήνιση τρόπος ένωση της δράσης [25], [26], καθώς και μια πολλά υποσχόμενη πύλη στον εντοπισμό νέων ευκαιριών επανατοποθέτηση των ναρκωτικών [27]. Επιπλέον, τα δεδομένα επιγενετική θα μπορούσε να ενισχύσει τις δυνατότητες πρόβλεψης των μελλοντικών μεθόδους [28].

Η μέθοδος μας χρησιμοποιεί καθαρά πειραματικά δεδομένα, αλλά επιπλέον προβλεπτική ικανότητα μπορεί να αναμένεται από συμπεριλαμβανομένης της γνώσης του υποκείμενου δικτύου [29]. Έχει αποδειχθεί ότι η πρόβλεψη της απόκρισης του φαρμάκου και τον τρόπο δράσης από μεταγραφικού προφίλ ενισχύεται σημαντικά όταν συνδυαστεί με γνωστά εκ των προτέρων τα δίκτυα γονιδίων και πρωτεϊνών [30], [31] και τις ομοιότητες φαρμάκου έχουν συναχθεί με βάση το αντίστοιχο

in silico

προέβλεψε έλθουν σε επαφή οδού [32]. Προηγούμενη γνώση θα μπορούσε επίσης να αυξήσει την interpretability των αποτελεσμάτων. Γνωστές ρυθμιστικές σχέσεις μεταξύ των γονιδίων και μεταγραφικών στοιχείων [33] και τα δίκτυα πρωτεΐνη [34] μπορεί να χρησιμοποιηθεί για τον εντοπισμό απελευθερωμένη οδούς, και να συνδέονται περαιτέρω προς τις γονιδιωματικές μεταβολές που τους [35] οδηγούν, τονίζοντας υποδίκτυα σημασία για απόκριση στο φάρμακο.

η ενσωμάτωση αυτών των επιπλέον χαρακτηριστικά θα απαιτήσει ένα σύστημα για να δοθεί προτεραιότητα στην είσοδο χαρακτηριστικά με βάση τις επιπτώσεις τους στο τελικό εκπαιδευμένο μοντέλο. Συσχετίσεις μεταξύ των χαρακτηριστικών και των αποτελεσμάτων θα μπορούσε να παρουσιαστεί ρητά με την ενσωμάτωση στα μοντέλα μας διαθέτουν επιλογές κριτηρίων και των τεχνικών μείωσης διάστασης.

Από την άποψη των μοντέλων πρόβλεψης, έχουμε χρησιμοποιήσει πρότυπες μεθόδους μηχανικής μάθησης (νευρωνικά δίκτυα και τυχαία δάση), δεδομένου ευελιξία και την ευρωστία τους ως μοντέλα πρόβλεψης. Ένα γόνιμο έδαφος για περαιτέρω έρευνα διερευνά την εφαρμογή άλλων τεχνικών μοντελοποίησης, συμπεριλαμβανομένων γραμμικές μέθοδοι παλινδρόμησης (π.χ. Λάσο ElasticNets).

Τα αποτελέσματά μας δείχνουν επίσης ότι μπορεί κανείς να εκτιμήσει την ακρίβεια της πρόβλεψης για διαφορετικούς βαθμούς σπανιότητα στην τα δεδομένα, τα οποία μπορεί να έχουν χρησιμότητα κατά το σχεδιασμό των πειραμάτων όπου η κάλυψη πρέπει να εξισορροπηθεί με ακρίβεια. Επιπλέον, επειδή τα μοντέλα είναι σε θέση να προβλέψει IC

50 σε κυτταρικές σειρές που δεν έχουν ακόμη προβληθεί, προβλέψεις από τα μοντέλα αυτά μπορούν να χρησιμοποιηθούν για να αποφασίσει αν αξίζει την επέκταση του πίνακα των κυτταρικών σειρών, ή μάλλον επικεντρωθεί σε λίγες επιλεγμένες αυτές.

Οι επιπτώσεις των αποτελεσμάτων μας πάει πέρα ​​από τη χρησιμότητά τους για τη βελτιστοποίηση του πειραματικού σχεδιασμού των προβολών των ναρκωτικών. Μόλις ένα μοντέλο είναι χτισμένο, θα μπορούσε να χρησιμοποιηθεί για τον έλεγχο συστηματικά τη δυνητική επίδραση των νέων φαρμάκων

in silico

, βασίζεται σε χημικά χαρακτηριστικά και την ομοιότητα τους. Αυτές οι προβλέψεις μπορούν να βοηθήσουν για να αξιολογηθεί η πιθανή δραστικότητα των νέων φαρμάκων, π.χ. από μεγάλες χημικές συλλογές, να υποβληθούν σε διαλογή. Επιπλέον, οι προβλέψεις για κλινικά εγκεκριμένα φάρμακα αναμένεται να αποκαλύψει τους υποψηφίους για αναπροσανατολισμό των ναρκωτικών και ενδεχομένως προσδιορίσει συγκεκριμένη ασθένεια υπο-τύποι που θα είναι πιο δεκτικά [8]. Αν και κυτταρικές σειρές δεν είναι ένα ακριβές αντίγραφο του πραγματικού όγκων, ολοκληρωμένη μοντέλα πρόβλεψης, όπως η δική μας, μαζί με εκτεταμένη γονιδιωματική και Γενετικής σύνολα δεδομένων μπορεί να είναι μια καλή προσέγγιση για να διευκολύνει την ανάπτυξη νέων θεραπευτικών στρατηγικών προσαρμοσμένων στις ατομικές ασθενείς [12].

Υλικά και Μέθοδοι

συνόλου δεδομένων Εκπαίδευση

Χρησιμοποιήσαμε τα δεδομένα από τις Γονιδιωματική των ναρκωτικών Ευαισθησία στον καρκίνο του έργου [3], το οποίο περιέχει 639 καρκινικές κυτταρικές σειρές, το καθένα από αυτά χαρακτηρίζονται από ένα σύνολο γονιδιωματική χαρακτηριστικά (λεπτομέρειες στην επόμενη ενότητα). Ο χαρακτηρισμός δεν έχει ολοκληρωθεί για κάθε κυτταρική σειρά, και ως εκ τούτου θα φιλτράρονται κυτταρικές σειρές με περισσότερα από 15 λείπει γονιδιωματικής χαρακτηριστικά, η οποία μείωσε το σύνολο των επιλεγμένων κυτταρικών σειρών από 639 έως 608. Το σύνολο δεδομένων περιλαμβάνει 131 φάρμακα. Καθώς η μέθοδός μας εκμεταλλεύεται τη χημική δομή του κάθε φαρμάκου, αυτή η πληροφορία απαιτείται στο απλοποιημένο σύστημα εισόδου γραμμής μοριακού εισόδου (χαμογελάει) μορφή. Ως εκ τούτου, δεν είχαμε εξετάσει τα 20 φάρμακα για τα οποία SMILES δεν ήταν διαθέσιμα, και χτίστηκε το μοντέλο μας για τις υπόλοιπες 111 φάρμακα.

Η προκύπτουσα μήτρα των 608 κυτταρικές σειρές από 111 φάρμακα θα έχει 67.488 το δυνατόν καμπύλες απόκρισης του φαρμάκου, κάθε συνοψίζεται από IC

50 τιμή του (συγκέντρωση φαρμάκου σε μονάδες μΜ απαιτούνται για την εξάλειψη του 50% των καρκινικών κυττάρων). Επί του παρόντος, το σύνολο δεδομένων περιέχει 38.930 IC

50 τιμές από αυτές τις 67.488 (58%), με τιμές που λείπουν ως επί το πλείστον οφείλεται σε οργανωτικούς λόγους, όπως οι μετρήσεις συντονιστικό από διάφορα κέντρα διαλογής. Το log IC

50 κυμαίνεται από -7,40 (IC

50~4 • 10

-8 Μ? Ο συνδυασμός πιο ευαίσθητο φάρμακο-κυττάρων) σε 6,91 (IC

50~8 • 10

6 M? το πιο ανθεκτικό). Σημειώστε ότι είναι εξαιρετικά μεγάλες και μικρές τιμές είναι προεκτάσεις στο IC

50 που δεν έχουν κλινική σημασία. Χρησιμοποιούμε αυτές τις σειρές σε αυτή τη μελέτη ως εκείνοι είναι αυτοί που χρησιμοποιούνται στο χαρτί Garnett et al. [3] που συγκρίνουμε τα αποτελέσματά μας κατά.

Blind σύνολο δεδομένων δοκιμής

Εμείς δημιουργούνται σύνολα δοκιμών κατά τη διάρκεια της διασταυρωμένης επικύρωσης για την εκτίμηση του αναμενόμενου σφάλματος (λεπτομέρειες στην ενότητα διασταυρωμένης επικύρωσης). Ωστόσο, ακόμη και διασταυρωμένης επικύρωσης μπορεί να υπερεκτιμούν την προοπτική απόδοσης των μεθόδων μηχανικής μάθησης. Ως εκ τούτου, πραγματοποιήσαμε μια πραγματικά τυφλή δοκιμή, προκειμένου να αποδείξουν τις ικανότητες τους υποψήφιους της πολλαπλής επικυρωμένα μοντέλα μας να καταλογίσει λείπουν τιμές IC50 στις κυτταρικές σειρές 608 από 111 μήτρα φάρμακα (Σχ S1). τυφλή δοκιμή μας περιέχει 13.565 που δημιουργήθηκε πρόσφατα IC

50 αξίες, οι οποίες ελήφθησαν μετά την προπόνηση έλαβε χώρα, ή να το θέσω διαφορετικά, μια παρτίδα των νέων πειραματικών δεδομένων που δημιουργούνται για την επικύρωση ανεξάρτητα μοντέλα μας. Για να συνοψίσω, το 58% των IC

50 τιμές είναι στο αρχικό σύνολο δεδομένων (που χρησιμοποιείται για cross-επικύρωση), ένα επιπλέον 18% χρησιμοποιούνται για την τυφλή δοκιμή (ανεξάρτητη δοκιμή).

Χαρακτηριστικά

υπάρχουν δύο διαφορετικά ρεύματα δεδομένων εισόδου σε μέθοδο μας: η γονιδιωματική φόντο για κάθε κυτταρική σειρά καρκίνου, και οι χημικές ιδιότητες ενός φαρμάκου. Για το πρώτο ρεύμα δεδομένων εισόδου, οι κυτταρικές γραμμές καρκίνου που χαρακτηρίζεται από την μεταλλακτική κατάσταση του 77 ογκογονίδια, όπου καθένα από αυτά περιγράφεται περαιτέρω με μεταβολή του αριθμού αντιγράφων (οποιαδήποτε ενίσχυση υψηλού βαθμού ή ομόζυγη διαγραφή ενός γονιδίου καρκίνου) και παραλλαγής αλληλουχίας (αλλαγές στην η αλληλουχία πρωτεΐνης, π.χ. μη συνώνυμες πολυμορφισμού ενός νουκλεοτιδίου). Επιπλέον, υπάρχει ένα δυαδικό χαρακτηριστικό για το καθεστώς σταθερότητα μικροδορυφόρου από κάθε κυτταρική σειρά. Τα χαρακτηριστικά κυτταρική σειρά κωδικοποιούνται ως ακολούθως:

Κατάσταση Μικροδορυφορικοί αστάθεια

παραλλαγή Ακολουθία

Αντιγραφή παραλλαγή αριθμό

Όλοι οι μεταλλάξεις που θεωρούνται, έχουμε 77 πιθανές αντίγραφο αριθμός παραλλαγές συν 77 πιθανές παραλλαγές ακολουθίας και την αξία της σταθερότητας ενός μικροδορυφόρων, που συνοψίζει σε 155 πιθανά χαρακτηριστικά κυτταρική σειρά. Ωστόσο, είναι μερικά μεταλλάξεων χαρακτηριστικά που λείπουν για ορισμένες κυτταρικές σειρές, και συντηρητικά αφαιρεθεί ένα χαρακτηριστικό σε περίπτωση που έλειπε για κάθε κυτταρική σειρά. Αυτό οδήγησε σε ένα τελικό σύνολο 138 γονιδιωματικής χαρακτηριστικά που χαρακτηρίζουν κάθε κυτταρική σειρά καρκίνου.

Η δεύτερη ροή δεδομένων εισόδου ενσωματώνει 1D και 2D χημικές ιδιότητες του κάθε φαρμάκου. Δημιουργήσαμε αυτά τα χημικά χαρακτηριστικά χρησιμοποιώντας το λογισμικό PaDEL (v2.11, κατεβάσει από την ιστοσελίδα του έργου, https://padel.nus.edu.sg/software/padeldescriptor/) [19] από τα χαμόγελα με τις προεπιλεγμένες ρυθμίσεις. 722 χαρακτηριστικά είναι φυσικοχημικές περιγραφείς και 881 λαμβάνονται από τα δακτυλικά αποτυπώματα, που οδηγεί σε ένα σύνολο 1603 χημικά χαρακτηριστικά. Συμπεριλάβαμε μόνο χημικά χαρακτηριστικά που θα μπορούσαν να υπολογίζεται για όλα τα φάρμακα. Επιπλέον, αφαιρείται κάθε δυνατότητα με την ίδια τιμή σε όλες τις ναρκωτικά, την απόκτηση τελικό σύνολο των 689 χημικών χαρακτηριστικών για κάθε φάρμακο (π.χ. άτομο μετράνε, μετράνε ομολόγων, το μοριακό βάρος, XlogP ή PubChem δακτυλικών αποτυπωμάτων, για να αναφέρουμε μερικά). Ο κατάλογος των φαρμάκων που είναι διαθέσιμη στο συμπληρωματικό υλικό (Πίνακας S1).

Λαμβάνοντας μαζί την κυτταρική σειρά καρκίνου και των ναρκωτικών ρεύμα, χρησιμοποιήσαμε 827 χαρακτηριστικά για την κατασκευή μοντέλων πρόβλεψης μας του log IC

50 αξία των μια δεδομένη κυτταρική σειρά με την παρουσία ενός δεδομένου φαρμάκου.

Cross-επικύρωσης

Χρησιμοποιήσαμε ένα 8-πλάσια διασταυρούμενης επικύρωσης για την κατασκευή των μοντέλων. Ως εκ τούτου, χωρίσαμε το αρχικό σύνολο δεδομένων σε οκτώ ίσου μεγέθους συνόλων IC

50 τιμές, που λαμβάνονται από τη διανομή τυχαία όλα τα IC

’50 της μήτρας σε 8 κάδους. Ένας από αυτούς είχε χρησιμοποιηθεί αποκλειστικά για τη δοκιμή (δεν συμμετέχει σε καμία κατάρτιση), άλλα έξι προορίζονταν για την εκπαίδευση του μοντέλου και το υπόλοιπο κομμάτι χρησιμοποιήθηκε για cross-κατάρτιση. Cross-επικύρωση είναι μια διαδικασία που χρησιμοποιείται για να αποφύγουν την ελλιπή ή υπερπροσαρμογής [36] π.χ. τον προσδιορισμό του βέλτιστου αριθμού των κρυφών μονάδων και κατάρτισης επαναλήψεις για ένα νευρωνικό δίκτυο (λεπτομέρειες στο κεφάλαιο «Μηχανική μάθηση»). Εμείς περιστρέφεται επαναληπτικά τα σύνολα έτσι ώστε κάθε σημείο δεδομένων χρησιμοποιήθηκαν τουλάχιστον μια φορά για την εκπαίδευση, cross-εκπαίδευση ή τη δοκιμή. Τέλος, λαμβάνεται 8 μοντέλα, τα οποία ήταν εξίσου προγνωστική.

Επιπλέον, χρησιμοποιήσαμε ένα αυστηρότερο εκδοχή της παραπάνω περιγραφόμενης 8-πλάσια διασταυρούμενης επικύρωσης. Διασφαλίσαμε ότι δοκιμής, το τρένο και το σύνολο διασταυρούμενης τρένο δεν μοιράζονται καμία κυτταρική γραμμή, η οποία θα μπορούσε να συμβεί στην μη-αυστηρή εκδοχή (που περιγράφεται παραπάνω). Για παράδειγμα, ας υποθέσουμε κυτταρική σειρά C1 κατεργάζεται με τα φάρμακα D1, D2 και D3? Για τη μη αυστηρή διασταυρωμένης επικύρωσης, ο συνδυασμός C1-D1, C1-D2 και C1-D3 μπορεί να διανεμηθεί πάνω από δοκιμή, το τρένο και το σύνολο διασταυρούμενης τρένο? για την αυστηρή διασταυρωμένης επικύρωσης, κάθε συνδυασμός με C1 αποκλειστικά συμβαίνουν σε μία από τις τρεις σειρές.

Μηχανική Μάθηση

Για τα νευρωνικά δίκτυα, χρησιμοποιήσαμε την εφαρμογή Java από Encog 3.0.1 (https://www.heatonresearch.com/encog) [37], [38] ενός perceptron feed-forward πολλαπλών στρώμα, όπου θα ορίζονται τρία διαφορετικά επίπεδα: εισροών, κρυφές (ή μεσαίο) και το στρώμα εξόδου. Κάθε perceptron του ενός στρώματος είναι τελείως συνδεδεμένα μεταξύ perceptron του ανώτερου στρώματος. Ο αριθμός των χαρακτηριστικών καθορίζεται ο αριθμός των μονάδων εισόδου, ή να το θέσω διαφορετικά, απαιτείται perceptrons στο πρώτο στρώμα. Ο αριθμός των κρυμμένων μονάδων εξερευνήθηκε κατά τη διάρκεια της κατάρτισης για τον καθορισμό το σωστό μοντέλο πολυπλοκότητα, η οποία ήταν μεταξύ 1 και 30 κρυφές μονάδες. Επιπλέον, κάθε εισόδου και κρυφή μονάδα είχε επίσης μια προκατάληψη, η οποία είναι μια μόνιμη είσοδος ενεργοποίησης για τα εν λόγω perceptrons. Χρησιμοποιήσαμε μια ενιαία μονάδα εξόδου για την πρόβλεψη της συνεχούς καταγραφής (

50 IC) αξία.

Ως συνάρτηση ενεργοποίησης perceptron για να μπορεί το δίκτυο να προβλέψουμε μη γραμμική συμπεριφορά, χρησιμοποιήσαμε την λειτουργία σιγμοειδές, η οποία επιστρέφει τιμές σε ένα διάστημα από 0 έως 1. Ως εκ τούτου, θα έπρεπε να ομαλοποιήσει τις IC

50 τιμές (πρώτες IC

50 αξίες, όχι στο χώρο καταγραφής) και σε μια σειρά 0-1, η οποία έγινε με την ακόλουθη υλικοτεχνική-όπως λειτουργία:

:. Παρατηρήθηκε /αναμενόμενη τιμή IC50, η οποία πρέπει να είναι ένας θετικός αριθμός μεγαλύτερος από το μηδέν

Έχουμε εκπαιδευτεί το δίκτυο με την εφαρμογή ελαστικό ανάστροφης διάδοσης σφάλματος από Encog με τις προεπιλεγμένες παραμέτρους [39]. Για να εξερευνήσετε το τελικό μοντέλο πολυπλοκότητα, η οποία περιγράφεται από τον αριθμό των κρυφών μονάδων και την ποσότητα των επαναλήψεων κατάρτισης, εξετάσαμε διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων, από την 1η έως τις 30 κρυμμένες μονάδες και τους εκπαίδευσε για μέγιστη 400 επαναλήψεις. Ψάξαμε το ολικό ελάχιστο στο εν λόγω πολλαπλή κατάρτισης τοπίο (ελαχιστοποιώντας το σφάλμα ρίζας μέσου τετραγώνου της πολλαπλής σύνολο εκπαίδευσης) για την αποφυγή μιας επιχείρησης ή overfitting (συνήθως μεταξύ 21 και 27 κρυφές μονάδες επελέγησαν ως καλύτερο μοντέλο μετά από περίπου 300 επαναλήψεις).

επίσης, πραγματοποιούνται τυχαία δάσος [40] μοντέλα παλινδρόμησης για να διερευνήσει κατά πόσον υπήρξε κάποια σημαντική αύξηση των επιδόσεων χρησιμοποιώντας μια εναλλακτική μη-παραμετρική μέθοδο μηχανικής μάθησης (Κείμενο S3). Μια τυχαία δάσος είναι ένα σύνολο από πολλά διαφορετικά δέντρα παλινδρόμησης που δημιουργείται τυχαία από τα ίδια δεδομένα εκπαίδευσης (συνιστώμενη τιμή του n = 500 δέντρα χρησιμοποιήθηκε).

Δεδομένα

πρόσβαση

Το σύνολο των δεδομένων είναι πλήρως προσβάσιμο από

You must be logged into post a comment.