You must be logged into post a comment.
Αφηρημένο
Ο καρκίνος έχει αναγνωρίζεται όλο και περισσότερο ως μια ασθένεια η βιολογία συστημάτων, δεδομένου ότι πολλές έρευνες έχουν δείξει ότι αυτή η κακοήθη φαινότυπο προκύπτει από ανώμαλη πρωτεΐνης-πρωτεΐνης, κανονιστικών και μεταβολικών αλληλεπιδράσεων που προκαλείται από την ταυτόχρονη διαρθρωτικές και κανονιστικές αλλαγές σε πολλαπλά γονίδια και μονοπάτια. Ως εκ τούτου, ο προσδιορισμός του ογκογόνου αλληλεπιδράσεων και των δικτύων σηματοδότησης που σχετίζονται με τον καρκίνο είναι ζωτικής σημασίας για την καλύτερη κατανόηση του καρκίνου. Όπως πειραματικές τεχνικές για τον προσδιορισμό αυτών των αλληλεπιδράσεων και σηματοδότησης δίκτυα είναι και χρονοβόρα υψηλής έντασης εργατικού δυναμικού, η ανάπτυξη μιας υπολογιστικής προσέγγισης σε θέση να εκπληρώσει την αποστολή αυτή θα είναι μεγάλης αξίας. Για το σκοπό αυτό, παρουσιάζουμε εδώ μια νέα υπολογιστική προσέγγιση που βασίζεται στην τοπολογία του δικτύου και μηχανικής μάθησης σε θέση να προβλέψει ογκογόνους αλληλεπιδράσεις και να εξαγάγετε τις σχετικές σχετίζονται με τον καρκίνο υποδίκτυα σηματοδότησης από ένα ολοκληρωμένο δίκτυο γονιδίων αλληλεπιδράσεων ανθρώπου (
INHGI
). Αυτή η προσέγγιση, που ονομάζεται
graph2sig
, είναι διπλός: πρώτον, αναθέτει ογκογόνο βαθμολογίες σε όλες τις αλληλεπιδράσεις του
INHGI
και, στη συνέχεια, αυτές οι ογκογόνων βαθμολογίες που χρησιμοποιείται ως βάρη άκρη για να εξαγάγετε ογκογόνο υποδίκτυα σηματοδότηση από
INHGI
. Όσον αφορά την πρόβλεψη των ογκογόνων αλληλεπιδράσεων, δείξαμε ότι
graph2sig
είναι σε θέση να ανακτήσει το 89% των γνωστών ογκογόνων αλληλεπιδράσεις με ακρίβεια 77%. Επιπλέον, οι αλληλεπιδράσεις που ελάμβαναν υψηλές βαθμολογίες ογκογόνο εμπλουτισμένο σε γονίδια για τα οποία οι μεταλλάξεις έχουν αιτιολογικά εμπλακεί στον καρκίνο. Δείξαμε επίσης ότι
graph2sig
είναι δυνητικά χρήσιμα στην εξόρυξη ογκογόνο υποδίκτυα σηματοδότησης: περισσότερο από το 80% της κατασκευασμένης υποδίκτυα περιέχουν περισσότερο από 50% του αρχικού αλληλεπιδράσεων στην αντίστοιχη τους ογκογόνους γραμμικές πορείες παρόντες στη βάση δεδομένων ΜΟΝΟΠΑΤΙ KEGG. Επιπλέον, οι εν δυνάμει ογκογόνο υποδίκτυα σηματοδότησης ανακαλύφθηκε από τον
graph2sig
υποστηρίζονται από πειραματικές αποδείξεις. Στο σύνολό τους, τα αποτελέσματα αυτά δείχνουν ότι
graph2sig
μπορεί να είναι ένα χρήσιμο εργαλείο για τους ερευνητές που εμπλέκονται στην έρευνα για τον καρκίνο που ενδιαφέρονται για την ανίχνευση δικτύων σηματοδότησης πιο επιρρεπείς να συμβάλει με την εμφάνιση κακοήθους φαινοτύπου
Παράθεση:. Acencio ML, Bovolenta LA, Camilo E, Lemke Ν (2013) Πρόβλεψη των ογκογόνων Αλληλεπιδράσεις και σχετίζονται με τον καρκίνο Σηματοδοσίας Δίκτυα βάση την τοπολογία δικτύου. PLoS ONE 8 (10): e77521. doi: 10.1371 /journal.pone.0077521
Επιμέλεια: Julio Βέρα, του Πανεπιστημίου του Erlangen-Νυρεμβέργης, Γερμανία
Ελήφθη: 1 Απριλίου, 2013? Αποδεκτές: 3 Σεπ 2013? Δημοσιεύθηκε: 25 Οκτωβρίου 2013
Copyright: © 2013 Acencio et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται
Χρηματοδότηση:. Αυτό το έργο έχει υποστηριχθεί από επιχορηγήσεις # 2010/20684 έως 3, # 2012/13450 με 1, # 2012/00741 έως 8 και # 2013/02018-4 από το Ίδρυμα Σάο Πάολο Έρευνας. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου
Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα
Εισαγωγή
Ο φαινότυπος του καρκίνου οδηγείται από την ταυτόχρονη έκφραση των έξι βιολογικών δυνατοτήτων: αυτάρκεια σε σήματα ανάπτυξης, έλλειψη ευαισθησίας σε antigrowth σήματα, αποφυγή της απόπτωσης, που υπέστησαν αγγειογένεση, απεριόριστες δυναμικό αντιγραφής και ιστών εισβολή και τη μετάσταση [1] . Όλα αυτά τα «χαρακτηριστικά του καρκίνου» προκύψουν ως αποτέλεσμα της πολύπλοκης αλληλεπίδρασης μεταξύ ογκογόνα σήματα που είναι σύνολα διαδοχικών φυσικές και βιοχημικές αντιδράσεις, δηλαδή φωσφορυλίωση, αποφωσφορυλίωση, η δέσμευση, διάσταση κλπ, που ενεργοποιούνται από ογκογονίδια ή γονίδια καταστολής όγκων και κορυφώνονται στην έκφραση των θεμελιωδών αλλαγών κυττάρου φυσιολογία που σχετίζονται με την κακοήθη φαινότυπο.
σε γενικές γραμμές, ογκογόνα σήματα διαταράσσουν τις κανονικές αλληλεπιδράσεις όσο αυτά τα σήματα διαδίδονται μέσω του δικτύου σηματοδοσίας. Για παράδειγμα, η υπερέκφραση του
CCND1
, ένα γονίδιο το οποίο είναι ένας σημαντικός ρυθμιστής σε εξέλιξη του κυτταρικού κύκλου, είναι το αποτέλεσμα της συστατικής ογκογόνου σηματοδότησης ενεργοποιούνται από μεταλλαγμένο KRAS σε πολλά καρκινικά κύτταρα [2]. Οι αλληλεπιδράσεις κατάντη προς ανάντη KRAS και να CCND1 διαταραχθεί και, κατά συνέπεια,
CCND1
υπερεκφράζεται. Ωστόσο, η υπερέκφραση του CCND1 από μόνη της δεν είναι αρκετή για να οδηγήσει ογκογόνο μετασχηματισμό μέσω της αυτάρκειας σε σήματα ανάπτυξης υποστηρίζεται από μεταλλαγμένο KRAS. Αντ ‘αυτού, οι πρόσθετες ογκογόνα σήματα τροποποιήσεως διακίνηση πυρηνικών υλικών και διαμεσολαβείται από την ουβικουϊτίνη πρωτεόλυση που απαιτείται για την προώθηση της πυρηνικής διατήρηση υπερεκφρασμένης CCND1 [3], η κατάσταση του οποίου η συνεχής πολλαπλασιασμός των κυττάρων, ένα από τα χαρακτηριστικά που απαιτούνται για μια πλήρη κακοήθη μετασχηματισμό, μπορεί να είναι υπέστησαν.
το προαναφερθέν παράδειγμα ενισχύει το γεγονός ότι ένα φυσιολογικό κύτταρο θα μετατραπεί σε ένα καρκινικό κύτταρο μόνο εάν πολλαπλές κανονικές αλληλεπιδράσεις ταυτόχρονα διαταραχθεί από πολλαπλούς ογκογόνα σήματα. Από αυτή την άποψη, ο προσδιορισμός της ογκογόνου ρόλου των μεμονωμένων γονιδίων ή πρωτεϊνών είναι ανεπαρκής για να αποκρυπτογραφήσει τις περιπλοκές των μονοπατιών σηματοδότησης που εμπλέκονται στον καρκίνο. Ο προσδιορισμός των ογκογόνων ρόλος των γονιδίων και των πρωτεϊνών σε ένα επίπεδο συστήματα, από την άλλη πλευρά, θα ήταν προτιμότερο για το σκοπό αυτό και, ως πραγματικότητα, τα συστήματα έχουν προσεγγίσεις βιολογία βασίζονται σε πειστικά αποδειχθεί ότι είναι επιτυχής στην αποκάλυψη της λειτουργίας της καρκίνο οδών σηματοδότησης (για σχόλια σχετικά με τη βιολογία συστημάτων καρκίνο, βλέπε [4] και [5]).
Ο συνδυασμός της μηχανικής μάθησης και θεωρία γραφημάτων είναι ένα από τα συστήματα προσεγγίσεις βιολογίας που βασίζονται χρησιμοποιείται για να προσδιορίσει και να προβλέψει πώς φαινότυποι προκύπτουν από τις αλληλεπιδράσεις μεταξύ των βιολογικών οντοτήτων. Έχουμε χρησιμοποιήσει στο παρελθόν αυτή την προσέγγιση να προβλέψει αναγκαία γονίδια σε μια κλίμακα γονιδίωμα-ευρεία και καθορίζουν την κυτταρική κανόνες για την ουσιαστικότητα στο
Escherichia coli
[6] και
Saccharomyces cerevisiae
[7]. Επιπλέον, έχουμε χρησιμοποιήσει επίσης το συνδυασμό της μηχανικής μάθησης και θεωρία γραφημάτων για να προβλέψει νοσηρή και druggable γονίδια και να καθορίζει κανόνες για τη νοσηρότητα και τη druggability στο ανθρώπινο [8]. Εκτός από την επίτευξη επιτυχούς ποσοστά πρόβλεψης, έχουμε επίσης λαμβάνονται βιολογικά αληθοφανής κυτταρική κανόνες σε αυτές τις περιπτώσεις. Τα ευρήματα αυτά μας ώθησε να διερευνήσει κατά πόσον ο συνδυασμός της μηχανικής μάθησης και θεωρία γραφημάτων θα ήταν επίσης χρήσιμο να αποκαλύψει σε συστήματα επιπέδου πώς ο καρκίνος σηματοδότηση μονοπατιών ενεργούν σε συνεννόηση για τη δημιουργία του κακοήθους φαινοτύπου.
Για το σκοπό αυτό, θα παρόντες σε αυτό το έγγραφο μια νέα υπολογιστική μέθοδο που βασίζεται στην μηχανική μάθηση και θεωρία γραφημάτων, η
graph2sig
, που καθορίζει (1) το ογκογόνο δυναμικό της αλληλεπίδρασης, δηλαδή την ικανότητά της να μεταδίδει ογκογόνα σήματα σε ένα ολοκληρωμένο δίκτυο της ανθρώπινης αλληλεπιδράσεις γονιδίων (INHGI) και (2) αποσπάσματα από INHGI δυναμικό υποδίκτυα σηματοδότηση του καρκίνου που σχετίζονται με δεδομένη δύο γονίδια ενδιαφέροντος με τη χρήση των ογκογόνο δυναμικό βαθμολογίες που αποδίδονται στις αλληλεπιδράσεις. Χρησιμοποιώντας
graph2sig
, ήμασταν σε θέση να προβλέψει αξιόπιστα την ογκογόνο δυναμικό των αλληλεπιδράσεων, καθώς και για την εξαγωγή από το
INHGI
υποδίκτυα που περιέχουν γνωστές και τις πιθανές ογκογόνο μονοπάτια που υποστηρίζεται από πειραματικά στοιχεία. Για το καλύτερο της γνώσης μας, αυτή είναι η πρώτη φορά που ο συνδυασμός της μηχανικής μάθησης και θεωρία γράφων χρησιμοποιείται για να προβλέψει τόσο το ογκογόνο δυναμικό των αλληλεπιδράσεων και των πιθανών σχετίζονται με τον καρκίνο υποδίκτυα σηματοδότησης.
Υλικά και Μέθοδοι
Οι στόχοι του
graph2sig
είναι διττός: πρόβλεψη της ογκογόνο δυναμικό των αλληλεπιδράσεων (Σχήμα 1) και την εξόρυξη των δυνητικών ογκογόνων υποδίκτυα σηματοδότησης από το
INHGI
(Σχήμα 2). Το πρώτο βήμα της
graph2sig
είναι η κατασκευή του
INHGI
και ο υπολογισμός των centralities δικτύου γονιδίων σε
INHGI
(Πίνακας 1). Το δεύτερο βήμα αφορά την χρήση αυτών υπολογίζεται centralities δικτύου ως δεδομένα εκπαίδευσης για τους αλγόριθμους μηχανή κατάρτισης μάθησης (ή μαθητές) για τη δημιουργία μοντέλων πρόβλεψης για την εκχώρηση ογκογόνο δυναμικό για αλληλεπιδράσεις. Το τρίτο βήμα είναι η ανάθεση μιας «ογκογόνο δυναμικό» () σε κάθε αλληλεπίδραση με αυτά τα μοντέλα πρόβλεψης (Σχήμα 1).
Μετά την κατασκευή του
INHGI
και τον υπολογισμό των centralities δικτύου, ισορροπημένη εκπαίδευση ομάδες έχουν κατασκευαστεί και παρουσιάζονται με τον επιλεγμένο αλγόριθμο μηχανικής μάθησης (σάκους J48) ότι, με τη σειρά του, δημιουργεί τα μοντέλα πρόβλεψης, όπως απεικονίζεται στο (Α). Αυτά τα μοντέλα πρόβλεψης συνδυάζονται σε ένα τελικό μοντέλο πρόβλεψης από τον αλγόριθμο ψηφοφορία. Αυτό το τελικό μοντέλο στη συνέχεια χρησιμοποιείται για να εκχωρήσετε ογκογόνο βαθμολογίες σε αλληλεπιδράσεις στο
INHGI
καταγωγής το
wINHGI
όπως φαίνεται στο (Β).
Η
(α) η αίτηση του
ΡΕΑ
για το
wINHGI
δημιουργεί μια λίστα των διαδρομών, μαζί με τις δαπάνες τους για κάθε ζεύγος γονιδίων και τα έξοδα αυτά μετατρέπονται σε βάρη και κανονικοποιούνται έτσι ώστε το ελάχιστο βάρος είναι μηδέν και η μέγιστη βάρους είναι 1. (Β) Είκοσι υποδίκτυα δημιουργούνται από αυτή τη λίστα των διαδρομών και της υποδίκτυο με τον υψηλότερο μέσο όρο συντελεστή ομαδοποίησης έχει επιλεγεί. (Γ) Για κάθε ζεύγος γονιδίων, οι 41 υποδίκτυα δημιουργούνται και, μεταξύ αυτών υποδίκτυα, το ένα με τον υψηλότερο μέσο όρο συντελεστή ομαδοποίησης έχει επιλεγεί ως το τελικό δυναμικό υποδίκτυο σχετίζονται με τον καρκίνο.
Η
το τέταρτο βήμα είναι να βρούμε τις διαδρομές μεταξύ δύο γονιδίων που παρουσιάζουν ενδιαφέρον, και, στο
INHGI
με τις υψηλότερες τιμές, χρησιμοποιώντας το αναδρομικό αλγόριθμο απαρίθμηση (
ΡΕΑ
) [9], ένα μονοπάτι εύρεση αλγόριθμο που καταγράφει τις διαδρομές με τη σειρά του το βάρος τους (σε αυτή την περίπτωση, η). Το τελικό στάδιο είναι η επιλογή και συγχώνευση των διαδρομών που βρέθηκαν από
ΡΕΑ
για την οικοδόμηση του δυναμικού σχετίζονται με τον καρκίνο υποδίκτυο σηματοδότηση που περιέχουν τις υψηλότερες ογκογόνο οδούς που συνδέουν και (Σχήμα 2). Τα βήματα αυτά εφαρμόστηκαν σε ένα σενάριο bash διαθέσιμο σε https://www.lbbc.ibb.unesp.br/graph2sig
Πρώτο βήμα:.
INHGI
κατασκευής και υπολογισμού του δικτύου centralities
INHGI
κατασκευή.
Το
INHGI
, το οποίο περιέχει μόνο πειραματικά επαληθεύεται αλληλεπιδράσεις, κατασκευάστηκε με βάση την παραδοχή ότι δύο γονίδια, και, κωδικοποίησης, αντίστοιχα, για τις πρωτεΐνες και, αλληλεπιδρούν γονίδια εάν
(i)
και να αλληλεπιδρούν φυσικώς (φυσική αλληλεπίδραση πρωτεΐνης),
(ii)
ο παράγοντας μεταγραφής ρυθμίζει άμεσα τη μεταγραφή του γονιδίου, δηλαδή, δεσμεύεται με την περιοχή υποκινητή του (κανονισμός αλληλεπίδραση μεταγραφική), ή
(iii)
τα ένζυμα και το μερίδιο των μεταβολιτών, δηλαδή ένα προϊόν που παράγεται από μια αντίδραση που καταλύεται από ένζυμο χρησιμοποιείται ως αντιδραστήριο με μια αντίδραση που καταλύεται από ένζυμο, ή το ένζυμο παράγει ένα μεταβολίτη που αλληλεπιδρά με ένα μη-ενζυματική (αλληλεπίδραση μεταβολικό). Τα πειραματικά επαληθευτεί ανθρώπινες αλληλεπιδράσεις ελήφθησαν από διαφορετικές πηγές ανάλογα με τον τύπο της αλληλεπίδρασης, όπως περιγράφεται παρακάτω.
πρωτεϊνών-πρωτεϊνών δεδομένα φυσικών αλληλεπιδράσεων ελήφθησαν από έκδοση 1.3 του Ανθρώπου Ολοκληρωμένου αναφοράς πρωτεΐνης-πρωτεΐνης Αλληλεπίδρασης (Hippie), μια βάση δεδομένων αφιερωμένη στη συλλογή επαληθεύονται πειραματικά και σκόραρε ανθρώπινες αλληλεπιδράσεις μεταξύ πρωτεϊνών ενσωματωθεί από πολλαπλές πηγές [10]. Εμείς συλλέγονται από hippie μόνο αλληλεπιδράσεις ανιχνεύεται από πειραματικές τεχνικές που έλαβαν βαθμολογίες των 5 ή περισσότερα, δηλαδή τεχνικές που θεωρήθηκαν από hippie επιμελητές εμπειρογνωμόνων, τα άτομα με υψηλή αξιοπιστία και χαμηλό ποσοστό σφάλματος [10]. Οι αλληλεπιδράσεις πρωτεΐνης-πρωτεΐνης από το hippie (και από όλες τις άλλες παρόμοιες βάσεις δεδομένων στην πραγματικότητα) θεωρούνται μη κατευθυνόμενο αλληλεπιδράσεις, επειδή αυτό το είδος της αλληλεπίδρασης υποτίθεται ότι είναι μη κατευθυντική. Ωστόσο, καθώς η εξόρυξη των δυνητικών υποδίκτυα ογκογόνο σηματοδότηση από το
INHGI
εξαρτάται από την κατευθυντικότητα των αλληλεπιδράσεων, δηλαδή η κατεύθυνση της ροής του σήματος μεταξύ των πρωτεϊνών, και τις αλληλεπιδράσεις που παρέχεται από την πηγή μας δεδομένα εκπαίδευσης, η οδός KEGG [11], κατευθύνονται (δείτε περισσότερες λεπτομέρειες στο τμήμα «Κατασκευή σύνολα δεδομένων εκπαίδευσης»), κάθε αλληλεπίδραση μεταξύ πρωτεϊνών – μεταμορφώθηκε σε δύο διακριτές κατευθύνεται αλληλεπιδράσεις: και
αλληλεπιδράσεις ρύθμιση του Ανθρώπου μεταγραφική ελήφθησαν από την τρέχουσα έκδοση του. η βάση δεδομένων κανονισμός αλληλεπίδρασης Ανθρώπου Μεταγραφική (HTRIdb? [12]). Δημιουργήθηκε από την ομάδα μας, HTRIdb είναι μια αποθήκη της επαληθεύονται πειραματικά αλληλεπιδράσεις μεταξύ των παραγόντων της ανθρώπινης μεταγραφής και γονιδίων-στόχων τους ανιχνεύεται από 14 ξεχωριστές πειραματικές τεχνικές αγκαλιάζουν τόσο μικρής και μεγάλης κλίμακας τεχνικές. Εμείς συλλέγονται από HTRIdb γονίδια όλοι οι παράγοντες μεταγραφής /στόχου αλληλεπιδράσεις.
Μεταβολικές αλληλεπιδράσεις που προέρχονται από το ανθρώπινο μεταβολικό μοντέλο Recon 1 [13] από έναν κώδικα εφαρμόζονται σε Mathematica
® 7.0 (Wolfram Research, Inc.) . Αποκλείσαμε τις εν λόγω μεταβολικών αλληλεπιδράσεων που παράγονται από τις λεγόμενες «μεταβολίτες νόμισμα», άφθονα μοριακών ειδών που υπάρχουν σε όλο το κύτταρο το μεγαλύτερο μέρος του χρόνου και, ως εκ τούτου, είναι απίθανο να επιβάλλουν περιορισμούς σχετικά με τη δυναμική των μεταβολικών αντιδράσεων [14]. Θεωρήσαμε νόμισμα μεταβολίτες των οκτώ πλέον συνδεδεμένος μεταβολιτών (ADP, ΑΤΡ, Η, ΗΟ, ΝΑϋΡ, ΝΑϋΡΗ, ορθοφωσφορικό και πυροφωσφορικό) στην αρχική μεταβολική μοντέλο Recon 1. Επιπλέον, προσθέσαμε στο σύνολο των μεταβολικών αλληλεπιδράσεων κάποιες σημαντικές αλληλεπιδράσεις που είναι λείπει από το Recon 1: PIK3CA PDPK1, PIK3CA ILK, PIK3CA ΑΚΤ3, PIK3CA ΑΚΤ2, PIK3CA ΑΚΤ1, PIK3CB PDPK1, PIK3CB ILK, PIK3CB ΑΚΤ3, PIK3CB ΑΚΤ2, PIK3CB ΑΚΤ1, PIK3CD PDPK1, PIK3CD ILK, PIK3CD ΑΚΤ3, PIK3CD ΑΚΤ2, PIK3CD ΑΚΤ1 και PTEN ΑΚΤ1.
το τελικό
INHGI
είναι μια σκηνοθεσία δίκτυο που σχηματίζεται από την ολοκλήρωση των πρωτεϊνών φυσικής, μεταβολικές και μεταγραφική αλληλεπιδράσεις ρύθμιση μέσω των γονιδίων κοινά σε αυτά τα σύνολα δεδομένων (βλ Σύνολο δεδομένων S1). Πριν από την πραγματοποίηση της ένταξης, θα μετατραπούν όλα τα ανθρώπινα ονόματα γονιδίων σε GeneID τους – όπως προβλέπεται από τη βάση δεδομένων Entrez Gene [15] -. Για να αποφευχθεί η δημιουργία ψευδών αλληλεπιδράσεων λόγω του ονόματός του γονιδίου ασάφεια
Υπολογισμός της centralities δικτύου.
για κάθε γονίδιο στο
INHGI
, υπολογίσαμε 4 μέτρα κεντρικότητα του δικτύου, όπως παρατίθενται στον πίνακα 1. Εν συντομία, βαθμός κεντρικότητας () ορίζεται ως ο αριθμός των συνδέσεων στον κόμβο (στην περίπτωσή μας, γονίδιο). συντελεστής ομαδοποίησης () ενός κόμβου (στην περίπτωσή μας, ένα γονίδιο) ποσοτικοποιεί το πόσο κοντά στον κόμβο και των γειτόνων της είναι να είναι μια κλίκα, δηλαδή, όλοι οι κόμβοι συνδέονται σε όλους τους κόμβους. Για το
INHGI
, ορίζεται ως το ποσοστό των δεσμών μεταξύ των γονιδίων εντός της γειτονιάς του διαιρείται με τον αριθμό των συνδέσεων που θα μπορούσαν να υπάρχουν μεταξύ τους. Betweenness κεντρικότητα () αντικατοπτρίζει το ρόλο που διαδραματίζει έναν κόμβο (στην περίπτωσή μας, ένα γονίδιο) στην παγκόσμια αρχιτεκτονική του δικτύου και, για το
INHGI
, ορίζεται ως το κλάσμα συντομότερα μονοπάτια μεταξύ και διέρχεται. κεντρικότητα εγγύτητα () μέτρα πόσο κοντά ένας κόμβος (στην περίπτωσή μας, ένα γονίδιο) είναι σε όλους τους άλλους στο δίκτυο και, για το
INHGI
, ορίζεται ως η μέση συντομότερη διαδρομή μεταξύ και όλα τα άλλα γονίδια προσβάσιμο από το. Όλα αυτά τα μέτρα κεντρικότητα του δικτύου υπολογίστηκαν από το πακέτο Python
NetworkX
1.6 [16]
Δεύτερο βήμα:.. Γενιά μοντέλων πρόβλεψης
Κατασκευή σύνολα δεδομένων εκπαίδευσης
Κατασκευάσαμε δύο ομάδες ισορροπημένη σύνολα δεδομένων εκπαίδευσης, δηλαδή, τα σύνολα δεδομένων που περιέχει τον ίδιο αριθμό των θετικών (στην περίπτωσή μας, είναι γνωστή ογκογόνο αλληλεπιδράσεις) και αρνητικό (στην περίπτωσή μας, μη-ογκογόνο αλληλεπιδράσεις) παραδείγματα: «κανονική σύνολα δεδομένων» και » ανακατεύονται σύνολα δεδομένων «. Αυτά τα δεδομένα εκπαίδευσης είναι διαθέσιμα σε https://www.lbbc.ibb.unesp.br/graph2sig
Για την κατασκευή των συνόλων δεδομένων εκπαίδευσης, που συγκεντρώθηκαν πρώτα μια λίστα των ογκογόνων αλληλεπιδράσεις -. Αλληλεπιδράσεις που είναι γνωστό ότι μεταδίδουν ογκογόνων σημάτων – από τους χάρτες πορείας του καρκίνου που παρέχονται από τη βάση δεδομένων KEGG ΜΟΝΟΠΑΤΙ [11] και στη συνέχεια να αντιστοιχίζονται με την INHGI. Ο τελικός κατάλογος των ογκογόνων αλληλεπιδράσεις που χρησιμοποιούνται ως θετικά παραδείγματα για να εκπαιδεύσει τον αλγόριθμο μηχανικής μάθησης μας αποτελείται από 265 ογκογόνο αλληλεπιδράσεις που υπάρχουν στο INHGI (βλ Σύνολο δεδομένων S1). Όσον αφορά τα αρνητικά παραδείγματα, θεωρήσαμε ως «μη ογκογόνους αλληλεπιδράσεων» τις υπόλοιπες αλληλεπιδράσεις που υπάρχουν στο INHGI επειδή επί του παρόντος δεν είναι δυνατή η κατασκευή ενός καταλόγου των αλληλεπιδράσεων δεν είναι γνωστή για τη μετάδοση ογκογόνα σήματα. Έχουμε επιλέξει τυχαία 1000 διαφορετικά σύνολα των 265 αυτών των μη ογκογόνων αλληλεπιδράσεις και να τα συνδυάσουν με τον κατάλογο των 265 γνωστών ογκογόνων αλληλεπιδράσεις για την κατασκευή 1000 διαφορετικά σύνολα δεδομένων εκπαίδευσης που περιέχουν 530 αλληλεπιδράσεις καθένα. Αυτές είναι οι «κανονικές σύνολα δεδομένων». Από αυτές τις κανονικές σύνολα δεδομένων, θα δημιουργήσει 10000 διαφορετικές «ανακατεύονται σύνολα δεδομένων» από τυχαία το ανακάτεμα των ετικετών κλάσης (ογκογόνο και μη-ογκογόνο) μεταξύ των αλληλεπιδράσεων (Σχήμα 1).
Κατασκευή μοντέλων πρόβλεψης.
χρησιμοποιήσαμε την έκδοση 3.7.5 του WEKA (Waikato Περιβάλλον για την Ανάλυση Γνώσης) πακέτο λογισμικού, μια συλλογή από αλγόριθμους μηχανικής μάθησης για τις εργασίες εξόρυξης δεδομένων [17], για την παραγωγή των μοντέλων πρόβλεψης. Χρησιμοποιήσαμε τα δεδομένα εκπαίδευσης που περιγράφονται στην προηγούμενη ενότητα για να εκπαιδεύσει το bootstrap συσσώρευση (τοποθέτηση σε σάκους), μια μηχανή μάθησης σύνολο μετα-αλγόριθμο που συνδυάζουν πολλαπλά τους μαθητές βάσης [18]. Στην περίπτωσή μας, έχουμε επιλέξει ως βάση μαθητή τον αλγόριθμο J48, η εφαρμογή ενός WEKA του δέντρου απόφασης C4.5 [19], με τις προεπιλεγμένες παραμέτρους.
Συνήθως, η παραγωγή των μοντέλων πρόβλεψης από ενσάκισης διεξάγεται ως εξής: (1) bootstrap επαναλήψεις του συνόλου δεδομένων εκπαίδευσης δημιουργείται? (2) κάθε επανάληψη παρουσιάζεται στη βάση του μαθητή ότι από χτίζει μοντέλα πρόβλεψης? και (3) αυτά τα μοντέλα πρόβλεψης τελικά συνδυάζονται σε ένα ενιαίο μοντέλο. Στην περίπτωσή μας, τοποθέτηση σε σάκους είχε ρυθμιστεί να παράγει 20 bootstrap επαναλήψεις κάθε σετ δεδομένων εκπαίδευσης και αυτές οι επαναλήψεις στη συνέχεια παρουσιάστηκε J48 που, με τη σειρά τους, δημιουργούνται 20 μοντέλα πρόβλεψης για κάθε σύνολο δεδομένων εκπαίδευσης. Τα μοντέλα αυτά τελικά συνδυάζονται σε ένα ενιαίο μοντέλο για κάθε σύνολο δεδομένων εκπαίδευσης συνολικής διάρκειας 1000 σε συνδυασμό «κανονική» μοντέλα (που δημιουργούνται από τις κανονικές σύνολα δεδομένων) και 10000 συνδυασμό «ανακατεύονται» μοντέλα (που παράγεται από ανακατεύονται σύνολα δεδομένων).
Επιδόσεις της κατασκευασμένης μοντέλα πρόβλεψης.
Είμαστε αξιολόγησε την απόδοση των μοντέλων πρόβλεψης μας από την εκτίμηση ανάκληση, την ακρίβεια και την περιοχή τους στο πλαίσιο της λήψης λειτουργεί χαρακτηριστικό (ROC) καμπύλη (AUC). Ανάκληση είναι η αναλογία της πραγματικής ογκογόνων αλληλεπιδράσεις που έχουν προβλέψει σωστά ως τέτοια ενάντια σε όλες τις πραγματικές αλληλεπιδράσεις σχετίζονται με τον καρκίνο:
TP (αληθώς θετικά) δηλώνει το ποσό της πραγματικής καρκίνου που σχετίζονται με τις αλληλεπιδράσεις προβλέψει σωστά ως τέτοιες και FN (false αρνητικό) δηλώνει την ποσότητα του πραγματικού καρκίνου που σχετίζονται με τις αλληλεπιδράσεις λανθασμένα προβλέψει ώστε να μην είναι γνωστό ότι σχετίζονται με τον καρκίνο, αντίστοιχα.
η ακρίβεια είναι το ποσοστό των πραγματικών αλληλεπιδράσεων σχετίζονται με τον καρκίνο που έχουν προβλέψει σωστά ως τέτοια ενάντια σε όλες τις αλληλεπιδράσεις προέβλεψε ως σχετίζονται με τον καρκίνο:
FP υποδηλώνει το ποσό των αλληλεπιδράσεων στην πραγματικότητα δεν είναι γνωστό ότι σχετίζονται με τον καρκίνο λανθασμένα προβλεπόμενη ως σχετίζονται με τον καρκίνο των αλληλεπιδράσεων, αντίστοιχα
Η AUC αποτελεί σύνοψη μέτρο της ROC. καμπύλη – μία γραφική παράσταση της πραγματικής θετικού ρυθμού έναντι ποσοστό ψευδώς θετικών που υποδεικνύει την πιθανότητα μιας αληθώς θετικά πρόβλεψη ως συνάρτηση της πιθανότητας ψευδή θετικά πρόβλεψη για όλες τις πιθανές τιμές κατωφλίου [20] – και είναι ισοδύναμη με την πιθανότητα ότι ένα επιλέγεται τυχαία αρνητικό παράδειγμα (στην περίπτωσή μας, μια μη-ογκογόνο αλληλεπίδραση), θα έχουν μικρότερο εκτιμώμενη πιθανότητα ανήκουν στην θετική τάξη από ένα τυχαία επιλεγμένο θετικό παράδειγμα (στην περίπτωσή μας, ένα ογκογόνο αλληλεπίδραση) [21].
Χρησιμοποιώντας WEKA, εκτιμήσαμε τα προαναφερθέντα μέτρα απόδοσης εκτελώντας μια 10-πλάσια διασταυρωμένης επικύρωσης για να ελέγξετε το 1000 σε συνδυασμό κανονική και 10000 σε συνδυασμό ανακατεύονται μοντέλα πρόβλεψης. Η 10-πλάσια διασταυρούμενης επικύρωσης λειτουργεί ως εξής: κάθε σύνολο δεδομένων τυχαία κατανεμήθηκε σε 10 υποσύνολα. Από τα 10 υποσύνολα, ένα ενιαίο υποσύνολο διατηρείται ως δεδομένα επικύρωσης για τη δοκιμή του μοντέλου, και οι υπόλοιπες 9 υποσύνολα χρησιμοποιήθηκαν ως δεδομένα εκπαίδευσης. Η διαδικασία διασταυρούμενης επικύρωσης συνέχεια επαναλαμβάνεται 10 φορές, με κάθε μία από τις 10 υποσύνολα χρησιμοποιείται ακριβώς μια φορά ως δεδομένα επικύρωσης. Τα 10 αποτελέσματα από τις πτυχώσεις, στη συνέχεια, κατά μέσο όρο για να παράγουν ένα ενιαίο εκτίμηση για κάθε μέτρο απόδοσης για κάθε μοντέλο πρόβλεψης. Στην περίπτωσή μας, κάθε μέτρο των επιδόσεων του κάθε μοντέλου πρόβλεψης είναι κατά μέσο όρο 200 αποτελέσματα, αφού κάθε μοντέλο είναι ένας συνδυασμός από 20 άλλα μοντέλα. Τέλος, ανέφερε τα μέτρα απόδοσης εκτιμάται από την 10-πλάσια διασταυρωμένης επικύρωσης ως διάμεσοι του 1000 σε συνδυασμό φυσιολογικό και 10000 σε συνδυασμό ανακατεύονται μοντέλα πρόβλεψης.
Οι στατιστικές συγκρίσεις των μέτρων απόδοσης υπολογίζεται από τα μοντέλα πρόβλεψης μας δημιουργούνται από φυσιολογικό και ανακατεύονται σύνολα δεδομένων πραγματοποιήθηκαν με τη δοκιμή Mann-Whitney-U [22]. Σύμφωνα με την πάγια συμβάσεις στη μηχανή κοινότητα μάθησης, χρησιμοποιήσαμε αυτό το τεστ, δεδομένου ότι δεν κάνει υποθέσεις σχετικά με την υποκείμενη κατανομή των μέτρων απόδοσης που χρησιμοποιούνται για την αξιολόγηση των μοντέλων πρόβλεψης [23]. Οι διαφορές μεταξύ των μέτρων απόδοσης υπολογίζεται από τα μοντέλα πρόβλεψης μας δημιουργούνται από την κανονική και ανακατεύονται σύνολα δεδομένων με p-value 0.005 θεωρήθηκαν στατιστικά σημαντικές
Τρίτο βήμα:. Πρόβλεψη των πιθανών ογκογόνων αλληλεπιδράσεων
Εμείς συναρμολογηθεί το 1000 σε συνδυασμό κανονική μοντέλα πρόβλεψης κατασκευάστηκε στο προηγούμενο βήμα σε ένα ενιαίο μοντέλο (διαθέσιμο σε https://www.lbbc.ibb.unesp.br/graph2sig) με τη χρήση «Ψήφος», η εφαρμογή ενός WEKA της ψηφοφορίας μετα-αλγόριθμο που συνδυάζει την προβλέψεις εξόδου του κάθε μοντέλου πρόβλεψης με διαφορετικούς κανόνες [24]. Στη συνέχεια εφαρμόζεται αυτό το ενιαίο πρόβλεψη του μοντέλου, το οποίο περιέχει 20.000 μοντέλα, ως αποτέλεσμα του συνδυασμού των 1.000 συνδυασμένων μοντέλα που, με τη σειρά του, περιέχει 20 μοντέλα το καθένα, για την εκχώρηση τιμών, δηλαδή, το δυναμικό για τη μετάδοση ογκογόνα σήματα, σε όλο το σύνολο του αλληλεπιδράσεις σε τιμές INHGI. Η τελική τιμή είναι κατά μέσο όρο 20 000 τιμές ατομικά ανατεθεί από κάθε μοντέλο εντός της ενιαίας μοντέλο πρόβλεψης
Τέταρτο βήμα:. Εκτέλεση του αναδρομικό αλγόριθμο απαρίθμηση (
ΡΕΑ
)
Για να βρείτε τις διαδρομές με τις υψηλότερες τιμές μεταξύ των δύο γονιδίων και στο
INHGI
,
graph2sig
χρήσεις
ΡΕΑ
[9]. Ο αλγόριθμος αυτός απαριθμεί τα μονοπάτια ανάμεσα σε μια αρχή και ένα τέλος κόμβο με την αντίστροφη σειρά των εξόδων τους, έτσι ώστε η διαδρομή με την ελάχιστη κατατάσσεται πρώτη μεταξύ των διαδρομών. Πριν από την εκτέλεση
ΡΕΑ
, τιμές σε
INHGI
μετατρέπονται σε δαπάνες () από το
ΡΕΑ
θεωρεί ότι τα βάρη των ακμών καθώς το κόστος. Με τον τρόπο αυτό, η διαδρομή με τη μέγιστη, όπου είναι ο συνολικός αριθμός των αλληλεπιδράσεων στην πορεία, αντιστοιχεί στη διαδρομή με το ελάχιστο για
ΡΕΑ
.
ΡΕΑ
, εκτός από την επιλογή ενός κόμβου εκκίνησης – στην περίπτωσή μας ένα γονίδιο που προκαλεί την ογκογόνο σήμα – και τέλος κόμβο – στην περίπτωσή μας ένα γονίδιο ενδιαφέροντος που λαμβάνει το ογκογόνο σήμα ενεργοποιείται από το γονίδιο αρχή – είναι επίσης δυνατό να ορίσετε μέχρι και ένα μέγιστη τιμή προκαθορισμένη για κάθε μέγεθος του δικτύου. Για
INHGI
, για παράδειγμα,
ΡΕΑ
επιτρέπει να ορίσετε ένα μέγιστο των διαδρομών. Για κάθε ζευγάρι -,
graph2sig
τρέχει
ΡΕΑ
με 41 διαφορετικές τιμές: 100 έως 1000 σε βήματα των 100 διαδρομών 2000 για να 10000 σε προσαυξήσεις του 1000 μονοπάτια, 20000-100000 σε βήματα των 10000 μονοπάτια, 200000000000000-1000000000000000 δισεκατομμύρια σε πολλαπλάσια των 100000 μονοπάτια και 1500000 έως 3000000 σε βήματα των 500000 μονοπάτια.
από τις 41 ομάδες των διαδρομών που επιστρέφονται από
ΡΕΑ
, 41 πιθανούς υποδίκτυα σηματοδότηση σχετιζόμενη με τον καρκίνο κατασκευάζονται για κάθε μία – ζεύγος, όπως φαίνεται στην επόμενη ενότητα
τελικό στάδιο:. εκχύλιση των πιθανών υποδίκτυα σηματοδότησης σχετίζονται με τον καρκίνο
σε αυτό το τελικό στάδιο του
graph2sig
, από κάθε ομάδα μονοπάτια επέστρεψε από
ΡΕΑ
(π.χ., ομάδα με 1000 διαδρομές ή 100000 μονοπάτια) για κάθε – ζεύγος, το δυναμικό του καρκίνου που σχετίζονται με υποδίκτυο σηματοδότησης κατασκευάζεται ως εξής:
για κάθε διαδρομή, μετατρέπεται σε βάρος, όπου?
τιμές κανονικοποιούνται έτσι ώστε και ως εξής: (1) όπου είναι η κανονικοποιημένη για την πορεία και είναι το υπολογιζόμενο βάρος (1) για την πορεία?
Είκοσι υποδίκτυα κατασκευάζονται έτσι ώστε κάθε υποδίκτυο αποτελείται από ένα σύνολο διαδρομών με το πού κυμαίνεται μηδέν έως 0,95 σε βήματα των 0,05 (Σχήμα 2)?
το υποδίκτυο με την υψηλότερη μέση συντελεστή ομαδοποίησης μεταξύ όλων των 20 υποδίκτυα έχει επιλεγεί ως το δυναμικό του καρκίνου που σχετίζονται με υποδίκτυο σηματοδότησης (Σχήμα 2)
η
σε αυτό το επίπεδο,
graph2sig
περιέχει μια συλλογή από 41 δυνητικούς υποδίκτυα σηματοδότησης σχετίζονται με τον καρκίνο για κάθε ένα -. ζεύγος . Το απόλυτο δυναμικό σχετίζονται με τον καρκίνο υποδίκτυο σηματοδότησης για κάθε – ζεύγος είναι το υποδίκτυο με τον υψηλότερο μέσο όρο συντελεστή ομαδοποίησης μεταξύ των 41 υποδίκτυα (Σχήμα 2)
Αποτελέσματα και Συζήτηση
INHGI
: γενικά χαρακτηριστικά
η κατασκευή του
INHGI
είναι θεμελιώδους σημασίας για
graph2sig
δεδομένου ότι η αξιοποίηση των μέτρων κεντρικότητα του δικτύου των γονιδίων τα χαρακτηριστικά της κατάρτισης στην προσέγγιση μηχανικής μάθησης που προτείνονται εδώ είναι ο πυρήνας της όλης διαδικασίας. Επιπλέον, η εξαγωγή ενός υποδικτύου σηματοδότησης έχει νόημα μόνο σε ένα πλαίσιο δικτύου. Έτσι, είναι σημαντικό να γνωρίζει ορισμένα γενικά χαρακτηριστικά του
INHGI
όπως τα χαρακτηριστικά αυτά μπορούν να χρησιμεύσουν ως χρήσιμες πηγές για την ανάλυση και την ερμηνεία των αποτελεσμάτων.
Το
INHGI
είναι μια σκηνοθεσία δίκτυο αποτελείται από 19.789 γονίδια και 318.332 αλληλεπιδράσεις. Από αυτά τα 19.789 γονίδια, 13932 αλληλεπιδρούν μεταξύ τους μέσω πρωτεΐνη 242716 φυσικών αλληλεπιδράσεων (θεωρείται εδώ ως κατευθύνεται αλληλεπιδράσεις? Βλέπε λεπτομέρειες στο «Μέθοδοι»), 1166 με 24.299 μεταβολικών αλληλεπιδράσεων και 18310 μέσω του 51317 μεταγραφική αλληλεπιδράσεις κανονισμού. Επιπλέον, 896 γονίδια αλληλεπιδρούν μεταξύ τους μέσω των πρωτεϊνών φυσικών και μεταβολικών αλληλεπιδράσεων, 12508 μέσω αλληλεπιδράσεων πρωτεΐνης σωματική και μεταγραφική ρύθμιση και 1042 μέσω του μεταβολισμού και της μεταγραφής αλληλεπιδράσεις κανονισμού (βλ Σύνολο δεδομένων S1).
Το
INHGI
είναι σίγουρα πολύ από την ολοκλήρωσή αν σκεφτούμε, για παράδειγμα, οι εκτιμήσεις υπολογίζονται Stumpf και οι συνεργάτες του [25]: έχουν εκτιμάται ότι το μέγεθος του ανθρώπινου δικτύου των αλληλεπιδράσεων πρωτεΐνης-πρωτεΐνης είναι περίπου 650000 αλληλεπιδράσεις. Ως εκ τούτου,
INHGI
περιέχει 19% του συνολικού αριθμού των εκτιμώμενων αλληλεπιδράσεων ανθρώπινης πρωτεΐνης-πρωτεΐνης ως 121.358 undirected αλληλεπιδράσεων μεταξύ πρωτεϊνών είναι παρόντες σε αυτό το δίκτυο. Επιπλέον,
INHGI
περιέχει περίπου 46% των ήδη εντοπιστεί 43.059 ανθρώπινα γονίδια (σύμφωνα με τη βάση δεδομένων EntrezGene [15] πρόσβαση στις 10 Σεπτεμβρίου, 2012). Τα υπόλοιπα 23.211 γονίδια απουσιάζει από
INHGI
τα μεταγραφικά ρυθμίζονται από τουλάχιστον έναν παράγοντα μεταγραφής πράγμα που σημαίνει ότι, στο μέλλον,
INHGI
θα αυξηθεί με την προσθήκη τουλάχιστον 23211 μεταγραφική αλληλεπιδράσεις κανονισμού.
Λόγω της μη πληρότητας του
INHGI
συζητήθηκε παραπάνω – στην πραγματικότητα μια αξιοσημείωτη χαρακτηριστικό όλων των δικτύων κατασκευάστηκε αποκλειστικά από πειραματικά επικυρωμένη αλληλεπιδράσεις – τα αποτελέσματα που περιγράφονται στις επόμενες ενότητες ισχύουν μόνο για το τρέχουσα
INHGI
. Οποιαδήποτε αλλαγή στη δομή του
INHGI
θα αλλάξει επίσης τα μέτρα κεντρικότητα του δικτύου και, κατά συνέπεια, την κατασκευή των μοντέλων πρόβλεψης, καθώς και την ανάθεση των τιμών.
Αξιολόγηση της απόδοσης των μοντέλα πρόβλεψης
το δεύτερο και το τρίτο στάδιο του
graph2sig
αφορούν, αντιστοίχως, η γενιά των μοντέλων πρόβλεψης και την εκχώρηση των ογκογόνο δυναμικό σκορ, με αλληλεπιδράσεις σε
INHGI
. Πριν από την εκχώρηση τιμών (όπως περιγράφεται λεπτομερώς στο «Methods»), επιδιώξαμε να εκτιμηθεί η απόδοση των παραγόμενων μοντέλα πρόγνωσης στην ανάκτηση γνωστές ογκογόνο αλληλεπιδράσεις και διακρίνοντας μη ογκογόνους από ογκογόνους αλληλεπιδράσεις. Για το σκοπό αυτό, αξιολογήσαμε την απόδοσή τους με τη μέτρηση μέση ανάκληση, την ακρίβεια και την AUC τους κατά μήκος των 1000 φυσιολογική μοντέλα (βλέπε «Μέθοδοι» για περισσότερες λεπτομέρειες).
Πριν από την ανάλυση των μέτρων απόδοσης των μοντέλων πρόβλεψης μας, εκτιμάται τα μέτρα απόδοσης των μοντέλων πρόβλεψης που δημιουργούνται από τις ανακατεύονται σύνολα δεδομένων και στη συνέχεια τους σε σύγκριση με τα μοντέλα πρόβλεψης που δημιουργούνται από τις κανονικές σύνολα δεδομένων. Αυτό έγινε για να ελέγξετε αν τα μοντέλα πρόβλεψης που χτίστηκε από την κατάρτιση του σάκκους J48 για μη ανακατεύονται σύνολα δεδομένων μάθει τα χαρακτηριστικά στην πραγματικότητα συνδέεται με τον καρκίνο, αντί των χαρακτηριστικών που συνδέονται με οποιοδήποτε τυχαίο υποσύνολο των γονιδίων. Για τη σύγκριση αυτή, χρησιμοποιήσαμε το τεστ Mann-Whitney-U [22], όπως περιγράφεται στο «Methods». Για ανακατεύονται μοντέλα, η ανάκληση κυμάνθηκε 0,22 έως 0,81 με μέση τιμή 0,49, η ακρίβεια κυμαινόταν 0,39 έως 0,69 με μέση τιμή 0,5 και η AUC κυμάνθηκε 0,38 έως 0,62 με μέση τιμή 0,49. Όλες αυτές οι τιμές είναι στατιστικά διαφορετικά από τα μέτρα απόδοσης των κανονικών μοντέλων (τιμή p για όλα τα μέτρα), υποδεικνύοντας ότι τα χαρακτηριστικά στην πραγματικότητα συνδέεται με τον καρκίνο του είχαν μάθει από την κανονική μοντέλα πρόβλεψης μας.
Μετά την επιβεβαίωση ότι η πρόβλεψη μοντέλα που δημιουργούνται από την κανονική σύνολα δεδομένων είναι πιθανό να μάθουν τα χαρακτηριστικά στην πραγματικότητα συνδέεται με τον καρκίνο, έχουμε ως στόχο να αναλύσει τα μέτρα την απόδοσή τους. Όπως φαίνεται στο Σχήμα 3, η ανάκληση των μοντέλων πρόβλεψης κυμαίνονταν από 0,83 να 0,94 με διάμεσο 0,89 και ακρίβεια τους κυμαίνονταν από 0,71 να 0,83 με διάμεση 0,77. Στη συνέχεια, τα μοντέλα πρόβλεψης ανακτηθεί σωστά το 89% των γνωστών ογκογόνων αλληλεπίδρασης με ακρίβεια 77%. Επιπλέον, η πιθανότητα μιας αλληλεπίδρασης προβλεφθεί ως ογκογόνο πράγματι ανήκει στο σύνολο γνωστών ογκογόνο αλληλεπιδράσεων κυμάνθηκαν από 84% έως 93% με ένα μέσο όρο 89%, όπως υποδεικνύεται από το μέσο AUC (Σχήμα 3).
Boxplot που δείχνει την κατανομή της ανάκλησης, της ακρίβειας και της AUC για 1000 μοντέλα πρόβλεψης που δημιουργούνται από την κανονική σύνολα δεδομένων (κόκκινα κουτιά) και 10000 μοντέλα πρόβλεψης που παράγεται από ανακατεύονται σύνολα δεδομένων (μπλε κουτιά). Οι κατανομές των τιμών επιδόσεων για τα μοντέλα που δημιουργούνται από την κανονική και ανακατεύονται σύνολα δεδομένων είναι στατιστικά διαφορετικές σύμφωνα με τη δοκιμή Mann-Whitney-U (p-value για όλα τα μέτρα).
Η
Αν και τα μοντέλα πρόβλεψης μας είναι σε θέση να ανακτήσει το μεγαλύτερο μέρος των γνωστών ογκογόνων αλληλεπιδράσεις, όπως αποκαλύπτεται από την υψηλή ανάκλησή τους (μέσος όρος 89%), την ικανότητά τους να διακρίνουν ογκογόνο από μη ογκογόνους είναι λιγότερο έντονη, όπως αποκαλύπτεται από μέτρια ακρίβεια τους (μέσος όρος 77%). Αυτό δείχνει ένα ορισμένο επίπεδο θορύβου στα δεδομένα εκπαίδευσης που πιθανόν σχετίζεται με την ύπαρξη κοινών κοινά χαρακτηριστικά μεταξύ ογκογόνο και μη-ογκογόνο αλληλεπιδράσεων που επάγεται μοντέλα πρόβλεψης μας για να αποδώσει μια μέτρια απόδοση σε διακρίσεις ογκογόνο από μη ογκογόνους αλληλεπιδράσεις.
You must be logged into post a comment.