PLoS One: πρόβλεψη της ανθρώπινης γενετικές αλληλεπιδράσεις από καρκίνο του Γονιδιώματος Evolution


Αφηρημένο

Συνθετικά Θανατηφόρος (SL) γενετικές αλληλεπιδράσεις παίζουν σημαντικό ρόλο σε διάφορους τύπους βιολογικής έρευνας, που κυμαίνονται από την κατανόηση των σχέσεων γονοτύπου-φαινοτύπου στον εντοπισμό ναρκωτικά στόχων κατά του καρκίνου. Παρά τις πρόσφατες προόδους στην εμπειρική αλληλεπιδράσεις SL μέτρησης σε ανθρώπινα κύτταρα, το ανθρώπινο χάρτη γενετική αλληλεπίδραση είναι πολύ από την ολοκλήρωσή. Εδώ, σας παρουσιάζουμε μια νέα προσέγγιση για να προβλέψει τον χάρτη με την αξιοποίηση προτύπων στην εξέλιξη του γονιδιώματος του καρκίνου. Πρώτον, δείχνουμε ότι τα εμπειρικά προσδιοριζόμενες αλληλεπιδράσεις SL αντανακλάται σε διάφορα παρουσία γονίδιο, απουσία, και τα πρότυπα επικαλύψεων σε εκατοντάδες γονιδιωμάτων καρκίνο. Η πιο εμφανής μοτίβο που ανακαλύψαμε είναι ότι όταν ένα μέλος ενός ζεύγους γονιδίων αλληλεπίδραση SL έχει χαθεί, το άλλο γονίδιο τείνει να μην χαθεί, δηλαδή την απουσία συν-απώλειας. Αυτή η παρατήρηση είναι σύμφωνη με την προσδοκία, επειδή η απώλεια ενός ζεύγους αλληλεπιδρώντων SL θα είναι θανατηφόρος για το κύτταρο καρκίνου. αλληλεπιδράσεις SL αντικατοπτρίζονται επίσης στα προφίλ γονιδιακής έκφρασης, όπως ένα υπό αναπαράσταση των περιπτώσεων όπου τα γονίδια σε ένα ζεύγος SL είναι και τα δύο υπο-εκφράζονται, και μία αναπαράσταση επί των περιπτώσεων όπου ένα γονίδιο ενός ζεύγους SL είναι υπό εκφράζεται, ενώ το άλλο υπερεκφράζεται. Έχουμε ενσωματώσει τις διάφορες προηγουμένως άγνωστες μορφές του γονιδιώματος του καρκίνου και τα πρότυπα γονιδιακής έκφρασης σε ένα υπολογιστικό μοντέλο για τον εντοπισμό ζεύγη SL. Αυτό το απλό, το γονιδίωμα-ευρεία μοντέλο επιτυγχάνει υψηλή ισχύ πρόβλεψη (AUC = 0,75) για γνωστές γενετικές αλληλεπιδράσεις. Μας επιτρέπει να παρουσιάσει για πρώτη φορά ένα ολοκληρωμένο γονιδίωμα-ευρεία λίστα των αλληλεπιδράσεων SL, με εκτιμώμενη υψηλή ακρίβεια πρόβλεψης, που καλύπτει έως και 591.000 ζεύγη γονιδίων. Αυτό το μοναδικό κατάλογο μπορεί δυνητικά να χρησιμοποιηθεί σε διάφορους τομείς εφαρμογής που κυμαίνονται από βιοτεχνολογίας στην ιατρική γενετική

Παράθεση:. Lu Χ, Megchelenbrink W, Notebaart RA, Huynen ΜΑ (2015) πρόβλεψη της ανθρώπινης γενετικές αλληλεπιδράσεις από καρκίνο του Γονιδιώματος Evolution. PLoS ONE 10 (5): e0125795. doi: 10.1371 /journal.pone.0125795

Ακαδημαϊκό Επιμέλεια: Joel S. Bader, το Πανεπιστήμιο Johns Hopkins, Ηνωμένες Πολιτείες |

Ελήφθη: 10 Δεκεμβρίου 2014? Αποδεκτές: 25 Μαρτίου, 2015? Δημοσιεύθηκε: May 1, 2015

Copyright: © 2015 Lu et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Δεδομένα Διαθεσιμότητα: Όλα τα σχετικά δεδομένα είναι εντός του χαρτιού και της υποστήριξη αρχείων Πληροφορίες

Χρηματοδότηση: το έργο υποστηρίχθηκε από Ολλανδία Οργανισμός Επιστημονικής Έρευνας (NWO), αριθ:. CSBR09 /013V, (WM)? και το 7ο ΠΠ μεγάλης κλίμακας ολοκληρωμένων Gencodys δίκτυο της Ευρωπαϊκής Ένωσης, https://www.gencodys.eu, ΥΓΕΙΑ-241995, (XL). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

ένα συνθετικό θανατηφόρος (SL) γενετική αλληλεπίδραση ορίζεται ως μια λειτουργική σχέση μεταξύ των δύο γονιδίων, όπου η απώλεια του γονιδίου είτε είναι βιώσιμα αλλά η απώλεια και των δύο είναι θανατηφόρος [1]. Ένα ολοκληρωμένο χάρτη των αλληλεπιδράσεων SL ρίχνει φως στις σχέσεις μεταξύ γονοτύπου και φαινοτύπου [2-5], ενδεχομένως να προωθούν την κατανόηση των μηχανισμών των πολύπλοκων ανθρώπινων ασθενειών [6, 7], και ακόμη και παρέχοντας θεραπευτικές στρατηγικές θεραπείας για ανθρώπινες ασθένειες, όπως ο καρκίνος [8]. Για παράδειγμα, αρκετές μελέτες έχουν δείξει ότι αναστέλλουν ένα γονίδιο σε ένα ζεύγος SL θα μπορούσε να είναι θανατηφόρος για τα καρκινικά κύτταρα στα οποία το άλλο γονίδιο του εν λόγω ζεύγους είναι μεταλλαγμένο [9-11]. Η υποκείμενη ιδέα είναι ότι, σε ένα καρκινικό κύτταρο, μια μετάλλαξη σε ένα (Α) από τα δύο γονίδια σε ένα ζεύγος SL (ΑΒ), που δεν είναι μεταλλαγμένο στο φυσιολογικό κύτταρο, επιτρέπει την επιλεκτική θανάτωση κυττάρων όγκου με αναστολή B. Παρά πρόσφατες ανακαλύψεις στον τομέα των τεχνολογιών για τον εντοπισμό αλληλεπιδράσεων SL σε μια κλίμακα γονιδιώματος σε επίπεδο [12-15], αυτές οι αλληλεπιδράσεις παραμένουν σε μεγάλο βαθμό άγνωστες στον άνθρωπο, τονίζοντας την ανάγκη για έξυπνη υπολογιστικών προσεγγίσεων.

Προηγούμενη υπολογιστικές προσεγγίσεις έχουν ως επί το πλείστον έχουν αναπτυχθεί για να προβλέψει αλληλεπιδράσεις SL στο μοντέλο μικροοργανισμούς, όπως

Saccharomyces cerevisiae

και

Caenorhabditis elegans

[16-18]. Ωστόσο, οι γενετικές αλληλεπιδράσεις δεν ισχυρώς διατηρημένες μεταξύ των ειδών, για παράδειγμα μόνο το 29% των γενετικών αλληλεπιδράσεων βρέθηκαν να είναι συντηρημένες μεταξύ οι μύκητες

S

.

cerevisiae

και

Schizosaccharomyces pombe

[19] και η διατήρηση των αλληλεπιδράσεων SL μεταξύ των μικροοργανισμών και των ανθρωπίνων πρέπει ακόμη να καθοριστεί. Πρόσφατα, μια μελέτη προτείνεται η χρήση του καρκίνου γονιδιωματικών δεδομένων [20] για τον εντοπισμό αλληλεπιδράσεων SL με τη χρήση ενός «αντιστάθμιση» μοτίβο: ένα γονίδιο (Α) είναι ανενεργός, ενώ το άλλο (Β) είναι πολύ δραστικό, επιλέγοντας έτσι κατά της κατάστασης που τόσο γονίδια να χαθεί και, ως εκ τούτου, προκαλώντας θανατηφόρο φαινότυπο. Δείξαμε πρόσφατα μια άλλη γονιδιωματικό πρότυπο ζεύγη γονιδίων SL αλληλεπιδρώντας: Οι αλληλεπιδράσεις SL αντικατοπτρίζονται στη σημερινή γονιδιώματα ειδών και προγονική γονιδιωμάτων τους με τρόπο ώστε η συνδυασμένη απώλεια των δύο γονιδίων σε ένα ζεύγος SL δεν παρουσιάζεται συχνά σε όλη την εξελικτική ιστορία [21] . Αυτό εγείρει το ερώτημα αν μπορούμε να χρησιμοποιήσουμε αυτό το μοτίβο «συν-απώλεια υποεκπροσώπηση» για να προβλέψει ζεύγη SL από ανθρώπινα γονιδιώματα του καρκίνου (Σχήμα 1Α). Εδώ, χρησιμοποιήσαμε αντίγραφο παραλλαγές αριθμό, δηλαδή την απώλεια του γονιδίου ή κέρδος γονίδιο, σε εκατοντάδες των γονιδιωμάτων καρκίνο να ρωτήσω i) είναι εμπειρικές αλληλεπιδράσεις SL αντανακλάται στην εξέλιξη του γονιδιώματος του καρκίνου και, αν ναι, ii) τα οποία αποκτούν και τα σχέδια απώλειας συσχετίζονται τα περισσότερα με αλληλεπιδράσεις SL και iii) μπορούν να να συλληφθούν σε ένα απλό υπολογιστικό μοντέλο για να προβλέψουν τις αλληλεπιδράσεις SL γονιδιώματος ευρέως;

(α) ένα SL1 αλληλεπίδραση SL μεταξύ γονίδιο α και Β μπορεί να δείξει ένα μοτίβο «αποζημίωση» σε όλη γονιδιωμάτων καρκίνο στην οποία είναι πιο πιθανό ότι όταν το Α είναι ανενεργός (συμβολίζεται με -1), το Β είναι υπερδραστήρια (συμβολίζεται με 1) για να αντισταθμίσει την ανενεργό A (γονιδιωμάτων 1-10), σε σύγκριση με όταν το Α είναι ενεργή (γονιδιώματα 11-30). αλληλεπίδραση SL SL2 μπορεί, δείχνουν μια «υποεκπροσώπηση συν-απώλεια» στην οποία ένα συνδυασμένο απώλεια των Α και Β (συμβολίζεται με -1 και -1, γονιδίωμα 10) απέναντι γονιδιώματα του καρκίνου είναι λιγότερο εκπροσωπούμενο έναντι ζημίας είτε του ενός από τα δύο ( γονιδιώματα 2-9 και γονιδιώματος 14-18). Σημειώστε ότι SL1 μπορεί επίσης να προσδιοριστεί μέσω του προτύπου υποεκπροσώπηση συν-απώλεια, αλλά η SL2 μπορεί να προσδιοριστεί μόνο μέσω του προτύπου υποεκπροσώπηση συν-απώλεια. (Β) Το μοντέλο απαιτεί δύο τύπους δεδομένων ως είσοδο, θ) CNVs μετράται με SNP συστοιχίες και ii) μεταβολές της γονιδιακής έκφρασης μετράται με RNAseq. Σε CNVs, η κατάσταση ενός γονιδίου μπορεί να είναι μια ομόζυγη διαγραφή (δύο διακεκομμένες γραμμές), ένα ετερόζυγο διαγραφή (μία παύλα και μία συνεχής γραμμή) ή κανονικό (δύο συνεχείς γραμμές). Για CNVs, δημιουργήσαμε τρία κλάσματα για να ποσοτικοποιηθεί η πιθανότητα ότι ένα ζεύγος γονίδιο έχει ένα ομόζυγο συν-απώλειας (F1), ένα ετερόζυγο συν-απώλειας (F2) ή ένα μικτό συν-απώλειας (f3) συμβάν. Σε παραλλαγές γονιδιακής έκφρασης, ένα γονίδιο μπορεί να είναι υπο-εκφράζονται (μία διακεκομμένη γραμμή), η κανονική (μία συνεχής γραμμή) ή υπερεκφράζεται (μία έντονη γραμμή). Για την κατάσταση της έκφρασης, δημιουργήσαμε δύο κλάσματα, f4 και f5. f4 είναι η πιθανότητα ότι και οι δύο γονιδίων σε ένα ζεύγος γονιδίων είναι υπό-εκφράζεται. F5 είναι η πιθανότητα ότι ένα ζεύγος γονιδίων έχει μια έκφραση πάνω-κάτω συμβάν όπου το ένα είναι υπερ-εκφράζεται ενώ το άλλο είναι υπό-εκφράζεται. Όλα αυτά τα πέντε κλάσματα έδειξε μια διαφορά κατανομή μεταξύ των ζευγών SL και μη-SL. Με την ενσωμάτωση αυτών των πέντε κλάσματα σε ένα μοντέλο πρόβλεψης, μπορούμε να εντοπίσουμε τις αλληλεπιδράσεις SL που μπορεί να παρουσιαστεί σαν ένα δίκτυο.

Η

Με την αξιοποίηση της διαθεσιμότητας των δεδομένων γονιδιακής έκφρασης για ένα μεγάλο αριθμό δειγμάτων καρκίνου [22] και πρόσφατες εμπειρικά μετριέται αλληλεπιδράσεις SL σε ανθρώπινο [23, 24], βρήκαμε ότι τα γονίδια με αλληλεπιδράσεις SL είναι πιο πιθανό να έχουν ένα πρότυπο έκφρασης όπου ένα γονίδιο υπερεκφράζεται ενώ το άλλο είναι υπό-εκφράζεται, επιβεβαιώνοντας έτσι προηγούμενες παρατηρήσεις [ ,,,0],20]. Εντυπωσιακά παρατηρήσαμε ότι SL ζευγάρια είναι λιγότερο πιθανό να είναι συν-χαμένα και συν-πλαίσιο που εκφράζεται από ζεύγη γονιδίων μη-SL. Με βάση αυτά τα ευρήματα, παρουσιάζουμε ένα απλό σύνολο που βασίζεται σε υπολογιστικό μοντέλο που αποτυπώνει τις γονιδιωματικής πρότυπα για την πρόβλεψη γονιδιώματος-ευρεία ζεύγη SL με υψηλή ακρίβεια. Παρέχουμε ένα μοναδικό και ολοκληρωμένο χάρτη του δικτύου ανθρώπινης αλληλεπίδρασης SL με υψηλή εκτιμώμενη πρόβλεψη ακρίβεια του 67%, δηλαδή 14 φορές μεγαλύτερη από ό, τι αναμενόταν από την τύχη, που καλύπτουν 591.000 ζεύγη. Ο χάρτης αυτός αναμένεται να είναι ιδιαίτερα πολύτιμη υπό το φως της κατανόησης της ανθρώπινης ασθένειας και τον σχεδιασμό θεραπευτικών στρατηγικών.

Υλικά και Μέθοδοι

Πηγές δεδομένων

ανακτήσετε τα πειραματικά μετρούμενη ζεύγη SL και τα ζεύγη μη SL από δύο μελέτες [23, 24]. Συλλέξαμε 297 ζεύγη SL και 6358 ζεύγη μη SL συνολικά. Μετά αποκλείοντας τα ζεύγη των οποίων αμφότερα τα γονίδια βρίσκονται στο ίδιο χρωμόσωμα, λάβαμε 270 ζεύγη SL και 5.660 ζεύγη μη-SL (S1 πίνακα).

Τα δεδομένα CNV απευθείας ανακτηθεί από τη cBioPortal για τον Καρκίνο Genomics [ ,,,0],25]. Τα σήματα CNV στη βάση δεδομένων που δημιουργείται ως ομόζυγη διαγραφή, ετερόζυγη διαγραφή, κανονική αντιγραφή, αναπαραγωγή και ενίσχυση. Χρησιμοποιώντας την «cgdsr« R-πακέτο, λάβαμε τα δεδομένα CNV για 14.136 ασθενείς όγκου από 31 τύπους καρκίνου.

Ο RNAseq τα δεδομένα που λαμβάνονται από το Κέντρο Ανάλυσης την ευρεία Ινστιτούτου Γονιδιώματος Δεδομένων (GDAC) Firehose [26]. Ο σύνδεσμος για τη λήψη των δεδομένων RNAseq είναι https://gdac.broadinstitute.org/runs/stddata__2014_03_16/data. Για κάθε μελέτη για τον καρκίνο, θα κατεβάσει πρώτα τα αρχεία που ονομάζεται ως «_RSEM_genes_normalized_data.Level_3», το οποίο περιέχει τα εκτιμώμενα επίπεδα έκφρασης για κάθε γονίδιο στο ανθρώπινο γονιδίωμα από τα στοιχεία RNAseq χρησιμοποιώντας το πακέτο RSEM [27]. Συνολικά συλλέξαμε ένα προφίλ έκφρασης για 7362 ασθενείς όγκου με κάλυψη των 26 τύπων καρκίνου. Στη συνέχεια, για κάθε γονίδιο σε έναν όγκο, υπολογίσαμε το Ζ-βαθμολογίας και Ρ-τιμή να συναχθεί υπερ- ή υπο-έκφραση του σε σχέση με τα επίπεδα έκφρασης σε κανονικό ιστό. Εάν δεν υπάρχουν διαθέσιμα τουλάχιστον 25 φυσιολογικά δείγματα από τον ίδιο τύπο ιστού, όπως εκείνη του καρκίνου, χρησιμοποιήσαμε αυτό ως το σύνολο σύγκριση. Σε αντίθετη περίπτωση, όλα τα δείγματα φυσιολογικού ιστού, ανεξάρτητα από την εξειδίκευση του ιστού, χρησιμοποιήθηκαν. Οι αριθμοί των κανονικών δειγμάτων για κάθε τύπο του όγκου που απαριθμούνται στο S2 πίνακα. Για την προσαρμογή για πολλαπλές δοκιμές υπόθεση, χρησιμοποιήσαμε τη μέθοδο False Discovery Rate (Benjamini-Hochberg) για να ρυθμίσετε p-τιμές [28, 29] R. Α αποκοπής της αναπροσαρμοσμένης P-αξία, 0,05, εφαρμόστηκε για τη δημιουργία του υπερ- ή υπό-έκφραση του σήματος.

Εξαγωγή το σχέδιο για ζευγάρια SL από γονιδιακό παραλλαγές

το αντίγραφο παραλλαγές αριθμός μπορεί να είναι, -2 = ομόζυγη διαγραφή, -1 = ετερόζυγη διαγραφή, 0 = φυσιολογικό αντίγραφο , 1 = επικάλυψη, και 2 = ενίσχυσης. Για ένα ζεύγος γονιδίων (Α, Β), η εκδήλωση συν-απώλεια μπορεί να είναι i) homCL: ομόζυγη συν-απώλειας (-2, -2), ii) hetCL: ετερόζυγο συν-απώλειας (-1, -1) ή iii ) mixCL: μικτά συν-απώλειας (-2, -1 ή -1, -2). Για κάθε εκδήλωση συν-απώλειας, ορίσαμε ένα κλάσμα που ποσοτικοποιεί την πιθανότητα της εκδήλωσης συν-απώλειας. Για παράδειγμα, για την ομόζυγη εκδήλωση συν-απώλειας, ορίσαμε το κλάσμα για ένα ζεύγος γονιδίων ΑΒ ως f

1 = n

homCL /n

t, όπου n

homCL είναι ο αριθμός των ασθενών με την ομόζυγη συν-απώλεια ΑΒ και n

t είναι ο συνολικός αριθμός των ασθενών όπου ΑΒ έχουν μια ιδιότητα (-2, -2), (-2, 0) ή (0, -2). Υπολογίστηκε το f

1 ενός ζεύγους γονιδίου χωρίς συμπεριλαμβανομένων των δειγμάτων που έχουν ομόζυγη διαγραφές περισσότερο από 2000 γονίδια (ουρά της κατανομής στην εικόνα Α S1 File). Έχουμε παρατηρήσει ότι πολλά δείγματα όγκων έχουν ένα πολύ υψηλό αριθμό ομόζυγη διαγραφές (εικόνα Α S1 αρχείου). Τέτοια δείγματα μπορεί να οδηγήσει σε διόγκωση της πιθανότητας συν-απώλεια ανεξάρτητα από το αν έχουν μια αλληλεπίδραση SL ή όχι. Ομοίως, ορίσαμε δύο κλάσματα, f

2 και f

3, για ετερόζυγη εκδήλωση συν-απώλεια και μικτές εκδηλώσεις συν-απώλεια αντίστοιχα (Πίνακας 1 και Σχήμα 1). Θα πρέπει να σημειωθεί ότι δεν χρησιμοποίησε μια προσέγγιση στην οποία, προκειμένου να ποσοτικοποιηθεί κάτω αναπαράσταση των γεγονότων συν-απώλειας, σε σύγκριση με την εμπειρικά παρατηρηθεί ποσοστό συν-απώλεια ζεύγος γονιδίων ΑΒ με το γινόμενο των συντελεστών ενιαία απώλεια για τα γονίδια Α και B. η προσέγγιση αυτή προϋποθέτει ανεξαρτησία μεταξύ της απώλειας των τυχαία επιλεγμένων γονιδίων, το οποίο δεν είναι αυτό που παρατηρούμε (Σχήμα Β S1 αρχείου)

η

Οι μεταβολές στην έκφραση των γονιδίων μπορεί να είναι:. -1 = κάτω -έκφραση, 0 = κανονική, 1 = και υπερ-έκφραση. Εδώ, ορίσαμε δύο κλάσματα, f

4 και f

5 (Πίνακας 1 και Σχήμα 1). f

4 ποσοτικοποιεί την πιθανότητα των δύο γονιδίων σε ένα ζεύγος (Α, Β) εκφράζονται υπό-. στ

5 χρησιμοποιείται για την ποσοτικοποίηση πόσο πιθανό ζεύγος γονιδίων AB έχει την έκφραση πάνω-κάτω τα γεγονότα, δηλαδή, Α υπερεκφράζεται και Β σύμφωνα με ρητή ή το αντίστροφο.

Εδώ, κάθε ορίζεται κλάσμα είναι σηματοδοτούν όπου ζεύγη SL δείξει διαφορά από ζεύγη μη-SL. Για f

1, στ

2, στ

3 και f

4, περιμέναμε ότι ζεύγη SL έχουν μικρότερες τιμές για αυτά τα κλάσματα από τα ζεύγη μη-SL. Ωστόσο, για f

5 περιμέναμε ότι ζεύγη SL έχουν μεγαλύτερες τιμές από ζεύγη μη-SL. Για να δοκιμαστούν αυτές οι υποθέσεις, συγκρίναμε τα κλάσματα σε ζεύγη SL με τα κλάσματα σε ζεύγη μη-SL μέσω μονόπλευρη δοκιμές κατάταξης Wilcoxon στο R. Πραγματοποιήσαμε τέσσερις συγκρίσεις ομόζυγη διαγραφή, ετερόζυγη διαγραφή, μικτή διαγραφή και συν-υποέκφραση να εκτιμηθεί η διαφορά της τάσης συν-απώλειας μεταξύ των ζευγών SL και μη-SL. Στην ανάλυση της αποζημίωσης πάνω-κάτω, θα πραγματοποιηθεί δύο συγκρίσεις της έκφρασης πάνω-κάτω ή γονιδιωματικής πάνω-κάτω. Bonferroni διόρθωση χρησιμοποιήθηκε για τη διόρθωση για πολλαπλές συγκρίσεις 4 στην ανάλυση της τάσης συν-απώλεια και 2 πολλαπλές συγκρίσεις στην ανάλυση των πάνω-κάτω αποζημίωση (οι τιμές p υποδεικνύεται με P

adj.).

Για να επικυρώσετε την ευρωστία των σημάτων, συγκρίναμε τα κλάσματα σε ζεύγη SL στα κλάσματα σε τυχαία ζεύγη. Σε κάθε τυχαιοποίηση, δημιουργήσαμε πρώτα 300 τυχαία ζεύγη από όλα τα ανθρώπινα γονίδια για τα οποία η έκφραση των γονιδίων και CNV ήταν διαθέσιμα και, στη συνέχεια, συγκρίνεται ο μέσος όρος των κλασμάτων στα τυχαία ζεύγη με τη μέση κατά ζεύγη SL. Περιμέναμε ότι τα τυχαία ζεύγη έχουν μικρότερη μέση της f

1, στ

2, στ

3 ή στ

4, αλλά μια μεγαλύτερη μέση τιμή της f

5 από ζεύγη SL. Για να ελέγξετε τις υποθέσεις, μετρήσαμε τις τυχαίοι (n

1) όπου η διαφορά της μέσης μεταξύ τους τυχαία ζεύγη και τα ζεύγη SL είναι αντιφατική με την προσδοκία. Για κάθε σύγκριση, πραγματοποιήσαμε 1000 τυχαίοι και υπολόγισε την τιμή P για κάθε δοκιμή υπόθεση ως P = (n

1 + 1) /1001.

Υπό-δειγματοληψία

Η εκπαίδευση σετ είναι σημαντικά λοξή με μόνο 4,6% των ζευγαριών που ανήκουν στα θετικά τάξη (ζεύγη SL) και τα υπόλοιπα ανήκουν στις αρνητικές τάξη (ζεύγη μη-SL). Μια τέτοια ασύμμετρη σύνολο εκπαίδευσης μπορεί να επηρεάσει την απόδοση των περισσότερων τυποποιημένων αλγορίθμων ταξινόμησης [30]. Έτσι, δημιουργείται μια πιο ισορροπημένη εκπαίδευση καθορίζεται από τυχαία δειγματοληψία υπο-κατηγορία των αρνητικών έτσι ώστε ο αριθμός των ζευγών γονιδίων σε αυτό είναι ίσο με αυτό του θετικού τάξης. Το υπό-δειγματοληψία διεξάγεται με το πακέτο ROSE στην Ε [31] και επαναλαμβάνεται 100 φορές. Όλες οι ταξινομητές στη μελέτη έχουν εκπαιδευτεί σχετικά με το ισορροπημένο σύνολο.

Κατασκευάστε το σύνολο που βασίζεται σε πρόβλεψη μοντέλο

Υιοθετήσαμε ένα σύνολο με βάση το μοντέλο να ενσωματώσει τις προαναφερθείσες 5 σήματα για την πρόβλεψη αν ένα γονίδιο ζεύγος έχει μια αλληλεπίδραση SL ή όχι. Το ισορροπημένο σύνολο εκπαίδευσης (που περιγράφεται παραπάνω) χρησιμοποιήθηκε για να εκπαιδεύσει το σύνολο που βασίζεται σε μοντέλο πρόβλεψης που συνδυάζει πολλαπλές ταξινομητές, δηλαδή AdaBoost, J48, LogitBoost, RandomForest, Logit, JRip και ΜΕΡΟΣ. Ο κανόνας συνδυασμού είναι απλά με βάση τη μέση λειτουργία, όπου x είναι ένα δεδομένο ζεύγος γονιδίων και

σ

i

(x)

είναι η πιθανότητα ότι x προβλέπεται να είναι SL από τον ταξινομητή i. Οι πιθανότητες

σ

i

(x)

από όλες τις ταξινομητές, εκτός από RandomForest, λαμβάνονται από τη συσκευασία του «RWeka» [32]. Η RandomForest ταξινομητής υλοποιείται με την «randomForest« πακέτο στην Ε [33].

Για την ποσοτικοποίηση της απόδοσης του συνόλου με βάση το μοντέλο, χρησιμοποιήσαμε μια 10-πλάσια πλαίσιο διασταυρωμένης επικύρωσης σε όλα τα εμπειρικά μετριέται 270 SL ζεύγη και 5660 ζεύγη μη-SL. Σε κάθε διασταυρωμένης επικύρωσης, το σύνολο που βασίζεται σε μοντέλο έχει εκπαιδευτεί σε εννέα από τα τυχαία κατασκευαστεί 10 κλάσματα και οι προβλέψεις που γίνονται για τα δείγματα δοκιμής στο υπόλοιπο κλάσμα. Οι επιδόσεις του μοντέλου σε κάθε χιαστί επικύρωση αξιολογείται από μια καμπύλη ROC, το αντίστοιχο AUC σκορ και μια καμπύλη ακρίβειας-ανάκλησης. Επαναλαμβάνοντας αυτή τη διαδικασία 10 φορές, μια μέση καμπύλη ROC, η μέση AUC σκορ και μια μέση καμπύλη ακρίβειας-ανάκλησης υπολογίζονται ως αξιολόγησης της απόδοσης του μοντέλου πρόβλεψης σύνολο που βασίζεται.

Η κατασκευή του γονιδιώματος σε επίπεδο ανθρώπινη αλληλεπίδραση SL χάρτη

για την πρόβλεψη των αλληλεπιδράσεων SL σε ανθρώπινο σε κλίμακα γονιδιώματος-ευρεία, επιλέξαμε το πρώτο 15620 γονίδια που μετρώνται για τις δύο παραλλαγές CNV και mRNA σε καρκινικά κύτταρα. Όπως αναφέρεται στην ενότητα αποτελέσματα, λόγω της παρουσίας του αντιγράφου βραχίονα επιπέδου παραλλαγές αριθμό, ζεύγη γονιδίων στο ίδιο χρωμόσωμα είναι πιο πιθανό να είναι συν-χαθούν ανεξάρτητα από την κατάσταση της αλληλεπίδρασης SL. Έτσι, εφαρμόστηκε το μοντέλο μας σε ~ 115 εκατομμύρια ζεύγη γονιδίων που βρίσκονται σε διαφορετικά χρωμοσώματα. Να κατασκευάσει μια εξαιρετικά ακριβή χάρτη αλληλεπίδραση SL, έχουμε προβλέψει μια λίστα με περισσότερα από 591.000 αλληλεπιδράσεις SL βασίζεται σε μια βαθμολογία της πιθανότητας (

σ

(

x

)) το όριο του 0,81, η οποία πέτυχε την ακρίβεια 67% σε ανάκληση του 10%.

Αποτελέσματα

τα συνθετικά θανατηφόρες αλληλεπιδράσεις αντανακλάται στην εξέλιξη του γονιδιώματος του καρκίνου

Ζητήσαμε, πρώτον, αν τα εμπειρικά παρατηρούμενη αλληλεπιδράσεις SL αντανακλάται στο γονίδιο γονιδιακής έκφρασης παρουσία /απουσία και σε καρκινικά κύτταρα. Για να απαντήσουμε σε αυτό, χρησιμοποιούνται δύο τύποι μεταβολής γονιδιώματος από το Cancer Genome Atlas (TCGA) [22], δηλαδή i) παραλλαγές αριθμού αντιγράφων (CNVs) και ii) μεταβολές της γονιδιακής έκφρασης. Η κοινοπραξία TCGA μετριέται 14136 δείγματα όγκων για CNVs και 7362 δείγματα όγκων για μεταβολές της γονιδιακής έκφρασης. Για να καθοριστεί εάν τα γονίδια σε δείγματα καρκίνου είναι σημαντικά υπερ- ή υπο-εκφράζεται, προσδιορίσαμε έκφραση-επίπεδά τους σε σχέση με τα κανονικά δείγματα του ίδιου τύπου ιστού (Μέθοδοι). Λάβαμε τα εμπειρικά αλληλεπιδράσεις SL από δύο πρόσφατες μελέτες [23, 24] που μετριέται SL αλληλεπίδραση σε κυτταρικές σειρές όγκου κόλου και έχουν την υψηλότερη κάλυψη γονιδιώματος μεταξύ όλων των διαθέσιμων μελετών. Συνολικά συλλέξαμε 270 ζεύγη SL και 5660 ζεύγη μη-SL (S1 πίνακα).

Πρέπει πρώτα ελεγχθεί αν τα ζεύγη SL είναι λιγότερο πιθανό να είναι συν-χάνεται σε ένα γονιδίωμα από ζεύγη μη-SL. Ένα γονίδιο μπορεί είτε να ομόζυγο ή ετερόζυγο διαγραφεί. Εστιάσαμε για πρώτη φορά στην ομόζυγη απώλειες στην οποία χάνονται οι δύο αντίγραφα ενός γονιδίου. Εκφράζουμε την πιθανότητα ομόζυγο συν-απώλεια και των δύο γονιδίων σε ένα ζεύγος γονιδίων από το κλάσμα f = n

1 /n

2, όπου n

1 είναι ο αριθμός των δειγμάτων του όγκου με ένα συν-απώλεια και των δύο γονιδίων και η

2 είναι ο αριθμός των δειγμάτων του όγκου κατά την οποία χάνεται τουλάχιστον ένα γονίδιο (βλέπε Μέθοδοι και Σχήμα 1). Πράγματι, βρήκαμε ότι τα ζεύγη SL είναι λιγότερο πιθανό να είναι ομόζυγο συν-χαμένο από τα ζεύγη μη-SL (0,00728 έναντι 0,0104, μονόπλευρη δοκιμή Wilcoxon rank, P

adj. = 0,008, σχήμα 2Α).

SL ζευγάρια είναι λιγότερο πιθανό να έχουν: (α) ομόζυγο συν-απώλεια εκδηλώσεις, (β) ετερόζυγο συν-απώλεια γεγονότων και (γ) αναμιγνύεται εκδηλώσεις συν-απώλεια από ζεύγη μη-SL ή τυχαία ζεύγη. Τα κλάσματα για αυτούς τους τρεις τύπους γεγονότων συν-απώλεια περιγράφεται ως f

1, f

2, f

3 στο Μέθοδοι και Σχ 1. Κάθε τελεία είναι το κλάσμα για ένα δεδομένο ζεύγος και την οριζόντια μπάρα αντιπροσωπεύει το μέσο των κλασμάτων. Ρ-τιμές για τη σύγκριση μεταξύ των ζευγών SL και μη-SL υπολογίστηκαν χρησιμοποιώντας μονόπλευρη δοκιμή κατάταξης Wilcoxon. Ρ-τιμές για την σύγκριση μεταξύ SL και τυχαία ζεύγη υπολογίστηκαν από 1.000 τυχαιοποιήσεις. P-τιμές προσαρμόστηκαν για πολλαπλές συγκρίσεις χρησιμοποιώντας τη διόρθωση Bonferroni (βλέπε λεπτομέρειες στο Μέθοδοι).

Η

Πραγματοποιήσαμε αρκετές πρόσθετες αναλύσεις για να δείξει ότι αυτό το αποτέλεσμα είναι έγκυρη και ισχυρή. Κατ ‘αρχάς, δείξαμε ότι η διαφορά σε εκδηλώσεις συν-απώλεια δεν προκαλείται από τη διαφορά στα ποσοστά ενιαία απώλεια του γονιδίου. Πράγματι, η ομόζυγη διαγραφή του γονιδίου ποσοστό των γονιδίων σε ζεύγη SL δεν είναι διαφορετικό από το ρυθμό διαγραφή των γονιδίων σε ζεύγη μη-SL (0,00402 0,00406 vs, δύο όψεων δοκιμή Wilcoxon rank, Ρ = 0,38). Δεύτερον, δεδομένης της περιορισμένης γονιδίωμα κάλυψη των γνωστών ζευγών SL και μη-SL διαθέσιμα για ανάλυση μας, συγκρίναμε επίσης την πιθανότητα των γεγονότων συν-απώλεια ζευγών SL με τυχαία ζεύγη από το ανθρώπινο γονιδίωμα. Βρήκαμε μια σημαντική διαφορά σε συνεργασία απώλεια μεταξύ των ζευγών SL και τυχαία ζεύγη (0,00728 έναντι 0,0128, 1000 τυχαίοι, P

adj. = 0,012, σχήμα 2Α). Αυτό δείχνει ότι η διαφορά στην πιθανότητα γεγονότων συν-απώλεια μεταξύ των ζευγών SL και των τυχαίων ζευγών γονίδιο είναι μια συνεπής σήματος κατά μήκος του ανθρώπινου γονιδιώματος. Η διαφορά μεταξύ των ζευγών SL και τυχαία ζεύγη είναι μεγαλύτερη από την διαφορά μεταξύ των ζευγών SL και ζεύγη μη-SL (Σχήμα 2Α). Αυτό πιθανόν να οφείλεται στο γεγονός ότι τα γονίδια που περιλαμβάνονται στα πειράματα τείνουν να ωθείται προς εκείνες που συχνά χάνονται, δηλαδή την ομόζυγη ρυθμό διαγραφή των γονιδίων σε ζεύγη SL /μη-SL είναι υψηλότερη από ότι σε τυχαία ζεύγη (0,0049 έναντι 0,0042 , μονόπλευρη δοκιμή κατάταξης Wilcoxon, P = 0,04). Θα πρέπει επίσης να σημειωθεί ότι χρειαζόμαστε τα ζεύγη γονιδίων που περιλαμβάνονται στην ανάλυση που θα αποτελείται από γονιδίων σε διαφορετικά χρωμοσώματα. Ο λόγος για αυτό είναι ότι η παρουσία του αντιγράφου βραχίονα επιπέδου παραλλαγές αριθμός θα προκαλέσει πάντα μια υψηλή πιθανότητα συν-απώλειας για τα ζεύγη γονιδίων στο ίδιο χρωμόσωμα, ανεξάρτητα από το αν έχουν μια αλληλεπίδραση SL ή όχι.

Εκτός από το ομόζυγο συν-απώλειας, όπου ομόζυγο διαγράφονται δύο γονίδια, υπάρχουν οι δυνατότητες μιας ετερόζυγο συν-απώλεια όπου ετερόζυγο διαγράφονται δύο γονίδια και ένα μικτό συν-απώλεια όπου ένα γονίδιο είναι ομόζυγο διαγράφεται και η άλλη είναι ετερόζυγο διαγράφεται. Για την ετερόζυγο συν-απώλεια και για τη μικτή εκδήλωση συν-απώλειας θα διεξαχθεί την ίδια ανάλυση όπως γίνεται ανωτέρω για τα ομόζυγα συν-απώλειες. Για τους δύο τύπους των εκδηλώσεων συν-απώλειας, βρήκαμε ένα σημαντικό και ισχυρό σήμα, δηλαδή, τα ζεύγη SL είναι λιγότερο πιθανό να είναι συν-χαθεί από τα ζεύγη μη-SL (για ετερόζυγη συν-loss 0,1935 έναντι 0.216, μονόπλευρη Wilcoxon τεστ κατάταξης, P

adj = 1.08e-08, Σχήμα 2Β?. για μικτά συν-απώλεια 0.189 vs 0,2008, μονόπλευρη δοκιμή Wilcoxon rank, P

adj = 0.02, Σχήμα 2C).. Όπως συνέβη και για τα ομόζυγα συν-απώλειες, και τα δύο σήματα είναι συνεπείς όταν τα ζεύγη SL σε σύγκριση με τυχαία ζεύγη γονιδίων (για ετερόζυγη συν-απώλεια 0,1925 vs 0.218, Ρ

ADJ & lt?. 0,004, σχήμα 2Β? Για μεικτή co -Ζημιές 0.189 vs 0.210, P

adj. = 0,032, σχήμα 2C).

στη συνέχεια εξετάσαμε τα επίπεδα γονιδιακής έκφρασης, όπου αναμένεται να βρείτε ένα παρόμοιο σήμα με εκείνο που βρήκαμε στο επίπεδο του γονιδίου απουσία /παρουσία, εφόσον η υπό-έκφραση ενός γονιδίου μπορεί επίσης να οδηγήσει σε απώλεια της δραστηριότητάς της. Πράγματι, βρήκαμε ότι τα ζεύγη SL είναι λιγότερο πιθανό να είναι τόσο υπο-εκφράζονται από ζεύγη μη-SL (0,0443 έναντι 0,0586, μονόπλευρη δοκιμή κατάταξης Wilcoxon, P

adj. = 2.39e-10, Σχήμα 3Α). Μόνο ζεύγη που αποτελούνται από γονίδια σε διαφορετικά χρωμοσώματα που περιλαμβάνονται στην ανάλυση. Και πάλι το σήμα είναι συνεπής όταν SL ζεύγη σύγκριση με τυχαία ζεύγη γονιδίων (0,0443 vs 0,0570, Ρ

ADJ & lt?. 0,004, σχήμα 3Α).

(α) ζεύγη SL είναι λιγότερο πιθανό να είναι συν -underexpressed σε σχέση με τον έλεγχο, δηλαδή, μη-SL ή τυχαία ζεύγη. Το κλάσμα για εκδηλώσεις συν-υποέκφραση περιγράφεται ως f

4 σε μεθόδους και σχήμα 1. (β) ζεύγη SL είναι πιο πιθανό να έχουν έκφραση πάνω-κάτω εκδηλώσεις όπου ένα γονίδιο υπερεκφράζεται ενώ το άλλο στο κάτω-εκφράζεται . Το κλάσμα για την εν λόγω πρότυπο περιγράφεται ως f

5 στο Μέθοδοι και Σχ 1. Κάθε τελεία είναι το κλάσμα για ένα δεδομένο ζεύγος και την οριζόντια μπάρα αντιπροσωπεύει το μέσο όρο των κλασμάτων. Ρ-τιμές για τη σύγκριση μεταξύ των ζευγών SL και μη-SL υπολογίστηκαν με μια μονόπλευρη δοκιμή κατάταξης Wilcoxon. Ρ-τιμές για την σύγκριση μεταξύ SL και τυχαία ζεύγη υπολογίστηκαν από 1.000 τυχαιοποιήσεις. Ρ-τιμές ρυθμίστηκαν για πολλαπλές συγκρίσεις χρησιμοποιώντας το Bonferroni διόρθωσης (για λεπτομέρειες βλέπε Μέθοδοι).

Η

Προηγούμενες μελέτες [34, 35] έδειξαν ένα άλλο σχέδιο σε γονίδια σε ζεύγη SL στο επίπεδο μεταγραφής. Σε αυτό το μοτίβο ένα γονίδιο ενός SL αλληλεπιδρούν ζεύγος υπερεκφράζεται ενώ ο συνεργάτης του είναι κάτω από-εκφράζεται. Έτσι, αναμένεται ότι σε σύγκριση με τα ζεύγη μη SL, SL ζεύγη θα έχουν μεγαλύτερες πιθανότητες να έχουν ένα πρότυπο έκφρασης όπου ένα γονίδιο υπερεκφράζεται ενώ το άλλο είναι υπό-εκφράζεται. Αναφερόμαστε σε αυτό ως έκφραση πάνω-κάτω. Η πιθανότητα αυτού του προτύπου έκφρασης ποσοτικοποιείται από το κλάσμα f = n

1 /n

2, όπου n

1 είναι ο αριθμός των δειγμάτων του όγκου που έχουν το μοτίβο και το n

2 είναι η αριθμό δειγμάτων όγκων που έχουν υπο-έκφραση τουλάχιστον ενός από τα γονίδια (βλέπε Μέθοδοι και σχήμα 1 για λεπτομέρειες). Όπως ήταν αναμενόμενο, ανακαλύψαμε ότι ζεύγη SL είναι πιο πιθανό να έχουν αυτό το μοτίβο έκφρασης από ζεύγη μη-SL (0.250 έναντι 0.211, μονόπλευρη δοκιμή κατάταξης Wilcoxon, P

adj. = 2.10e-04, Σχήμα 3Β). Και πάλι, θα επικυρωθεί η συνοχή του σήματος συγκρίνοντας την πιθανότητα αυτό το μοτίβο έκφρασης στα ζεύγη SL κατά πιθανότητα της με τυχαία ζεύγη (0.250 vs 0.146, 1.000 τυχαιοποιήσεις, Ρ

ADJ & lt?. 0,002, Σχήμα 3Β). Σημειώνουμε ότι η διαφορά μεταξύ των ζευγών SL και τυχαία ζεύγη είναι υψηλότερο από εκείνο μεταξύ των ζευγών SL και ζεύγη μη-SL. Αυτό πιθανόν να οφείλεται στο γεγονός ότι τα γονίδια που περιλαμβάνονται στα πειράματα ωθείται προς εκείνα που είναι πιο πιθανό να είναι υπερ-εκφράζεται όταν ένα είναι μεταλλαγμένο, δηλαδή, η υπερ-έκφραση των γονιδίων σε ζεύγη μη SL είναι υψηλότερη από εκείνη του τυχαία γονίδια (0,0957 έναντι 0,0789, μονόπλευρη δοκιμή κατάταξης Wilcoxon, P = 1.08e-06). Αναλύσαμε επίσης ένα γονιδιωματικό πρότυπο σε επίπεδο παρουσία του γονιδίου /απουσία με τον υπολογισμό της πιθανότητας για κάθε ζεύγος γονίδιο να έχει ένα σχέδιο CNV όπου ένα γονίδιο αντιγράφεται ή ενισχύεται, ενώ το άλλο είναι διαγραφεί ομόζυγο ή ετερόζυγο, που αναφέρεται ως γονιδιωματικό πάνω-κάτω στο υπόλοιπο του κειμένου. Βρήκαμε ότι τα ζεύγη SL έχουν πράγματι μια μεγαλύτερη πιθανότητα να έχουν τη γονιδιωματική συνδυασμό πάνω-κάτω στο επίπεδο του DNA από τα ζεύγη μη-SL (0.300 έναντι 0.274, μονόπλευρη δοκιμή Wilcoxon rank, P

adj. = 1.65e-07 ), αλλά αυτό δεν είναι σημαντική όταν συγκρίναμε τα ζεύγη SL σε τυχαία ζεύγη γονιδίων.

Συνολικά, βρήκαμε πέντε μοτίβα στις παραλλαγές CNVs και γονιδιακή έκφραση σε καρκινικά κύτταρα, τα οποία έδειξαν ότι συνθετικά θανατηφόρες αλληλεπιδράσεις αντανακλώνται στην εξέλιξη του γονιδιώματος του καρκίνου. Αυτά τα πέντε σχήματα εμπίπτουν σε δύο κατηγορίες: i) τα γονίδια σε ζεύγη SL είναι πιο πιθανό να είναι υπερ-εκφράζεται όταν υπό-εκφράζεται εταίρος αλληλεπίδρασή τους και ii) τα γονίδια σε ζεύγη SL είναι λιγότερο πιθανό να είναι συν-χαμένη είτε στο επίπεδο του DNA ή στο επίπεδο της γονιδιακής έκφρασης.

ένα σύνολο με βάση το μοντέλο για την πρόβλεψη της συνθετικής θανατηφόρες αλληλεπιδράσεις

επόμενο ερώτημα αν αυτές οι πέντε γονιδιωματικής σχέδια είναι αρκετά ισχυρή για να προβλέψει αξιόπιστα ζεύγη SL σε ανθρώπινο σε ένα γονιδίωμα έχει πλάτος κλίμακας. Για να γίνει αυτό έχουμε αναπτύξει ένα μοντέλο σύνολο που βασίζεται ενσωματώνει τις πέντε μοτίβα. Θα πρέπει να σημειωθεί ότι δεν περιλαμβάνουν τη γονιδιωματική μοτίβο πάνω-κάτω βρίσκονται σε CNVs αφού ζεύγη SL δεν διαφέρουν σημαντικά από τυχαία ζεύγη. Ένα μοντέλο ensemble-based είναι ένας ταξινομητής που συνδυάζει την πρόβλεψη αποτελεσμάτων από πολλαπλές ταξινομητές, όπως δέντρα απόφασης και λογιστικής παλινδρόμησης. Είναι γνωστό ότι ένα τέτοιο μοντέλο σύνολο που βασίζεται μπορεί να βελτιώσει την απόδοση σε σχέση με μια ενιαία διαδικασία ταξινόμησης [36], ειδικά για σύνθετα προβλήματα, όπως η πρόβλεψη SL συμμετοχή θορυβώδη είσοδοι [37].

χρησιμοποιείται η εμπειρική μετριέται 270 ζεύγη SL και 5.660 ζεύγη μη SL, όπως περιγράφεται στην προηγούμενη ανάλυση. Για την κατασκευή του μοντέλου πρόβλεψης, πρέπει πρώτα να χρειάζεται να χειριστεί την ανισορροπία του μεγέθους του δείγματος μεταξύ της αρνητικής κατηγορίας, ζεύγη δηλαδή μη-SL, και η θετική τάξη, δηλαδή ζεύγη SL. Η ασύμμετρη κατανομή των κατηγοριών μπορούν να επηρεάσουν την απόδοση των μοντέλων πρόβλεψης [30]. Για να λυθεί αυτό το ζήτημα, έχουμε τυχαία υπο-δείγμα της αρνητικής κατηγορίας (ζεύγη μη-SL, 95,4% του συνόλου εκπαίδευσης) για την παραγωγή μιας σειράς αρνητικών δειγμάτων του ίδιου μεγέθους με το θετικό κατηγορία (ζεύγη SL, 4,6% της εκπαίδευσης σειρά). Αυτό ισορροπημένος συνδυασμός των δύο συνόλων χρησιμοποιείται για να εκπαιδεύσει ένα μοντέλο σύνολο που βασίζεται για την πρόβλεψη SL. Σημειώστε ότι η υπό-δειγματοληψία εφαρμόζεται μόνο για το σύνολο εκπαίδευσης. Συνολικά επιλέξαμε επτά διαφορετικά μόνο ταξινομητές ως βάση για το σύνολο μοντέλο: AdaBoost [38], J48 [39], LogitBoost [40], RandomForest [41], Logit [42], JRip [43] και ΜΕΡΟΣ [44] οι οποίες είτε είναι ισχυρή έναντι θορυβώδη δεδομένα ή πάνω-τοποθέτηση. Αφού εκπαιδευτεί με τον ισορροπημένο σύνολο, το καθένα μόνο ταξινομητή δημιουργεί μια πιθανότητα ότι ένα ζεύγος γονιδίων έχει μια αλληλεπίδραση SL. Τότε θα ενσωματωθούν όλα τα επτά πιθανότητες από αυτές μόνο ταξινομητές με τον υπολογισμό του μέσου όρου των επτά πιθανότητες και να χρησιμοποιηθεί αυτό ως το τελικό προβλεπόμενη πιθανότητα.

Για την αξιολόγηση της απόδοσης του μοντέλου σύνολο που βασίζεται σε πρόβλεψη, χρησιμοποιήσαμε ένα 10- fold cross-επικύρωσης σε όλα τα εμπειρικά μετριέται 270 ζεύγη SL και 5660 ζεύγη μη-SL. Το οικόπεδο της ευαισθησίας (δηλαδή, αλήθεια θετικός ρυθμός) έναντι ποσοστό ψευδώς θετικών αποτελεσμάτων του μοντέλου σύνολο που βασίζεται δείχνει ότι το μοντέλο μας επιτυγχάνει μια περιοχή κάτω από την καμπύλη ROC (AUC) 0.75 (τυπικό σφάλμα = 0,016, σχήμα 4Β). Θα πρέπει να σημειωθεί ότι αυτή η υψηλή AUC επιτυγχάνεται μόνο όταν συνδυάζονται σε όλους τους συνδυασμούς (Σχήμα 4Α). Βρήκαμε επίσης ότι το σύνολο που βασίζεται σε μοντέλο πέτυχε την υψηλότερη AUC σε σύγκριση με όλες τις επτά μόνο ταξινομητές (Σχήμα 4Β). Για να προβλέψουμε ένα γονιδίωμα-ευρεία χάρτη αλληλεπίδραση SL, υπολογίσαμε το μέσο όρο ακρίβεια και ανάκληση τιμές από την 10-πλάσια διασταυρωμένης επικύρωσης (Σχήμα 4C). Στη συνέχεια εφαρμόζεται το μοντέλο σε όλα τα ζεύγη γονιδίων στο γονιδίωμα. Μεταξύ ~ 115 εκατομμύρια ζεύγη για τις οποίες γονιδιακή έκφραση και δεδομένα CNV ήταν διαθέσιμα, προβλέψαμε πάνω από 591.000 αλληλεπιδράσεις SL βασίζεται σε ένα κατώφλι βαθμολογίας πιθανότητα 0,81 (σχήμα 4Γ), το οποίο αντιστοιχεί σε εκτιμώμενη ακρίβεια του 67% με βάση το σύνολο εκπαίδευσης μας, δηλαδή, 14 φορές υψηλότερη από ό, τι αναμενόταν από την τύχη (S1 συνόλου δεδομένων). Σημειώστε ότι το μοντέλο επιτυγχάνει μια παρόμοια ακρίβεια (60% σε p = 0,81), όταν χρησιμοποιείτε ένα ανεξάρτητο σύνολο πειραματικά μετρούμενη SL, (Σχήμα C σε S1 αρχείου).

(α) Το σύνολο βασίζεται σε μοντέλο πρόβλεψης βασίζεται στην και οι πέντε συνδυασμένες μοτίβα έχει εμβαδόν κάτω από την καμπύλη (AUC) 0.75 (μπλε γραμμή), το οποίο εκτιμάται από την επικύρωση 10 φορές σταυρό. Ensemble με βάση τα μοντέλα πρόβλεψης με βάση τα μη συνδυασμένα επιμέρους πρότυπα, δηλαδή, συν-απώλεια CNVs, συν-υποέκφραση και την έκφραση πάνω-κάτω, εμφανίζονται σε κόκκινο, πράσινο και μοβ, αντίστοιχα, και έχουν χαμηλότερες τιμές AUC. Πρότυπες ράβδοι σφάλματος προστίθενται σε κάθε ROC. (Β) Το μοντέλο πρόβλεψης σύνολο που βασίζεται (η μπλε καμπύλη ROC) έχει καλύτερη απόδοση από ό, τι το σύνολο των επτά μόνο. (Γ) Η ακρίβεια και η ανάκληση της καμπύλης υπολογίζεται από 10 φορές σταυρό επικύρωσης. Πρότυπες ράβδοι σφάλματος πρόσθεσε. Η καμπύλη είναι χρωματισμένο σύμφωνα με την αποκοπή των πιθανοτήτων. Το πάνελ χρώμα της πιθανότητας χαράσσεται στη δεξιά πλευρά. Οι αποκοπές των βαθμολογιών πιθανότητα (

σ

(

x

)), 0,81, είναι τυπωμένα στις αντίστοιχες θέσεις της καμπύλης.

You must be logged into post a comment.