PLoS One: λογομαχία Phosphoproteomic δεδομένων για τη διαλεύκανση του καρκίνου μονοπάτια σηματοδότησης


Αφηρημένο

Η ερμηνεία των συνόλων βιολογικών δεδομένων είναι απαραίτητη για τη δημιουργία υποθέσεις που καθοδηγούν την έρευνα, αλλά και τις σύγχρονες μεθόδους της παγκόσμιας πρόκλησης ανάλυση ικανότητά μας να διακρίνουμε νόημα μοτίβα και στη συνέχεια να μεταφέρουν τα αποτελέσματα με έναν τρόπο που μπορεί να εκτιμηθεί εύκολα . Πρωτεομική δεδομένων είναι ιδιαίτερα δύσκολο επειδή η μάζα τους ανιχνευτές φασματομετρίας συχνά χάσετε τα πεπτίδια σε σύνθετα δείγματα, με αποτέλεσμα αραιοκατοικημένες σύνολα δεδομένων. Χρησιμοποιώντας τη γλώσσα προγραμματισμού R και τεχνικές από το χώρο της αναγνώρισης προτύπων, έχουμε επινοήσει μεθόδους για την επίλυση και την αξιολόγηση συμπλέγματα πρωτεϊνών που σχετίζονται με πρότυπο έκφρασής τους σε διαφορετικά δείγματα σε πρωτεομική σύνολα δεδομένων. Εξετάσαμε τυροσίνη phosphoproteomic δεδομένα από δείγματα καρκίνου του πνεύμονα. Υπολογίσαμε διαφορές μεταξύ των πρωτεϊνών με βάση Pearson ή συσχετίσεις Spearman και στην Ευκλείδεια απόσταση, ενώ ασχολείται με μεγάλες ποσότητες δεδομένα που λείπουν. Οι διαφορές αυτές στη συνέχεια χρησιμοποιούνται ως φορείς γνώρισμα στην ομαδοποίηση και οπτικοποίηση αλγορίθμων. Η ποιότητα των clusterings και απεικονίσεις αξιολογήθηκαν εσωτερικά με βάση την πρωτογενή δεδομένα και εξωτερικά με βάση το γονίδιο της οντολογίας και των δικτύων πρωτεϊνικών αλληλεπιδράσεων. Τα αποτελέσματα δείχνουν ότι η T-διανεμηθεί στοχαστική γείτονα ενσωμάτωση (t-ΑΕΕ) που ακολουθείται από τις ελάχιστες ομάδες που εκτείνονται σε μεθόδους δέντρο αραιά πρωτεομικά δεδομένα σε ουσιαστική συμπλέγματα πιο αποτελεσματικά από ό, τι άλλες μεθόδους, όπως

k

-means και κλασική πολυδιάστατη κλιμάκωση. Επιπλέον, τα αποτελέσματά μας δείχνουν ότι χρησιμοποιώντας ένα συνδυασμό των Spearman συσχέτισης και Ευκλείδεια απόσταση ως αναπαράσταση ανομοιότητα αυξάνει την ανάλυση των συνεργατικών σχηματισμών. Οι αναλύσεις μας δείχνουν ότι πολλά συμπλέγματα περιέχουν ένα ή περισσότερα κινάσες τυροσίνης και περιλαμβάνει γνωστά τελεστές, καθώς και πρωτεΐνες με γνωστές αλληλεπιδράσεις. Οπτικοποίηση αυτών των clusters και δίκτυα διευκρινιστεί προηγουμένως άγνωστη μονοπάτια μεταγωγής σήματος κινάσης τυροσίνης που οδηγεί τον καρκίνο. Η προσέγγισή μας μπορεί να εφαρμοστεί σε άλλους τύπους δεδομένων, και μπορεί να υιοθετηθεί εύκολα γιατί τα πακέτα λογισμικού ανοικτού κώδικα που χρησιμοποιούνται

Παράθεση:. Grimes ML, Lee WJ, van der Maaten L, Shannon P (2013) Λογομαχούν Phosphoproteomic Δεδομένων να διαφωτίσει τον καρκίνο μονοπάτια σηματοδότησης. PLoS ONE 8 (1): e52884. doi: 10.1371 /journal.pone.0052884

Επιμέλεια: Jorge Χωρίς Μπερνς, Πανεπιστημιακό Νοσοκομείο της Modena και Reggio Emilia, Ιταλία

Ελήφθη: 26 Ιούλη του 2012? Αποδεκτές: 22 Νοέμ 2012? Δημοσιεύθηκε: 3 Ιανουαρίου 2013

Copyright: © 2013 Grimes et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. MG ήταν υποστηρίζεται από το Εθνικό Ινστιτούτο Υγείας (NIH) NS070746-01, NS061303-01 και COBRE NCRR P20 επιχορήγηση RR015583. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

συμπεριφορά των κυττάρων ελέγχεται από λειτουργικές αλληλεπιδράσεις μεταξύ των βιολογικών μορίων, τα οποία έχουν μελετηθεί κλασικά, ένα κάθε φορά, και επικοινωνούσε με διαγράμματα οδού ή κινούμενα σχέδια. Σηματοδότησης δικτύων είναι στην πραγματικότητα πολύ πιο περίπλοκη από ό, τι αυτά τα απλά μοντέλα, όπως αποκαλύπτεται από μεγάλης κλίμακας προσεγγίσεις στη μελέτη του γονιδιώματος, μεταγραφικό και proteome. Οι μελέτες αυτές παράγουν ένα μεγάλο ποσό των δεδομένων που είναι δύσκολο να κατανοήσει

εκ πρώτης όψεως

. Για να ξεπεραστεί αυτό το πρόβλημα, ένα συνδυασμό τεχνικών στατιστικής ανάλυσης και απεικόνισης μπορεί να είναι χρήσιμη [1] – [4].

Μια σημαντική πρόκληση όταν ασχολείται με μεγάλα σύνολα δεδομένων είναι πώς να επιλύσει τις σχέσεις των δεδομένων, και την απεικόνιση αποτελέσματα με ουσιαστικό τρόπο για την εξερεύνηση, την παρουσίαση, και, τελικά, την κατανόηση της δυναμικής των κυτταρικών αποκρίσεων σε νοσηρές καταστάσεις και κανονική διαφοροποίηση [3]. Πολλή δουλειά έχει γίνει για διερευνητική ανάλυση δεδομένων και επαγωγικής στατιστικής [5], και για την μεταφορά «δίκτυο», η οποία περιγράφει τις σχέσεις μεταξύ βιολογικών μορίων [6]. έχουν δενδρογράμματα ιεραρχική ομαδοποίηση, χάρτες θερμότητας, και γραφήματα δικτύου έχουν χρησιμοποιηθεί στην προσπάθεια να απεικονίσει τα σχέδια που μπορεί να υποδηλώνουν λειτουργικές σχέσεις μεταξύ διαφορετικών ομάδων εντός των δεδομένων. Είναι ευρέως αποδεκτό ότι οι τεχνολογίες χαρακτηρισμό υψηλής απόδοσης θα ωφεληθούν από τη βελτιωμένη απεικόνιση και εργαλείων βιοπληροφορικής [7], και αυτό ισχύει ιδιαίτερα για phosphoproteomic ανάλυση των δεδομένων [4], [8], [9].

Ανώτατη ανάλυση της δομής των δεδομένων και την απεικόνιση υπολογιστής θα μπορούσε να είναι ιδιαίτερα χρήσιμη για μελέτες για τη φωσφορυλίωση των κυτταρικών πρωτεϊνών. Phosphoproteomic τεχνικές έχουν γίνει όλο και πιο αποτελεσματική στον εντοπισμό των πρωτεϊνών κατά τα τελευταία έτη. Κατανοώντας τα δεδομένα που προκύπτουν, ωστόσο, είναι δύσκολο, τόσο λόγω της δυναμικής φύσης του κυτταρική σηματοδότηση, και επειδή σηματοδότησης εμφανίζει πολλές επικαλύψεις και μεγάλη απολύσεων [10], [11]. Για να κατανοήσουμε αυτά τα δεδομένα και να ξεπεράσουν τους περιορισμούς που επιβάλλονται από εκπροσωπούν μεταγωγής σήματος, όπως γραμμικά μονοπάτια, υπάρχει σαφής ανάγκη για εργαλεία και τις μεθόδους που ενσωματώνουν την ανάλυση των δεδομένων και γραφικών παραστάσεων [2], [12]. Τα εργαλεία θα πρέπει να επιτρέπουν στους ερευνητές να επιλέξετε στατιστικές τεχνικές με τις κατάλληλες βασικές υποθέσεις για τον τύπο των δεδομένων που αναλύονται, και να απεικονίσει τα αποτελέσματα με τρόπο που να δείχνει τις υποθέσεις για περαιτέρω συλλογή και πειράματα δεδομένων.

Ένα υπόψη ότι είναι ιδιαίτερα σημαντικό όταν αναλύοντας πρωτεομική δεδομένα φασματομετρία μάζας είναι πως οι τιμές που λείπουν χειρισμός. Με προσεκτική εφαρμογή των μέσων υψηλής ανάλυσης, φασματομετρία μάζας έχει πολύ χαμηλό ποσοστό ψευδώς θετικών [13], πράγμα που σημαίνει ότι μπορεί να έχουμε υψηλή εμπιστοσύνη στα δεδομένα όταν εντοπίζονται πρωτεΐνες. Παρ ‘όλα αυτά, το ψευδώς αρνητικό ποσοστό είναι πιθανό να είναι υψηλή και phosphoproteomic ανάλυση εξαρτάται από την έκταση της βελτιστοποιημένη εμπλουτισμού δείγματος [14], το πεπτίδιο κλασματοποίησης [15], [16], στοιχειομετρία θέση φωσφορυλίωσης [17] και το ψήφισμα φασματόμετρο μάζας, με πρόσφατες βελτιώσεις με στόχο την ελαχιστοποίηση του κλάσματος των πεπτιδίων σε σύνθετα δείγματα που λείπει ο ανιχνευτής [18]. Οι περισσότεροι που χρησιμοποιούνται συνήθως εργαλεία λογισμικού για στατιστικές αναλύσεις, όπως

k

-means ή ιεραρχική ομαδοποίηση, απαιτούν μια προσέγγιση καταλογισμό να ασχοληθεί με τα ελλείποντα στοιχεία. Καταλογισμό μηδενικά ως σύμβολα κράτησης θέσης για να αντιπροσωπεύουν την έλλειψη στοιχείων είναι μια πολύ απλή προσέγγιση που χρησιμοποιείται συχνά. Καταλογισμό μηδενικά είναι ακατάλληλη για αυτά τα δεδομένα, ωστόσο, επειδή μηδενικές τιμές επηρεάζουν τις στατιστικούς υπολογισμούς, όταν αντιμετωπίζονται ως δεδομένα. Εναλλακτικές μέθοδοι για την εκτίμηση τιμές που λείπουν με βάση τα προηγούμενα δεδομένα έχουν περιγραφεί, αλλά αυτές οι μέθοδοι είναι κατάλληλες όταν λείπουν μόνο λίγες τιμές [19] – [21], ή όταν υπάρχουν πολύ ισχυρά υποθέσεις μπορούν να γίνουν στη δομή συνδιασποράς των δεδομένων [ ,,,0],22], [23] που είναι ρεαλιστικό για πρωτεομική δεδομένων. Είναι παράλογο για να εξάγουμε συμπεράσματα σχετικά με τις τιμές που λείπουν χρησιμοποιώντας αυτές τις μεθόδους σε phosphoproteomic δεδομένων, επειδή μπορεί να υπάρχουν περισσότερες τιμές που λείπουν από τα δεδομένα. Ως εκ τούτου, η πιο άμεση προσέγγιση είναι να υπολογίσουμε στατιστικά σχέσεις χρησιμοποιώντας μόνο τις παρατηρούμενες μεταβλητές και να αγνοήσει όλα τα ελλείποντα μεταβλητές. Χρησιμοποιήσαμε αυτή την προσέγγιση ως σημείο εκκίνησης για να αναζητήσει βελτιωμένες μεθόδους για την ανάλυση της δομής των δεδομένων, η οποία θα εφαρμόζεται σε phosphoproteomic δεδομένα από δείγματα καρκίνου του πνεύμονα [24]. Η προσέγγιση αυτή βελτίωσε σημαντικά την ανάλυση των συστάδων εντοπίζονται σε αραιά σύνολα δεδομένων τυπικό της πρωτεομικής μελέτες. Επιπλέον, η ανάλυση μας των σχολιασμών λειτουργίας των γονιδίων και των αλληλεπιδράσεων μεταξύ πρωτεϊνών μέσα στα σμήνη προταθεί αρκετές οδούς μυθιστόρημα του οδηγού του καρκίνου και τις πιθανές συνδέσεις μεταξύ αυτών των οδών και των πρωτεϊνών που δεν έχουν προηγουμένως χαρακτηριστεί.

Αποτελέσματα

Ενσωμάτωση και Ομαδοποίηση μέθοδοι

ομάδες πρωτεϊνών φωσφορυλιώνεται στα ίδια δείγματα μπορεί να υποδεικνύει οδούς ενεργοποιούνται σε διαφορετικές κατηγορίες των όγκων σηματοδότησης, οπότε είναι χρήσιμο να προσπαθήσει να βρει συστάδες που ορίζονται από στατιστικές μεθόδους σε phosphoproteomic δεδομένων. Phosphoproteomic δεδομένα από Rikova

et al.

[24], επανεξετάστηκαν για τη διαλεύκανση των σχέσεων μεταξύ των πρωτεϊνών φωσφορυλιώνεται σε δείγματα καρκίνου του πνεύμονα που δεν είχαν προηγουμένως εκτιμηθεί. Αυτό το σύνολο δεδομένων, το οποίο περιλαμβάνει φωσφορυλιωμένες πρωτεΐνες τυροσίνης από 41 μη-μικροκυτταρικό καρκίνο του πνεύμονα κυτταρικές γραμμές (NSCLC) και πάνω από 150 όγκους NSCLC, μετατράπηκε σε έναν πίνακα του 2482 γονιδίων με 233 δείγματα, είναι ιδιαίτερα δύσκολο για τους αλγόριθμους ομαδοποίησης επειδή 95,7% του τραπεζιού κύτταρα δεν περιέχουν δεδομένα. Πολλές πρωτεΐνες εντοπίστηκαν μόνο σε υποομάδες των δειγμάτων, και δεν μπορούμε να γνωρίζουμε αν αυτά είναι πραγματικά απουσιάζει ή απλά δεν ανιχνεύεται. Χρήση μηδενικά να εκπροσωπεί κανένα στοιχείων θα συσκοτίσει στατιστικούς υπολογισμούς, διότι όλα τα μηδενικά συσχετίζονται μεταξύ τους. Η προσέγγισή μας με το λογισμικό R μας επέτρεψε να εξερευνήσουν τη χρήση NA (ερμηνεύεται ως μη διαθέσιμα στοιχεία) ως τιμή που ήταν πιο κατάλληλο από το μηδέν για να αντιπροσωπεύουν την απουσία των δεδομένων.

Αναλύσαμε τα δεδομένα, με ή χωρίς τον καταλογισμό μηδενικά για το NAS χρησιμοποιώντας δύο χρησιμοποιούνται συνήθως στατιστικά μέτρα της απόστασης: Pearson ή Spearman απόσταση, το οποίο είναι ένα μείον η απόλυτη τιμή του Pearson ή Spearman συσχέτιση μεταξύ της κάθε πρωτεΐνης και κάθε άλλη πρωτεΐνη, και Ευκλείδεια απόσταση, η οποία μετρά τη σχετική εγγύτητα σε πολυδιάστατο χώρο εκάστης πρωτεΐνης σε κάθε άλλη πρωτεΐνη. Pearson και Spearman συσχετίσεις ήταν πολύ κοντά το ένα στο άλλο, έτσι ώστε Spearman χρησιμοποιήθηκε για τις επόμενες αναλύσεις. Η μετατροπή των δεδομένων σε στατιστική απόσταση επιτρέπει καμία σχέση (α απόσταση από ΝΑ) που πρόκειται να ρυθμιστεί σε ένα αυθαίρετα μεγάλη τιμή (100 φορές τη μέγιστη πραγματική απόσταση μεταξύ οποιωνδήποτε δύο πρωτεϊνών? Βλέπε Υλικά και Μέθοδοι). μήτρες Απόσταση ακολούθως μετατρέπονται με πολυδιάστατη κλιμάκωση να καρτεσιανές συντεταγμένες σε δύο ή τρεις διαστάσεις για την οπτικοποίηση δομή δεδομένων (Σχήματα 1 και S1). Χρησιμοποιώντας ΕΓ να εκπροσωπεί ελλείπουσες τιμές οδήγησαν σε δομές δεδομένων (Σχήμα 1, μπλε σημεία) που ήταν πολύ πιο υψηλά επιλυθεί από εκείνες όπου μηδενικά αντικαθίσταται NAs (Σχήμα 1, κόκκινα σημεία).

(Α) και Spearman ( Β) απόσταση πίνακες που υπολογίζεται από δεδομένα, όπου ΕΓ (μπλε σημεία) ή μηδενικά (κόκκινα σημεία) χρησιμοποιήθηκαν για να εκπροσωπεί την απουσία phosphoproteomic σήματα φασματομετρία μάζας. Τα δεδομένα απεικονίζονται στην ίδια κλίμακα στην κύρια γραφήματα? ένθετα δείχνουν το μέγεθος και την κατανομή των κόμβων από απόσταση μήτρες υπολογίζεται από τα δεδομένα χρησιμοποιώντας μηδενικά για να εκπροσωπεί κανένα σήματα.

Η

τρισδιάστατες δομές στατιστικά στοιχεία επιλυθεί από Spearman (Σχήμα S1 Α, Β) και Ευκλείδεια (Σχήμα S1 C, D) απόσταση ήταν πολύ διαφορετικό από κάθε άλλο επειδή χρησιμοποιούν διαφορετικές μεθόδους για τον υπολογισμό των στατιστικών σχέσεων. Μερικές πρωτεΐνες που δεν είχαν καλά επιλυθεί από μία μέθοδο διαχωρίστηκαν από το άλλο, γεγονός που υποδηλώνει ότι ο συνδυασμός αυτών των δύο μεθόδων θα πρέπει να επιλύσει περαιτέρω τα δεδομένα. Συνδυάζοντας διάφορες πηγές ανομοιότητας έχει βρεθεί ότι είναι χρήσιμη στην αναγνώριση προτύπων από το διαφορετικά μέτρα ανομοιότητας μπορεί τονίζουν διαφορετικούς τύπους πληροφοριών [25]. Η κλίμακα άθροισμα των Spearman και Ευκλείδεια απόσταση, που προέρχεται από τους υπολογισμούς με το ΕΓ για να αντιπροσωπεύουν την έλλειψη στοιχείων, εκπροσωπήθηκε ως δύο ή τριών διαστάσεων Spearman-Ευκλείδειο ανομοιότητα (SED) (Σχήμα S1, E, F? Σχήμα S2, Α, Β? ταινία S1).

Αξιολόγηση των clustering Μέθοδοι

Ρωτήσαμε αν διαφορετικούς αλγορίθμους ομαδοποίησης θα μπορούσε να διακρίνει τις σχέσεις σε αυτά τα δεδομένα. Γραφήματα της δομής δεδομένων που παράγονται από πολυδιάστατη κλιμάκωση, στην οποία το μέγεθος και το χρώμα κόμβος αντιπροσώπευε το συνολικό ποσό των φωσφοπεπτιδίων, πρότεινε σχέσεις μεταξύ των πρωτεϊνών που θα μπορούσαν να εκτιμηθεί από χειροκίνητη εξερεύνηση της δομής των δεδομένων σε Cytoscape (Σχήμα S1). Εξερεύνηση και την επιλογή των συστάδων με βάση την εγγύτητα στο εσωτερικό της δομής δεδομένων σε τρεις διαστάσεις χρησιμοποιώντας PyMOL ήταν επίσης δυνατή (Σχήμα S2, ταινίες S1, S2? Βλέπε παρακάτω). Επειδή χειροκίνητη επιλογή των clusters σε μεγάλες δομές δεδομένων είναι επίπονη, αξιολογήσαμε αυτοματοποιημένη επιλογή των συστάδων χρησιμοποιώντας το

k

-centers,

k

-means, και πολυδιάστατη κλιμάκωση και t-διανεμηθεί γείτονα στοχαστική ενσωμάτωση ( t-ΑΕΕ, ref. [26]) χρησιμοποιώντας την ελάχιστη μέθοδο γεννητικό δένδρο για να επιλέξετε ομάδες με βάση την εγγύτητα.

για την αξιολόγηση σχηματισμών, ένας δείκτης υπολογίστηκε από το αρχικό δεδομένα που μέτρησαν την πυκνότητα των δεδομένων και τον αριθμό των γονίδια που τοποθετούνται στο γενικό μοτίβο της έκφρασης σε κάθε συστάδα (βλέπε Υλικά και Μέθοδοι και Πίνακας 1) .Αυτό δείκτη κατετάγη συστάδες που περιέχουν συνήθως φωσφορυλιωμένες πρωτεΐνες υψηλότερη από συστάδες πιο αραιοκατοικημένες με δεδομένα (υψηλότερο ποσοστό NA, Πίνακας 1). Με βάση αυτό το σημείο αναφοράς, η πιο αποτελεσματική μέθοδος ομαδοποίησης ήταν το ελάχιστο που εκτείνονται μέθοδος δέντρο στον ενσωματωμένο χώρο t-ΑΕΕ. t-ΑΕΕ είναι μια νέα τεχνική αναγνώρισης προτύπων που έχει ως στόχο να διαμορφώσει την τοπική δομή των δεδομένων σε ένα ενιαίο χάρτη, διασφαλίζοντας παράλληλα ότι οι ανόμοιες ομάδες του σημείου διαμορφώνονται μακριά [26]. Σχήμα 2 συγκρίνει συστάδες προσδιορίζονται από την ελάχιστη γεννητικού δένδρου στην πολυδιάστατη κλιμάκωση (Α) και t-ΑΕΕ (Β) ενσωματωμένο χώρο από την ανομοιότητα Spearman-Ευκλείδη. (Σχήμα S3 δείχνει δύο διαστάσεων t-ΑΕΕ γραφικά στο Cytoscape?. Σχήμα S2C, D και Ταινίες S1, S2 δείχνει τρισδιάστατη t-ΑΕΕ Ενσωμάτωση γράφημα χρησιμοποιώντας PyMOL) Εμπειρικά, βρήκαμε ότι η T-ΑΕΕ επιλυθεί συστάδες από τη συνδυασμένη Spearman -Euclid ανομοιότητας πιο αποτελεσματικά από ό, τι είτε από Spearman ή Ευκλείδης ανομοιότητας μόνο (υψηλότερο άθροισμα Index, Πίνακας 1). Σε γενικές γραμμές, η συμμετοχή του συμπλέγματος ορίζεται από διαφορετικές μεθόδους αποκλίνουν όλο και περισσότερο κατά την ομαδοποίηση πρωτεΐνες που ήταν πιο αραιά αντιπροσωπεύονται στα δεδομένα. Clusters επιλύθηκαν πιο αποτελεσματικά όταν η μήτρα απόσταση θεωρήθηκε ως «φορέας χαρακτηριστικό» σε λεγόμενο αναπαράσταση ανομοιότητας (συγκρίνετε Μέθοδος: ανομοιότητας εναντίον απόσταση, Πίνακας 1) [27]. μέθοδοι ομαδοποίησης που εφαρμόζεται στα ανεπεξέργαστα δεδομένα, ή σε δεδομένα όπου μηδενικά αντιπροσώπευε την απουσία δεδομένων, δεν ήταν επιτυχείς (δεν φαίνεται)? συνέκλιναν σε ένα μόνο μεγάλο σύμπλεγμα, αφήνοντας μια σειρά από επιμέρους πρωτεϊνών.

(SED) μειώνεται σε δύο διαστάσεις με πολυδιάστατη κλιμάκωση (Α) ή t-ΑΕΕ (Β). 100 συστάδες επιλέχθηκαν με ενιαία σύνδεση δέντρα ελάχιστο spanning. Οι κόκκινοι κύκλοι που γύρω από τα συμπλέγματα.

Η

Δεδομένα αντιπαραθέσεων

Η έννοια της «ασαφούς ομαδοποίησης» αγκαλιάζει την ιδέα ότι η ένταξη σε περισσότερες από μία ομάδα είναι δυνατό. Δυστυχώς, ασαφής

C-

σημαίνει ομαδοποίηση επιλυθεί μόνο λίγες διακριτές συστάδες που περιέχουν λιγότερο από 10% των πρωτεϊνών στο σύνολο των δεδομένων (βλέπε Πίνακα 1 μύθο). Αν και αυτή η συγκεκριμένη τεχνική ομαδοποίησης αποδείχθηκε ότι είναι περιορισμένης χρήσης για αυτά τα δεδομένα, η έννοια της ασαφούς ή επικαλυπτόμενες όρια μεταξύ των συστάδων είναι ωστόσο σημαντικό να έχουμε κατά νου όταν εξετάζει συμπλέγματα προσδιορίζεται με οποιαδήποτε μέθοδο. Η ιδιότητα του μέλους σε μεμονωμένες ομάδες, που αναγνωρίζονται από το σκληρό μεθόδους ομαδοποίησης στο Spearman, Ευκλείδεια, ή SED ενσωμάτωση χωρίζεται σε διαφορετικές ομάδες τρόπους που περιλαμβάνουν ακόμα και τους πιο στατιστικά καλά-εκπροσωπούνται πρωτεΐνες (Εικόνα S4). Επιδιώκουμε να εκτιμήσουν τα πρότυπα της φωσφορυλίωσης τυροσίνης να φωτιστούν διαφορετικές διαδρομές που μπορεί να οδηγούν ή να δραστηριοποιούνται σε διαφορετικούς τύπους καρκίνου του πνεύμονα. Ενώ αξίζει να προσδιοριστεί προσεκτικά η οποία καθορίζει πρωτεϊνών είναι πιο συχνά συν-ενεργοποιημένα, φωσφορυλιωμένη τυροσίνη πρωτεϊνών που βρέθηκαν σε πολλά δείγματα μπορεί να ενεργοποιηθεί με πολλαπλές επικαλυπτόμενες οδούς, και μία ή περισσότερες καθοδικούς τελεστές μπορούν να ενεργοποιούνται από περισσότερους από έναν τυροσινικής κινάσης [28 ], [29]. Έτσι, η εκχώρηση των πρωτεϊνών σε ένα σύμπλεγμα δεν θα πρέπει να θεωρηθεί ως απόδειξη για τον αποκλεισμό του από τη συμμετοχή σε ένα σηματοδοτικό μονοπάτι που προσδιορίζονται σε άλλο σύμπλεγμα.

Με αυτό κατά νου, θα διερευνηθεί το πώς οι αναλύσεις που βασίζονται σε δεδομένα σε συνδυασμό με hypothesis- οδηγείται ανάκριση και φιλτραρίσματος μπορούν να χρησιμοποιηθούν για να μαζέψει περισσότερες πληροφορίες από το σύνολο δεδομένων καρκίνο του πνεύμονα. Υποθέσαμε ότι η παρουσία ενός ή περισσοτέρων κινασών της τυροσίνης σε μεμονωμένες συστάδες εμπλέκει αυτές τις κινάσες σε οδούς (είτε άμεσα ή έμμεσα) που προκαλούν φωσφορυλίωση τυροσίνης άλλων πρωτεϊνών στο εν λόγω σύμπλεγμα. Έτσι, εντοπίσαμε προσωρινά συστάδες από κινάσες τυροσίνης, όπου υπάρχουν. Συστάδες που περιείχε τα πιο ιδιαίτερα φωσφορυλιωμένων πρωτεϊνών σε αυτά τα δεδομένα που περιέχονται FAK (ΡΤΚ2), LCK, LYN, FYN, DDR1 και EGFR. Επικεντρωθήκαμε σε αυτά τα συμπλέγματα, και δύο άλλες συστάδες που περιέχουν ALK και ΚΟΑ, για λεπτομερή έρευνα. Αξιολογήσαμε και φιλτράρεται συσπειρώσεων που θα βασίζονται σε εσωτερικά κριτήρια, δηλαδή με βάση τα πρωτογενή στοιχεία, και εξωτερικά κριτήρια από την αλληλεπίδραση των πρωτεϊνών και βάσεις δεδομένων γονιδιακής οντολογίας (GO) [30] – [32].

Για να αξιολογηθεί η εγκυρότητα συστάδων, εξετάσαμε το υποσύνολο των πρωτογενών δεδομένων που περιέχονται σε αυτά. Έχουμε επικεντρωθεί στις μεθόδους ομαδοποίησης που απέδωσε καλά, σύμφωνα με τα κριτήρια που ορίζονται στον Πίνακα 1. Τα δεδομένα απεικονίστηκαν γραφικά και χάρτες θερμότητας ταξινομούνται κατά φθίνουσα περιεχόμενο φωσφοπεπτιδίου. Το ταξινομημένο χάρτη θερμότητας, η οποία μπορεί να θεωρηθεί ένα τρισδιάστατο ιστόγραμμα με το

z

-dimension αντιπροσωπεύει ποσότητα από μια χρωματική κλίμακα, παρέχει μια επισκόπηση για την αξιολόγηση της συμμόρφωσης σε ένα παρόμοιο μοτίβο στα πρωτογενή δεδομένα. Οι συστάδες που περιέχουν τα πιο υψηλά εκπροσωπούνται πρωτεΐνες στα δεδομένα του καρκίνου του πνεύμονα φαίνεται στα σχήματα S4 και S5. Clusters αξιολογήθηκαν επίσης χρησιμοποιώντας το ευρετήριο που μετρά την πυκνότητα δεδομένων, όπως περιγράφεται παραπάνω (Πίνακας 2). ΡΑΚ (ΡΤΚ2) και LCK ομαδοποιήθηκαν μαζί με MAPK14 (ρ38α) και GSK3A (η οποία ήταν παρούσα σε όλα τα δείγματα) από όλα τα μέτρα εκτός από Spearman (Σχήμα S4C? Πίνακα 2, Spearman t-ΑΕΕ ομάδα 108). Συστάδες που περιέχουν EGFR ήταν επίσης σε μεγάλο βαθμό παρόμοια, ομαδοποίηση EGFR με DDR1, LYN και FYN (Σχήμα S5), εκτός από το ότι

k-

σημαίνει στην Ευκλείδεια ενσωμάτωση ομαδοποιούνται EGFR με το σύμπλεγμα FAK-LCK (Σχήμα S4A? Πίνακας 2 , Ευκλείδης

k

-means ομάδα 56). Παρά τις εξαιρέσεις αυτές, υπήρξε σημαντική συμφωνία μεταξύ των διαφορετικών μεθόδων ομαδοποίησης για τα πιο ιδιαίτερα εκπροσωπούνται πρωτεϊνών στο σύνολο δεδομένων.

Η

Διαφορετικές ενσωμάτωση (Spearman εναντίον Ευκλείδεια) που παράγονται αλληλεπικαλυπτόμενες αλλά διακριτές ομάδες, και η συνδυασμένη ( SED) ενσωμάτωση παράγεται ένα εύλογο συναινετική άποψη (Σχήμα S4D, S5D). Λαμβάνοντας υπόψη ότι τόσο Spearman και Ευκλείδεια ανομοιότητα καθορίζουν συστάδες που είναι στατιστικά σημαντικές, μπορούμε επίσης να συνδυαστεί με ένα διαφορετικό τρόπο, με τη συγχώνευση επικαλυπτόμενες ομάδες μετά την ομαδοποίηση, στη συνέχεια, το φιλτράρισμα. Εφαρμόζοντας την προσέγγιση αυτή στην ομάδα FAK-LCK (Σχήμα S4E) επιστρέφει ένα σύμπλεγμα πολύ παρόμοια με το σύμπλεγμα SED (Σχήμα S4D). Ομοίως, δεν υπήρχε καλή συμφωνία σύγκριση του συμπλέγματος EGFR όταν Spearman και Ευκλείδεια ενσωμάτωση συνδυάστηκε πριν (Σχήμα S5D, SED t-ΑΕΕ) ή μετά (Σχήμα S5E) ο αλγόριθμος ομαδοποίησης εκτελέστηκε. Αυτά τα αποτελέσματα έδειξαν ότι ο συνδυασμός Spearman και Ευκλείδεια embeddings είτε πριν είτε μετά την ομαδοποίηση είναι χρήσιμο να αντιπροσωπεύουν μια συναινετική άποψη των συστάδων. Το σύμπλεγμα SED (t-ΑΕΕ) FAK (ΡΤΚ2) (Σχήμα S4D) και η συνδυασμένη σύμπλεγμα Spearman και Ευκλείδεια EGFR (Εικόνα S5E) απεικονίστηκαν γραφικά ως δίκτυα στο Σχήμα 3, ενσωματώνοντας στοιχεία από τις βάσεις δεδομένων πρωτεϊνικών αλληλεπιδράσεων ως ακμές (εξηγείται σε εξωτερικές αξιολογήσεις, παρακάτω).

Α) Cluster περιέχει LCK και ΡΑΚ (ΡΤΚ2) που προέρχεται από t-ΑΕΕ SED ενσωμάτωση (Σχήμα S4D). Β) Cluster περιέχουν EGFR και LYN, που προέρχεται από την πρώτη εκτέλεση t-ΑΕΕ Spearman και Ευκλείδεια ενσωμάτωση ξεχωριστά, τότε το συνδυασμό αυτών των συσπειρώσεων και φιλτραρίσματος (Σχήμα S5E). μέγεθος και το χρώμα Κόμβος (λευκό έως κίτρινο) υποδεικνύει το συνολικό αριθμό των φωσφοπεπτιδίων ανιχνεύθηκαν σε όλα τα δείγματα. Άκρα είναι δεδομένα αλληλεπίδρασης των πρωτεϊνών από String (string.embl.de/), GeneMANIA (genemania.org/), και τα δεδομένα κινάση-υποστρώματος από PhosphoSitePlus (phosphosite.org). Για λόγους σαφήνειας, δεδομένου ότι τα γραφήματα από αυτά τα συμπλέγματα, συμπεριλαμβανομένων όλων των επιμέρους άκρα ήταν δύσκολο να ερμηνευθούν, άκρες συγχωνεύθηκαν, και βάρη άκρη, που δείχνουν τη δύναμη των αποδεικτικών στοιχείων για την αλληλεπίδραση, αθροίστηκαν για να προσδιοριστεί το πάχος της γραμμής άκρη. δεδομένα του δικτύου αλληλεπίδραση πρωτεΐνης που εισάγονται R για τη συγχώνευση άκρη και σχεδιάστηκαν με RCytoscape όπως περιγράφεται στο Υλικά και Μέθοδοι. Θέση κόμβου σε γραφήματα δίκτυο που χρησιμοποιούν μια άκρη-σταθμισμένη, την άνοιξη-ενσωματωμένη διάταξη στην οποία ιδιαίτερα συνδεδεμένη ομάδα κόμβων πιο κοντά. Το σύμπλεγμα στο (Α) είχαν 107 φορές πιο άκρες, 544 φορές μεγαλύτερη του βάρους άκρη, και 7,5 φορές πιο GO όρους που ανακτώνται από το μέσο όρο τυχαία συμπλέγματος. Το σύμπλεγμα στο (Β) είχαν 88 φορές περισσότερες ακμές, 499 φορές μεγαλύτερη του βάρους άκρη, και 10,8 φορές περισσότερο GO όρους που ανακτώνται από το μέσο όρο τυχαία συμπλέγματος. Ως πρόσθετο μέτρο, ο αριθμός των ακμών που αναμένονται από αυτούς τους κόμβους σε ολόκληρο το δίκτυο του καρκίνου του πνεύμονα υπολογίσθηκε (βλέπε Υλικά και Μέθοδοι). Η LCK /ΡΤΚ2 δικτύου (Α) είχε 122 περισσότερες ακμές, και το δίκτυο EGFR (Β) είχε 67 περισσότερα άκρα, από ό, τι αναμένεται από αυτόν τον υπολογισμό.

Η

Ένας σημαντικός στόχος της λεπτομερούς ανάλυσης μεγάλων συνόλων δεδομένων είναι να αποκαλύψει νέους μηχανισμούς ή μονοπάτια σηματοδότησης. ΜΕΤ, η κινάση τυροσίνης υποδοχέα για παράγοντα ανάπτυξης ηπατοκυττάρου (HGF) έχει δειχθεί ότι οδηγεί ογκογένεση όταν υπερενεργοποιημένος σε έναν αριθμό καρκίνων, συμπεριλαμβανομένου του καρκίνου του πνεύμονα [33]. Κινάσης αναπλαστικού λεμφώματος (ALK) είναι μια σημαντική ογκογόνος οδηγό, ακόμη είναι λιγότερο μελετηθεί από πολλούς άλλους υποδοχείς-κινάσες τυροσίνης (RTK) [34]. μελών συμπλέγματος για συμπλέγματα που προσδιορίζονται από τα στοιχεία που εξετάστηκαν εδώ περιέχουν ΚΟΑ και ALK ήταν πιο ποικίλη όταν διαφορετικές μέθοδοι χρησιμοποιήθηκαν (Εικόνες S6, S7, S8, Πίνακας 2). Clusters που περιέχουν ΜΕΤ κυμαίνονταν σε μέγεθος από 8 να 162 πρωτεΐνες, με μικρή επικάλυψη (Πίνακας 2, Εικόνα S6). Καμία από τις ομάδες, που αναγνωρίζονται αυτόματα φάνηκε να είναι ιδιαίτερα συναρπαστικό βασίζεται σε εσωτερικές αξιολογήσεις, ωστόσο, συνδυάζει συστάδες από t-ΑΕΕ Ευκλείδεια (Σχήμα S6B) και Spearman (Σχήμα S6C) την ενσωμάτωση, στη συνέχεια, το φιλτράρισμα, ορίζεται ένα εύλογα μεγέθους συμπλέγματος που έκανε η περισσότερο νόημα από τις εσωτερικές αξιολογήσεις (Σχήμα 4, χαμηλό ποσοστό NA, Πίνακας 2). Αυτό το σύμπλεγμα εντοπίστηκαν συνεργασία των RTKs EphA2, erbB2, και erbB3 με το ΚΟΑ, η οποία μπορεί να παρέχει επιπλέον στόχους για μεταστατικούς όγκους του πνεύμονα.

(βλέπε Υλικά και Μέθοδοι). Ο χάρτης θερμότητας (Α) αντιπροσωπεύει δεδομένα που λείπουν (NA) ως μαύρο, και την αύξηση της κλίμακας μετράει πεπτίδιο που φαίνεται σε μπλε-κίτρινο κλίμακα (βασικό χρώμα, αριστερά). Τα δεδομένα κατά φθίνουσα ποσά κλιμακωμένων μετράει πεπτιδίου για γονίδια (που μειώνεται από πάνω προς τα κάτω) και τα δείγματα (που μειώνεται από τα αριστερά προς τα δεξιά). Β) συναντήθηκαν στον καρκίνο του πνεύμονα εμφανίζεται ως δίκτυο πρωτεΐνη αλληλεπίδρασης γραφικά ως στο Σχήμα 3. Αυτό το σύμπλεγμα είχε το 70-φορές περισσότερο άκρες, 847 φορές μεγαλύτερη του βάρους άκρη, πέντε φορές περισσότερο GO όρους που ανακτώνται από το μέσο όρο τυχαία συστάδα, και 249 περισσότερα άκρα από ότι θα αναμενόταν από αυτούς τους κόμβους από το σύνολο του δικτύου του καρκίνου του πνεύμονα.

η

φωσφορυλιωμένη ΑΙΚ ανιχνεύθηκε σε μικρότερο αριθμό δειγμάτων στο σύνολο δεδομένων που εξετάστηκαν, η οποία δημιουργεί μια δύσκολη στατιστικό πρόβλημα που απαιτεί μια συνδυασμός προσεγγίσεων για να δώσει πιθανή βιολογική διορατικότητα. Η

k-

σημαίνει συμπλέγματος δεν περιέχουν πρωτεΐνες των οποίων πρότυπο φωσφορυλίωσης στην πρωτογενή δεδομένα και συσχέτιση (Σχήμα S7A), και το σύμπλεγμα SED (t-ΑΕΕ) που περιέχει ALK ήταν πολύ μεγάλο, που περιέχει έναν αριθμό της αραιά-εντοπιστεί πρωτεΐνες (Εικόνα S7D). Οι μόνες γονιδίων με παρόμοια πρότυπα συμπλέγματος μεταξύ t-ΑΕΕ Ευκλείδης και Spearman clusters ήταν ALK και EML1 (Σχήμα S7B, C). Ως εκ τούτου, πειραματίστηκαν με διαφορετικές προσεγγίσεις για να συνδυάσει και τα σμήνη των φίλτρων.

ALK και εχινοδερμάτων μικροσωληνίσκους πρωτεΐνη που συνδέεται, όπως 4 (EML4) συσχετίστηκαν σε 6 δείγματα, η οποία εντοπίστηκε στο σύμπλεγμα Spearman (t-ΑΕΕ) (Σχήμα S7C ). Τούτο κατεγράφη από Rikova,

et al.,

Οποίος κομψά απέδειξε ότι μια χρωμοσωμική μετάθεση παρήγαγε ένα υβριδικό

ALK-EML4

γονιδίου σε ένα υποσύνολο των περιπτώσεων, δημιουργώντας ένα ογκογονίδιο ανάλογο με nucleophosmin-αναπλαστικό λέμφωμα κινάσης (ΝΡΜ-ΑΙΚ), το οποίο οδηγεί αναπλαστικό λέμφωμα μεγάλων κυττάρων [24], [34], [35]. Υπάρχουν περισσότερες περιπτώσεις, όμως, όπου EML4 εντοπίστηκε και ALK δεν ήταν (Σχήμα S8A), και περιπτώσεις όπου ανιχνεύθηκε ALK και EML4 δεν ήταν (Σχήμα S8B). Επιπλέον, υπάρχει ένας αριθμός πρωτεϊνών που προσδιορίζονται σε ένα δείγμα που περιέχει EML4 αλλά όχι ALK (H3255, Σχήμα S8A, Β). Τα δεδομένα αυτά επηρεάζονται Ευκλείδεια ανομοιότητα περισσότερο από Spearman, και ως εκ τούτου μάσκα δυνητικά ενδιαφέρουσες σχέσεις. Μια πιο κατατοπιστική ομαδοποίηση παρήχθη συνδυάζοντας πρώτα συστάδες από διαφορετικές μεθόδους (Σχήμα S8C), και στη συνέχεια διήθηση για ALK και πρωτεΐνες που είναι παρούσες τουλάχιστον δύο φορές (Σχήμα 5).

(Α) και του δικτύου πρωτεΐνη αλληλεπίδρασης (Β ). Αυτή η συστάδα προέρχεται από συστάδες συνδυασμένα από το Σχήμα S8B και C στα οποία οι πρωτεΐνες που υπάρχουν σε ένα μόνο δείγμα, ή τα δείγματα που περιέχουν ένα μόνο γονίδιο, διηθούνται. Αυτό το σύμπλεγμα είχε δώδεκα φορές περισσότερα άκρα, δέκα φορές μεγαλύτερο βάρος άκρη από το μέσο όρο τυχαία συστάδα, και 7 περισσότερα άκρα από ότι θα αναμενόταν από αυτούς τους κόμβους σε ολόκληρο το δίκτυο του καρκίνου του πνεύμονα. Οι μεμονωμένες άκρες φαίνονται από String (μπλε) και GeneMANIA (μαύρο).

Η

Επειδή οι μέθοδοι για τον εντοπισμό ALK και μετεωρολογικές clusters (σχήματα 4 και 5) που εμπλέκονται αρκετά βήματα πέρα ​​από αλγορίθμους ομαδοποίησης, δηλαδή, που συνδυάζουν συμπλέγματα και το φιλτράρισμα με διάφορους τρόπους, περιγράφουμε τις μεθόδους αυτές ως «αντιπαραθέσεων δεδομένα». Ο όρος αυτός προορίζεται να υποδηλώσει κάποιο επιμέλεια των δεδομένων σε ομάδες χρησιμοποιώντας ποσοτική φίλτρα, ξεκινώντας με συμπλέγματα προσδιορίζονται από αυτόματες μεθόδους. Να επικυρώσει περαιτέρω τις μεθόδους αυτές, εξετάσαμε συστάδες με τη χρήση εξωτερικών αξιολογήσεων.

Οι εξωτερικές αξιολογήσεις

Οι συνεργατικοί σχηματισμοί προσδιορίζονται από τα στατιστικά στοιχεία που περιέχουν πρωτεΐνες που αλληλεπιδρούν φυσικά είναι πιθανόν να αντιπροσωπεύουν λειτουργικό δίκτυα σηματοδότησης. αλληλεπίδρασης των πρωτεϊνών και GO δεδομένα ανακτώνται από εξωτερικές βάσεις δεδομένων χρησιμοποιήθηκαν ως πρόσθετα μέτρα της βιολογικής σημασίας και την εγκυρότητα των συστάδων που αναφέρονται ανωτέρω. Αυτές οι βάσεις δεδομένων είναι ατελείς εργασίες σε εξέλιξη [36], [37], ωστόσο, εάν οι συστάδες εμπλέκουν πραγματική μονοπάτια θα είναι πιο πιθανό από ό, τι μια τυχαία επιλογή των γονιδίων από το σύνολο δεδομένων για να δείξει τις αλληλεπιδράσεις και λειτουργική συνέργια. Ως μάρτυρας, επιλέξαμε τυχαία 11-34 πρωτεϊνών από το σύνολο δεδομένων (το μέγεθος των συστάδων κρίναμε ενημερωτικό) και προσδιορίζεται το μέσο αριθμό και το βάρος των ακμών που αποτελούν αποδεικτικά στοιχεία για τη σωματική ή γενετικές αλληλεπιδράσεις για τυχαίες συστάδες (βλέπε Υλικά και Μέθοδοι). Τα δίκτυα φαίνεται στα σχήματα 3 και 4Β όλοι είχαν πάνω από εξήντα φορές περισσότερα άκρα (και 500 φορές περισσότερο βάρος άκρη) πάνω από το βασικό από τυχαία επιλεγμένα πρωτεΐνες (βλέπε σχήματα 3 και 4 λεζάντες).

Χρησιμοποιήσαμε τυχαία clusters για τον προσδιορισμό του όρου εμπλουτισμό φόντο GO, η οποία ήταν περίπου ένα εμπλουτισμένο όρος GO για κάθε τρία γονίδια που επιλέγονται τυχαία από το σύνολο των δεδομένων του καρκίνου του πνεύμονα (βλέπε Υλικά και Μέθοδοι). Αυτό το σχετικά υψηλό υπόβαθρο για τη θητεία εμπλουτισμό GO δείχνει ότι οι όροι GO για τις συσπειρώσεις θα πρέπει να ερμηνεύονται με προσοχή. Παρ ‘όλα αυτά, ο αριθμός των όρων GO ανακτώνται ήταν περισσότερο από πέντε φορές πάνω από υπόβαθρο για FAK (ΡΤΚ2), EGFR, και μετεωρολογικές δίκτυα (Σχήματα 3 και 4). Μια περίληψη των όρων GO για αυτά τα συμπλέγματα, και όλα τα συμπλέγματα που προσδιορίζονται από t-ΑΕΕ SED 2D ενσωμάτωση (ένταξη συμπλέγματος και GO συνοπτικούς πίνακες, διαθέσιμα στο διαδίκτυο), αποκάλυψε συνδέσεις με πολλά σηματοδότησης, του μεταβολισμού, και η διαδικασία της ανάπτυξης-ελέγχου στην FAK ( ΡΤΚ2) ομάδα, εμπλέκοντας αυτές τις πρωτεΐνες ως κόμβους της ολοκλήρωσης του σήματος για πολλά μονοπάτια σηματοδότησης καρκίνο του πνεύμονα. Το σύμπλεγμα EGFR είχε επίσης συνδέσεις με μεταγωγή σήματος και τον έλεγχο της ανάπτυξης, αλλά και τη διαφοροποίηση. Σε αντίθεση, το σύμπλεγμα ΚΟΑ είχε πολλές περισσότερες συνδέσεις στο κελί μετανάστευση, τον έλεγχο της οργάνωσης της ακτίνης, και την πρόσφυση, προτείνοντας ένα ρόλο για αυτές τις πρωτεΐνες σε μετάσταση.

Οι πρωτεΐνες του συμπλέγματος ALK δεν είναι τόσο καλά μελετημένη, και το σύμπλεγμα ALK GO όροι δεν είχαν αυξηθεί σημαντικά πάνω από το υπόβαθρο, αλλά έντεκα φορές περισσότερες ακμές (και δέκα φορές περισσότερο βάρος άκρη) ήταν παρόντες στο δίκτυο ALK σε σύγκριση με τυχαία πρωτεΐνες (Σχήμα 5). Η παρατήρηση ότι έντεκα φορές περισσότερες ακμές (και δέκα φορές περισσότερο βάρος άκρη) ήταν παρόντες στο δίκτυο ALK σε σύγκριση με τυχαία πρωτεΐνες έδειξε ότι το σύμπλεγμα ALK είναι άξιο περαιτέρω έρευνα.

Συν-ενεργοποίηση των κινασών τυροσίνης στον καρκίνο του πνεύμονα

31 από τα 58 RTKs στο ανθρώπινο γονιδίωμα ανιχνεύθηκαν σε αυτό το σύνολο δεδομένων, και όλες οι εννέα SFKs. Η συν-ενεργοποίηση των RTKs και SFKs παρατηρείται σε συστάδες που περιέχουν EGFR (Εικόνα 3Β) και ΜΕΤ (Εικόνα 4) πρότειναν την υπόθεση ότι η λειτουργική συνεργία μεταξύ δύο ή περισσοτέρων κινασών τυροσίνης παίζει ένα ρόλο στην ανάπτυξη του καρκίνου του πνεύμονα. Αυτό μας ώθησε να αναζητήσετε άλλες συστάδες στις οποίες δύο ή περισσότερες κινάσες τυροσίνης βρέθηκαν μαζί. Εμείς εντοπίστηκαν συστάδες ορίζεται από t-ΑΕΕ ενσωμάτωση του Spearman, Ευκλείδεια, ή σε συνδυασμό (SED) ανομοιότητα όπως περιγράφεται παραπάνω που περιέχουν δύο ή περισσότερες κινάσες τυροσίνης (Πίνακας 3). Περιοχή υποδοχέα δισκοϊδίνης 2 (DDR2) έχει πρόσφατα ταυτοποιηθεί ως πιθανός οδηγός καρκίνο του πνεύμονα [38], και συνδέθηκε με την SFK, HCK σε ομάδες που προέρχονται από όλες τις τρεις από αυτές τις embeddings (Πίνακας 3). DDR2 ήταν συχνά συν-ενεργοποιείται με HCK, αλλά και με DDR1, FGR, και PDGFRA σε αριθμό δειγμάτων, όπως προσδιορίζονται στο σύμπλεγμα SED (Σχήμα 6). Αυτές οι συστάδες συν-ενεργοποιημένων κινασών τυροσίνης δείχνουν συνεργασία σε μεταγωγή σήματος, και μπορεί να προτείνει θεραπείες με συνδυασμούς αναστολέων κινάσης [39], [40]

(Α), γραφικά ως χάρτης θερμότητας.? και (Β), γραφικά ως δίκτυο όπως στο Σχήμα 5, εκτός από τα επιπλέον ακμές περιλαμβάνονται από GeneMANIA: μαύρο – γενετικές αλληλεπιδράσεις? σκούρο τιρκουάζ – κοινόχρηστο τομείς πρωτεΐνης? βιολετί – φυσικές αλληλεπιδράσεις? πράσινο – μονοπάτι? και String: ανοιχτό τυρκουάζ – ομολογία? πορτοκαλί – γνώση? και μπλε – συνδυασμένη βαθμολογία. SHC1 συμπεριλήφθηκε επειδή συνδέεται στο δίκτυο για τις πρωτεΐνες αυτές για τις οποίες περιορίζονται τα δεδομένα αλληλεπίδρασης είναι γνωστή.

Η

Συζήτηση

Αυτό το έγγραφο διευθύνσεις επείγουσες κλήσεις για την ανάλυση πρωτεομικών δεδομένων με πιο αποτελεσματικό μεθόδους, και ενσωματώνουν αυτές τις αναλύσεις με αλληλεπίδραση πρωτεΐνης και η λειτουργία των βάσεων δεδομένων για τη διαλεύκανση των δικτύων που οδηγούν ασθένειες όπως ο καρκίνος του πνεύμονα [41] σηματοδότησης, [42]. Συνδυάζοντας τις μεθόδους ανάκρισης δεδομένων με τα εργαλεία οπτικοποίησης του υπολογιστή αυξάνει σημαντικά την ικανότητά μας να βγάλουν νόημα από μεγάλα σύνολα δεδομένων και τη σχέση τους με γονιδιώματος και βάσεις δεδομένων πρωτεϊνικών αλληλεπιδράσεων. Περιγράφουμε εδώ αποτελεσματικές προσεγγίσεις για να εξερευνήσετε τη δομή δεδομένων, επιλέξτε υποσύνολα με βάση τις στατιστικές σχέσεις, και να απεικονίσει τις επιλογές, όπως τα δίκτυα. Οι συνδυασμένες εσωτερικές και εξωτερικές αξιολογήσεις που προβλέπονται ισχυρές ενδείξεις ότι οι συστάδες των πρωτεϊνών που προσδιορίζονται εδώ αντιπροσωπεύουν λειτουργικά δίκτυα σηματοδότησης στον καρκίνο του πνεύμονα, διότι περιέχουν πρωτεΐνες που είναι γνωστό ότι αλληλεπιδρούν μεταξύ τους.

Το open-source πλατφόρμες λογισμικού R, Cytoscape και RCytoscape χρησιμοποιήθηκαν για αυτή τη μελέτη. scripting γλώσσες, όπως η R είναι πολύ πιο έμπειρος στο χειρισμό μεγάλων συνόλων δεδομένων από υπολογιστικά φύλλα, και το R έχει μια πλούσια βιβλιοθήκη εργαλείων στατιστικής ανάλυσης, συμπεριλαμβανομένων πολλών ανεπτυγμένων για τη βιοπληροφορική και τη συστημική βιολογία [1], [43].

You must be logged into post a comment.