PLoS One: Λειτουργικές κατηγορίες που σχετίζονται με τις συσπειρώσεις των γονιδίων που συν-εκφράζονται σε όλα τα NCI-60 Καρκίνος Γραμμές κυττάρων

Δεκέμβριος 5th, 2016 elhealth του καρκίνου άρθρα

Abstract

Ιστορικό

Ο NCI-60 είναι ένας πίνακας των 60 διαφορετικές ανθρώπινες καρκινικές κυτταρικές σειρές που χρησιμοποιούνται από το Εθνικό Ινστιτούτο Καρκίνου των ΗΠΑ για τη διαλογή ενώσεων για αντικαρκινική δράση. Στην παρούσα μελέτη, τα επίπεδα γονιδιακής έκφρασης από πέντε πλατφόρμες ενσωματώθηκαν για να δώσουν ένα ενιαίο σύνθετο προφίλ μεταγραφικό. Η ολοκληρωμένη και αξιόπιστη φύση του εν λόγω συνόλου δεδομένων μας επιτρέπει να μελετήσουμε γονίδιο συν-έκφραση σε όλη καρκινικές κυτταρικές σειρές.

Μεθοδολογία /Κύρια Ευρήματα

Ιεραρχική συσταδοποίηση αποκάλυψε πολυάριθμες συστάδες γονιδίων στα οποία τα γονίδια συνεργάζονται ποικίλλουν σε όλη την NCI-60. Για τον προσδιορισμό λειτουργική κατηγοριοποίηση που συνδέονται με την κάθε ομάδα, χρησιμοποιήσαμε το Gene Ontology (GO) της βάσης δεδομένων Κοινοπραξία και το εργαλείο GoMiner. GO χαρτογραφεί τα γονίδια σε ιεραρχικά οργανωμένη βιολογική κατηγορίες διαδικασίας. GoMiner μπορούν να αξιοποιήσουν GO για να εκτελέσει οντολογική αναλύσεις των μελετών γονιδιακής έκφρασης, δημιουργώντας μια λίστα των σημαντικών λειτουργικών κατηγοριών.

Συμπεράσματα /Σημασία

GoMiner ανάλυση αποκάλυψε πολλά συμπλέγματα γονίδια των που σχετίζονται με λειτουργικές ομάδες της GO βιολογικές κατηγορίες διαδικασίας. Αξιοσημείωτα, αυτές οι κατηγορίες που προκύπτουν από συνεκτικές ομάδες συν-έκφραση αντανακλούν θέματα σχετικά με τον καρκίνο, όπως προσκόλληση, η μετανάστευση των κυττάρων, το RNA splicing, ανοσολογική απόκριση και μεταγωγής σήματος. Έτσι, αυτά τα συμπλέγματα αποδείξει μεταγραφική από κοινού ρύθμιση λειτουργικά σχετίζονται με γονίδια

Παράθεση:. Zeeberg BR, Reinhold W, Snajder R, Thallinger GG, Weinstein JN, Kohn KW, et al. (2012) Λειτουργικές κατηγορίες που σχετίζονται με τις συσπειρώσεις των γονιδίων που συν-εκφράζονται σε όλα τα NCI-60 γραμμές καρκινικών κυττάρων. PLoS ONE 7 (1): e30317. doi: 10.1371 /journal.pone.0030317

Επιμέλεια: Ilya Ulasov, University of Chicago, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 17 του Ιουνίου 2011? Αποδεκτές: 15η Δεκεμβρίου του 2011? Δημοσιεύθηκε: 24 Γενάρη του 2012

Αυτό είναι ένα άρθρο ανοικτής πρόσβασης, χωρίς όλα τα πνευματικά δικαιώματα, και δεν μπορεί να αναπαραχθεί ελεύθερα, διανεμηθεί, να μεταδοθεί, τροποποιηθεί, χτισμένο πάνω, ή ειδάλλως να χρησιμοποιηθεί από οποιονδήποτε για οποιονδήποτε νόμιμο λόγο. Το έργο γίνεται διαθέσιμα υπό την Creative Commons CC0 αφοσίωση δημόσιο τομέα

Χρηματοδότηση:. Η έρευνα υποστηρίχθηκε από το εσωτερικό ερευνητικό πρόγραμμα των Εθνικών Ινστιτούτων Υγείας, Εθνικό Ινστιτούτο Καρκίνου, Κέντρο Έρευνας για τον Καρκίνο, Έρευνας και αυστριακό υπουργείο Επιστημών και Έρευνας, Βιοπληροφορική Δίκτυο Ολοκλήρωση έργου GEN-AU. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Ο NCI-60 είναι ένας πίνακας των 60 ανθρώπινων καρκινικών κυτταρικών σειρών που έχει χρησιμοποιηθεί από την Αναπτυξιακή Therapeutics Program (DTP) του Εθνικού Ινστιτούτου Καρκίνου των ΗΠΑ για τη διαλογή ενώσεων συν τα φυσικά προϊόντα από το 1990 [1], [ ,,,0],2]. Το πάνελ NCI-60 περιλαμβάνει κυτταρικές γραμμές από ορθοκολικό (CO), νεφρική (RE), ωοθηκών (Ον), προστάτη (PR), των πνευμόνων (LC), του μαστού (BR), και το κεντρικό νευρικό σύστημα (ΚΝΣ) του καρκίνου προέλευσης, όπως καθώς και λευχαιμίες (LE) και μελανωμάτων (ΜΕ). Εμείς και πολλοί συνεργάτες μας σε όλο τον κόσμο έχουν προφίλ το NCI-60 πληρέστερα στο DNA, RNA, πρωτεΐνη, η μετάλλαξη, λειτουργική, και φαρμακολογικά επίπεδα από ό, τι οποιαδήποτε άλλη σειρά κυττάρων σε ύπαρξη [1], [2], [3] , [4], [5], [6]. Τα δεδομένα NCI-60 έχουν χρησιμοποιηθεί ευρέως στην έρευνα και βιοπληροφορικής καρκίνο, αλλά οι πολλαπλές σειρές δεδομένων μπορεί να είναι πιο κατατοπιστική για την αναγνώριση των πολύπλοκων «βιοσημάδια.« Οι βιοσημάδια μπορεί με τη σειρά οδηγήσει σε αυξημένη κατανόηση των κυτταρικών φαινοτύπων και των σχέσεων μονοπάτι εντός του κυττάρου .

Έχουμε ήδη αναπτύξει GoMiner [7] και High-Throughput GoMiner [8], εφαρμογές που οργανώνουν τις λίστες των «ενδιαφέρουσα» γονίδια (για παράδειγμα, επιχειρήσεις και υπερ-εκφρασμένων γονιδίων από ένα πείραμα μικροσυστοιχιών) για τη βιολογική ερμηνεία στο πλαίσιο της Gene Ontology [9], [10]. GoMiner και τα συναφή εργαλεία συνήθως παράγουν έναν κατάλογο των σημαντικών λειτουργικών κατηγοριών. Εκτός από τις λίστες και πίνακες, High-Throughput GoMiner μπορεί να προσφέρει δύο είδη συμπλέγματος χάρτες εικόνας (CIMs) ως γραφική έξοδο. Ολοκληρωμένες

κατηγορίες εναντίον πειράματα

CIMs συλλάβει τις σχέσεις μεταξύ των κατηγοριών και πολλαπλά πειράματα? μεμονωμένα

κατηγορίες εναντίον γονίδια

CIMs συλλάβει τις σχέσεις μεταξύ των κατηγοριών και των γονιδίων. Και οι δύο τύποι CIMs χρησιμοποιείται για να παρουσιάσει τα αποτελέσματα στην παρούσα εργασία.

Κατά την τελευταία δεκαετία, η συστημική βιολογία έχει γίνει όλο και πιο εμφανή καθώς οι αριθμοί των αναλυθούν γονιδίων και βιολογικές παράμετροι έχουν αυξηθεί, και έχει αρχίσει να δείχνουν τους λειτουργικές σχέσεις. Μια τυπική προσέγγιση για τη μελέτη της βιολογίας συστημάτων με γονιδιακά δεδομένα είναι να συγκεντρωθούν τα γονίδια των οποίων η έκφραση χαρακτηριστικών συνεργασίας ποικίλλουν, είτε κατά τη διάρκεια μιας χρονικής πορείας ή σε πολλαπλές δείγματα. Για παράδειγμα, Garraway

et al.

[11] πραγματοποιείται μια ολοκληρωμένη εποπτεύεται ανάλυση των δεδομένων πίνακα και τη γονιδιακή έκφραση SNP για τον εντοπισμό MITF ως επιβίωσης καταγωγή ογκογονίδιο ενισχύθηκαν σε κακόηθες μελάνωμα. Ένας αριθμός πρόσθετων μικροσυστοιχιών γονιδιακής έκφρασης αποδεικνύουν τις δυνατότητες των μελετών γονιδιακής συν-έκφρασης. Για παράδειγμα, Prieto

et al.

[12] χρησιμοποίησαν την πλατφόρμα Affymetrix HGU133A για τον εντοπισμό των δικτύων συν-έκφραση σε μια ποικιλία των δειγμάτων ανθρώπινου ιστού. το δίκτυό τους αποκάλυψε ένα χάρτη των συστάδων συν-έκφραση οργανώνονται σε σαφώς καθορισμένες λειτουργικές αστερισμούς. Δύο μεγάλες περιοχές στο δίκτυο αυτό αντιστοιχούσε σε γονίδια που ενέχονται στο πυρηνικό και μιτοχονδριακό μεταβολισμό. Η μελέτη αυτή δεν έχει άμεση σχέση με τον καρκίνο, όμως, δεδομένου ότι δεν καρκινικούς ιστούς συμπεριλήφθηκαν στη μελέτη. Choi

et al.

[13] έκανε καρκινικούς ιστούς μελέτη, αλλά, δυστυχώς, είχε θανατωθεί δημοσιευμένα στοιχεία από ό, τι θα ήταν τώρα να θεωρηθεί ξεπερασμένη (Affymetrix U95A) ή αναξιόπιστες (cDNA) πλατφόρμες. Επίσης, τα δεδομένα που λαμβάνονται σε διαφορετικές πλατφόρμες που απαιτούνται για να συμφιλιωθούν, και η ημερομηνία των μελετών προηγήθηκε της διαθεσιμότητας αξιόπιστων πόρων, όπως AffyProbeMiner [14] και SpliceCenter [15]. Παρ ‘όλα αυτά, Choi ήταν σε θέση να ανιχνεύσει λειτουργικές διαφορές μεταξύ της κανονικής ανάπτυξης και του καρκίνου από την άποψη της γονιδιακής αλλαγές συνέκφραση σε ευρείς τομείς της φυσιολογίας:. Το μεταβολισμό της ενέργειας, του κυτταρικού κύκλου, ενεργοποίηση του ανοσοποιητικού συστήματος και την παραγωγή κολλαγόνου

Άλλες μελέτες έχουν επικεντρωθεί γονίδια ιστο-ειδικά. Cho

et al

[16] αποκάλυψε πολλά μονοπάτια που σχετίζονται με την παθοφυσιολογία του καρκίνου του πνεύμονα:. Κυτοκίνης Δίκτυο και TNF /Άγχος Σχετικές ζεύγος μονοπάτι σηματοδότησης? θρομβίνη σηματοδότησης και πρωτεάση ενεργοποιημένους υποδοχείς μονοπάτι? Κυτταρικού κύκλου: G1 /S Check Point και η αναστολή του κυτταρικού πολλαπλασιασμού με Gleevec. Παρομοίως, οι μελέτες του Lai

et al.

[17] περιορίστηκαν σε καρκίνο του προστάτη και να αναπτυχθεί μία στατιστική μέθοδο για την αναγνώριση προτύπων γονίδιο-γονίδιο συν-έκφραση απόκλιση σε διαφορετικές κυτταρικές καταστάσεις. Για ένα γονίδιο ενδιαφέροντος, άλλα γονίδια που έχουν επιλεγεί απόκλιση μοτίβα γονίδιο-γονίδιο συν-έκφραση με αυτό το γονίδιο σε διαφορετικές κυτταρικές καταστάσεις. Με τη χρήση των ογκοκατασταλτικών γονιδίων TP53, PTEN και RB1, όπως το γονίδιο ενδιαφέροντος, επιλεγμένων γονιδίων που περιλαμβάνονται εψίνη, GSTP1 και AMACR.

Η παρούσα μελέτη έγινε για να ελεγχθεί η υπόθεση ότι τα γονίδια από παρόμοιες λειτουργικές κατηγορίες τείνουν να εμφανίζουν συγκρίσιμα πρότυπα έκφρασης διαμέσου των κυτταρικών γραμμών από ένα ευρύ φάσμα ιστό προέλευσης (

δηλαδή

, οι κυτταρικές σειρές NCI-60). Αυτή η υπόθεση δημιουργήθηκε κατά τη διάρκεια της πρόσφατης μελέτης μας δείχνουν ότι οι πυρηνικά κωδικοποιημένα μιτοχονδριακών γονιδίων coregulated μεταξύ τους και με το γονίδιο MYC σε όλη την NCI-60 [18], [19]. Η παρούσα ανάλυση πραγματοποιήθηκε με τη βελτιωμένη δεδομένα έκφρασης σε CellMiner (https://discover.nci.nih.gov/cellminer) [20], [21]. Τα δεδομένα αυτά είναι ανώτερης ποιότητας, επειδή λαμβάνονται με συλλογή των πέντε πλατφόρμες μικροσυστοιχιών (βλέπε λεπτομέρειες στο κεφάλαιο Μέθοδος). Μπορούν επίσης να αντιμετωπίσει τη γενικότητα των διαδικασιών από κοινού ρύθμισης, δεδομένου ότι η NCI-60 αποτελείται από ένα ιδιαίτερα πλούσιο σύνολο των δειγμάτων από 9 τύπους ιστού με υψηλή επαναληψιμότητα.

Αποτελέσματα και Συζήτηση

Παγκόσμια επισκόπηση της στρατηγικής και ροής της διαδικασίας

ένα διάγραμμα ροής (Σχήμα 1) παρέχει μια γενική εικόνα της ροής της διαδικασίας. Πραγματοποιήσαμε πρώτο πρότυπο ιεραρχική ομαδοποίηση των προφίλ γονιδιακής έκφρασης σε όλες τις κυτταρικές σειρές NCI-60. Στη συνέχεια κόψτε το προκύπτον δέντρο συμπλέγματος για να επιτευχθεί 4 επίπεδα των περικοπών, ζητώντας (από το χαμηλότερο στο υψηλότερο ανάλυση) 20, 40, 80, ή 160 γονίδιο clusters (με αποτέλεσμα συνολικά 20 + 40 + 80 + 160 = 300 συστάδες γονιδίων) . Αυτό το σχήμα που δημιουργείται οικογένειες των συστάδων έτσι ώστε ένα σύμπλεγμα του 20-cut ήταν ένας γονέας ενός συμπλέγματος παιδιού στην 40-cut, και ούτω καθεξής. Ένα σύμπλεγμα 20-cut μπορεί να έχει ένα ή περισσότερα τέτοια παιδιά, αλλά κάθε παιδί έχει μόνο ένα γονέα. Έτσι, κάθε οικογένεια σύμπλεγμα θα μπορούσε να οριστεί με μοναδικό τρόπο από τον αριθμό σύμπλεγμα 160-περικοπή του. Τα σετ γονίδιο για κάθε ένα από τα 300 σμήνη υποβλήθηκαν σε High-Throughput GoMiner (HTGM) για τον προσδιορισμό των σημαντικών κατηγοριών Gene Ontology Consortium (GO) που σχετίζεται με κάθε σετ γονιδίων. Οι κατηγορίες GO που ήταν παρόντες σε όλες τις 4 περικοπές της οικογένειας συμπλέγματος κρίθηκαν

ισχυρή κατηγορίες

που σχετίζονται με αυτή την οικογένεια. Η σημασία της ανθεκτικότητας είναι ότι μια ισχυρή κατηγορία είναι ανεξάρτητη από την ιδιαίτερη βαθμό ανάλυσης που χρησιμοποιούνται για την κοπή του δέντρου συστάδα γονιδίων. Έτσι, οι ισχυρές κατηγορίες είναι πιο επικεντρωμένη και αξιόπιστο από μη ισχυρή κατηγορίες που είναι σημαντικές για κάποιο συγκεκριμένο τεμάχιο, αλλά όχι για όλες τις περικοπές.

Gene ομαδοποίηση με βάση την συν-έκφραση

Χρησιμοποιώντας αυτή τη στρατηγική και τη ροή επεξεργασίας, στόχος μας ήταν να εξετάσει το όλο σύνολο δεδομένων για τα 16.821 γονίδια σε CellMiner με δεδομένα έκφραση υψηλής ποιότητας σε όλες τις πολλαπλές πλατφόρμες έκφρασης του mRNA στις κυτταρικές γραμμές ΝΟΙ-60. Ιεραρχική ομαδοποίηση των προφίλ γονιδιακής έκφρασης εξερευνήθηκε σε 4 επίπεδα ανάλυσης, ζητώντας περικοπές που περιέχει 20-, 40-, 80- ή 160-clusters.

GO κατηγορίες που σχετίζονται με κάθε συν-έκφραση συμπλέγματος

Τρέξαμε High-Throughput GoMiner (HTGM) για τα σύνολα γονιδίων σε όλες τις 300 ομάδες, και ρώτησε αν θα υπάρξει οποιαδήποτε GO κατηγορίες παρούσα σε όλα τα 4 επίπεδα των περικοπών μιας οικογένειας συμπλέγματος. Το αποτέλεσμα ήταν καλύτερα ορατό από μια νέου τύπου «κατηγορίες

έναντι

πειράματα» CIM (Σχήματα 2Α, S1 Α, Β). Μόνο οι σειρές ήταν συγκεντρωμένα, δεδομένου ότι οι κίονες είχαν ήδη προ-τοποθετημένα σε μια ειδική σειρά ταξινόμησης: ξεκινώντας με μία από τις συστάδες από το 20-cut, που συνδέεται με αυτό το σύμπλεγμα με το σύμπλεγμα (ες) του 40-cut, που είναι τα «παιδιά» της 20-cut. Η διαδικασία αυτή εφαρμόστηκε αναδρομικά σε όλες τις 4 περικοπές. Για να διευκολυνθεί η απεικόνιση των περικοπών, εμείς εκμεταλλεύτηκε ένα νέο χαρακτηριστικό του προγράμματος ομαδοποίησης Genesis για να ορίσετε μια ξεχωριστή χρωματική κλίμακα σε κάθε περικοπή. Εμείς παρουσίασε τις ίδιες ομάδες κατηγοριών που ήταν στατιστικά σημαντικές και ότι είχαν αμοιβαία συναφών βιολογικών λειτουργιών εντός των NCI-60 clusters (λευκή ορθογώνια στα Σχήματα 2Α και S1B). Τα οικογενειακά cluster αριθμούς και λειτουργικές ονομασίες εμφανίζονται δίπλα σε κάθε περικυκλωμένη ομάδα. Στα δεξιά του Σχήματος 2Α είναι ένας δείκτης που δείχνει την κλίμακα ύψος που καταλαμβάνεται από 10 σειρές κατηγοριών. Οι συντεταγμένες των συστάδων στο Σχήμα 2 δίνονται στον Πίνακα 1, και τα ισχυρά κατηγορίες που απεικονίζεται στο Σχήμα 2Α δίνονται στον Πίνακα S1.

(Α) Compact έκδοση. Η πλήρης έκδοση είναι διαθέσιμη ως τα σχήματα S1 Α, Β Μόνο οι κατηγορίες με FDR , μπορεί να χρησιμοποιηθεί για πρόσβαση σε δεδομένα από την HG-U95, HG-U133, HG-U133 Plus 2.0 και Agilent Σύνολο Ανθρώπινου Γονιδιώματος Ολίγο μικροσυστοιχίες .

Probes (Agilent) ή σύνολα ανιχνευτή (Affymetrix) στη συνέχεια διέρχεται από τα ακόλουθα κριτήρια ποιοτικού ελέγχου πριν από τη χρήση τους στον προσδιορισμό των σχετικών επιπέδων γονιδιακής έκφρασης. Πρώτον, προσδιορίστηκαν μέση ανιχνευτή που κυμαίνεται ένταση (εννοείται ότι περιλαμβάνει Agilent ανιχνευτές στο ακόλουθο κείμενο). Probe θέτει με ένταση κυμαίνεται & lt? Ή ίση με 1,2 log

2 έπεσαν. Ο ανιχνευτής θέτει αριθμό για ένα γονίδιο που πέρασε αυτό κριτήρια καθορίστηκε, και το 25% του αριθμού αυτού υπολογίστηκε. συσχετίσεις κατά Pearson προσδιορίστηκαν για όλους τους πιθανούς συνδυασμούς των υπολοίπων σετ ανιχνευτή (για κάθε γονίδιο). μέσος συσχετισμός κάθε σύνολο ανιχνευτή προσδιορίστηκε σε σύγκριση με όλους τους άλλους (για ένα μόνο γονίδιο). Στη συνέχεια, αφαιρέθηκαν αυτά τα σύνολα ανιχνευτή με μέση συσχετίσεις μικρότερο από 0,30. Μετά από αυτό το βήμα, καθετήρα θέτει με τις χαμηλότερες μέσες συσχετίσεις & lt? 0,60 έπεσαν. Οι υπόλοιποι συνδυασμοί καθετήρα σετ σετ /ανιχνευτή συσχετίσεις συνέχεια υπολογίστηκαν εκ νέου. Η χαμηλότερη μέση σετ καθετήρα συσχέτιση συνέχισε να πέσει, και ο μέσος όρος υπολογίζεται εκ νέου έως ότου είτε όλοι οι μέσες συσχετίσεις were≥to 0,60, ή μέχρι να φτάσει στο επίπεδο του 25% του αριθμού που αρχικού ανιχνευτή (υπολογίστηκε παραπάνω).

Αυτές οι διαδικασίες απέδωσαν ακριβείς τιμές έντασης μεταγραφή που ήταν υψηλή επαναληψιμότητα και εσωτερικά συνεπής. συμβάλλοντας επιπλέον στην υψηλή ποιότητα των δεδομένων, νομίζουμε, ήταν τα ακόλουθα: (1) Η ανάπτυξη των κυττάρων, τη συγκομιδή και τον έλεγχο της ποιότητας έγιναν κατά κύριο λόγο από ένα άτομο (W. Reinhold). (2) Ποιοτικός έλεγχος των επιμέρους σύνολα ελέγχων βασίστηκαν σε ένα ελάχιστο πεδίο ένταση & lt? 1.2 log2 και το σχέδιο συσχέτιση & gt? 0,60. Αυτό παρέχει προστασία έναντι σποραδικά κακό σετ καθετήρα. (3) Μετατροπή των δεδομένων σε z αποτελέσματα [23], με αφαίρεση του 60 κυτταρική γραμμή σημαίνει και διαίρεση με τις τυπικές αποκλίσεις παρέχεται προστασία έναντι ανωμαλιών ενιαία πλατφόρμα, και επέτρεψε τη σύγκριση όλων των σετ καθετήρα δεδομένων. Ζ βαθμολογίες μέσους προσδιορίστηκαν για όλες τις διαθέσιμες (18412) γονίδια για κάθε κυτταρική γραμμή. Οι λεπτομέρειες του υπολογισμού z-score που προβλέπονται στο ΕΙΔΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ Υλικά (έγγραφο S1). Αυτοί οι υπολογισμοί έγιναν σε Java.

Κάθε βήμα στη διαδικασία της εξαγωγής γονιδίων από CellMiner [21], και επιλέγοντας εκείνα που ταιριάζουν με τα δύο σύμβολα HUGO Gene επιτροπή ονοματολογίας (HGNC) [24] σύμβολο καθώς και ένα GO σχολιασμό βάση δεδομένων, έχει ως αποτέλεσμα μια «απώλεια» των γονιδίων. Ο βαθμός της απώλειας σε κάθε στάδιο συνοψίζεται στον Πίνακα S2. Για παράδειγμα, οι 29.017 και 16.821 γονίδια που εκπροσωπούνται στο HGNC και η ανάλυση έκφρασης μεταγραφής πέντε-πλατφόρμα, αντίστοιχα. Το υποσύνολο των γονιδίων που εκπροσωπούνται στο HGNC είναι 11.767 /16.821 = 69,9%. Αυτό το ποσοστό είναι υψηλότερο από το συνολικό ποσοστό περίπου 55% του συνόλου των ανθρώπινων γονιδίων που αντιπροσωπεύονται από HGNC (Zeeberg

et al.

, Αδημοσίευτο). Το υποσύνολο των γονιδίων HGNC εκπροσωπούνται στην βιολογική διαδικασία οντολογία του GO (σύμφωνα με τους όρους που καθορίζονται στον πίνακα S2) περιλαμβάνει μια κάπως απογοητευτικό 7654/29017 = 26,4%. Η συνολική απόδοση των γονιδίων πέντε πλατφόρμα που έχουν τόσο HGNC και GO Biological Process σχολιασμοί είναι 6.477 /11.767 = 55,0%.

Λήψη και προ-επεξεργασία των γονιδίων από CellMiner

Ένα ειδικό αίτημα υποβλήθηκε στο διαχειριστή του συστήματος για την πλήρη σειρά των προφίλ γονιδιακής έκφρασης. Αυτό λήψη θα ήταν πολύ μεγάλο για να εκτελέσετε μέσα από το πρότυπο web interface. Οι τιμές για κάθε γονίδιο με βάση τη συναίνεση των πέντε πλατφόρμες μικροσυστοιχιών, και εκφράζονται ως Z-score, όπως αναφέρεται λεπτομερώς στον συμπληρωματικό Υλικά και όπως περιγράφηκε προηγουμένως [19].

Τα στοιχεία προ-επεξεργασία με προ-επιλογή μόνο εκείνα τα γονίδια που έχουν τόσο ένα σύμβολο HGNC και σχολιασμού στην οντολογία διαδικασία πάει Βιολογικά. Κάθε φορέας προφίλ γονιδιακής κλιμακώθηκε με μηδενική μέση τιμή και μονάδα διακύμανσης.

Gene ομαδοποίηση με βάση την συν-έκφραση

Μια γλώσσα R (https://www.R-project.org) [25 ] σενάριο αναπτύχθηκε για να εκτελέσει ιεραρχική ομαδοποίηση των προφίλ γονιδιακής έκφρασης σε όλη την NCI-60. Δεδομένου ότι τα γονίδια μπορεί να λειτουργήσει θετικά ή αρνητικά μέσα σε ένα δίκτυο, θέλαμε γονίδια που συσχετίζονταν ισχυρά και άκρως αντι-συσχετίζονται που θα διατεθεί για την ίδια ομάδα, έτσι ώστε να καθορίζεται μια απόσταση μετρικό 1-abs (ΕΤΠ (t (ΜΑΤ))) /2. Έχουμε καθορίζεται επίσης πλήρη σύνδεση clustering.

Χρησιμοποιήσαμε τη συνάρτηση R

cutree ()

να κόψει το προκύπτον ιεραρχικό δέντρο συμπλέγματος σε 20, 40, 80, και 160 συστάδες. Αυτές οι συστάδες είχε δύο σημαντικές ιδιότητες:

Το σύνολο σύνολο των γονιδίων στο δέντρο σύμπλεγμα χωρίστηκε (πλήρως και χωρίς επικάλυψη) μεταξύ των clusters. Δηλαδή, κάθε γονίδιο στην αρχική σειρά εμφανίστηκε σε ακριβώς μία συστάδα.

Οι συστάδες των 40-cut ήταν ένθετα εντός των συστάδων του 20-cut. Δηλαδή, κάθε συστάδα των 40-cut ήταν ένα υποσύνολο ενός μοναδικού συμπλέγματος του 20-cut. Αυτό το μοτίβο διατηρήθηκε αναδρομικά σε όλα τα επίπεδα των περικοπών.

Το ακαθάριστο κατανομή των γονιδίων για όλα τα 300 (

δηλαδή

, 40 + 20 + 80 + 160) συστάδες παρουσιάζεται στον πίνακα S3. Κάθε ομάδα στη συνέχεια αναλύθηκαν από GoMiner (βλέπε επόμενη ενότητα). Πραγματοποιήσαμε πολλαπλές περικοπές γιατί θέλαμε να δώσουν προτεραιότητα σε εκείνους GO κατηγορίες που ήταν ανεξάρτητη από το συγκεκριμένο σχέδιο κοπής (δείτε την ενότητα Μέθοδοι «κατηγορίες Scoring GO»).

Η σχέση μεταξύ των clusters σε διαδοχικές περικοπές (π.χ., 20 και 40, 40 και 80, ή 80 και 160) ήταν οριοθετείται από έναν πίνακα που δημιουργείται από την αλληλουχία του R κλήσεων παραδειγματικά για 20 και 40 ως εξής: το προκύπτον πίνακας έδειξε η οποία συστάδα (ες) σε 40-cut προέκυψαν από κάθε συστάδα σε η 20-cut.

οικογένειες Cluster

θα μπορούσε να ορίζεται ξεκινώντας με ένα από τα clusters στο 20-cut, και χρησιμοποιώντας τον πίνακα 20 και 40-cut για να καθορίσει όλα τα συμπλέγματα 40-cut που προήλθαν από ότι 20- σύμπλεγμα περικοπή. Η διαδικασία αυτή επαναλήφθηκε με τη σειρά τους για εκείνες τις συστάδες 40-cut, χρησιμοποιώντας τον πίνακα 40- και 80-cut, και ούτω καθεξής. Το σύνολο του επιλεγμένου συμπλέγματος 20-cut συν ένα ενιαίο προέρχεται σύμπλεγμα από κάθε ένα από τα 40-, 80- και 160-περικοπές αποτελούσε οικογενειακό σύμπλεγμα.

High-Throughput GoMiner (HTGM)

GoMiner [7] είναι ένα εργαλείο για τη βιολογική ερμηνεία της «κής« δεδομένα, συμπεριλαμβανομένων των δεδομένων από μικροσυστοιχίες γονιδιακή έκφραση και την κατάσταση των τεχνολογιών αλληλουχίας τέχνης. Θα αξιοποιεί την οντολογία γονιδίων (GO) για τον εντοπισμό «βιολογικές διαδικασίες,» «μοριακές λειτουργίες,» και «κυτταρικά συστατικά» που εκπροσωπούνται σε μια λίστα των γονιδίων. High-Throughput GoMiner (HTGM) [8], η οποία χρησιμοποιήθηκε για πολλές από τις αναλύσεις που αναφέρονται εδώ, είναι ένα εξάρτημα του GoMiner που εκτελεί αποτελεσματικά το υπολογιστικά-δύσκολο έργο της αυτοματοποιημένης επεξεργασίας παρτίδα έναν αυθαίρετο αριθμό τέτοιων καταλόγων γονιδίου.

Μια κατηγορία GO είναι

εμπλουτίζεται

εάν ο αριθμός των αλλάζει τα γονίδια που HTGM ανατεθεί είναι στατιστικά σημαντικά μεγαλύτερος από τον αριθμό που αναμένεται από την τύχη. Μια κατηγορία θεωρείται

σημαντική

αν Ακριβής p-value Fisher της και ψευδή ρυθμό ανακάλυψή του (FDR) είναι τόσο μικρότερη ή ίση με ένα κατώτατο όριο επιλεγεί από το χρήστη (συνήθως 0,10? Για σπάνια περίπτωση, η τιμή p μπορεί να υπερβαίνει το όριο αν και το FDR είναι κάτω από το όριο, και εμείς συνήθως θέλουν να απορρίψουν τέτοιες περιπτώσεις). Δείτε [7], [8] για λεπτομερείς συζητήσεις GoMiner και HTGM, συμπεριλαμβανομένων υπολογισμών της στατιστικής σημαντικότητας.

Τρέξαμε όλοι οι συστάδες που προέρχονται από τις περικοπές για 20-, 40-, 80- και 160-cut clusters, συνολικά 300 αρχεία εισόδου, σε ένα ενιαίο HTGM τρέξιμο. Οι παράμετροι που χρησιμοποιούνται σε όλες τις αναλύσεις HTGM παρατίθενται στον Πίνακα S4.

Η μέση γονιδίων /cluster σε επίπεδο 160-cut ήταν περίπου 40, τα οποία θα συνήθως θεωρούμε ότι είναι πάρα πολύ λίγα γονίδια να υποβάλει στο GoMiner . Ωστόσο, στην περίπτωση αυτή, όπως φαίνεται παρακάτω, κάνουμε βρείτε πολλές σημαντικές και λειτουργικά συνεπείς συστάδες GO. Έτσι, η προηγούμενη ιεραρχική ομαδοποίηση των γονιδίων με βάση την έκφραση φαίνεται να έχουν προ-εστιασμένη τα γονίδια σε λειτουργικά συνεκτικό τρόπο, έτσι ώστε να αντισταθμιστεί η χαμηλή στατιστική δύναμη ενός μικρού συνόλου.

Το ακαθάριστο διανομής GO κατηγορίες που προκύπτει από το τρέξιμο GoMiner στις 300 συστάδες που περιλαμβάνουν τα 20-, 40-, 80-, και 160-περικοπές παρουσιάζεται στον πίνακα S5. Έτσι, η ομοιότητα των προφίλ γονιδιακής έκφρασης μερικές φορές, αλλά όχι πάντα, συνεπάγεται συνοχή της βιολογικής λειτουργίας. Το κλάσμα των ομάδων με τουλάχιστον μία σημαντική κατηγορία μειώθηκε ελαφρά από 0,55 (για το 20-cut) σε 0,41 (για το 160-cut).

Ταξινόμηση σμήνη μέσα στις οικογένειες σύμπλεγμα

οικογένειες Cluster ορίζονται στην ενότητα Μέθοδοι «ιεραρχική ομαδοποίηση Gene προφίλ που βασίζονται.» Έχουμε επινοήσει έναν αλγόριθμο για τη διαλογή των clusters στο πλαίσιο μιας οικογένειας συμπλέγματος για ενδεχόμενη εμφάνιση ως εικόνα CIM. Ο αλγόριθμος χρησιμοποιεί πίνακες που παράγονται από τον κωδικό R (βλέπε «Gene προφίλ που βασίζονται σε ιεραρχική ομαδοποίηση») για να παρέχει την κατάλληλη παγκόσμια κατάταξη των συστάδων που προέρχεται από ένα από το άλλο σε διάφορες περικοπές για 20-, 40-, 80- και 160-cut clusters. Εν συντομία, μια οικογένεια σύμπλεγμα αποτελείται από μία δεδομένη 20-cut, και ο 40-cut (ες) που προέρχονται από την εν λόγω 20-cut, και ούτω καθεξής.

κατηγορίες Scoring GO

Κάθε κατηγορία GO ότι ήταν σημαντική σε τουλάχιστον ένα ιεραρχικό σύμπλεγμα βαθμολογήθηκε σύμφωνα με την παρουσία της σε συστάδες του καθενός από τις οικογένειες 20-cut.

Χρόνιες ασθένειες

PLoS One: Λειτουργικές κατηγορίες που σχετίζονται με τις συσπειρώσεις των γονιδίων που συν-εκφράζονται σε όλα τα NCI-60 Καρκίνος Γραμμές κυττάρων