PLoS One: Μη-Gaussian κατανομές Επηρεάζουν Προσδιορισμός των προτύπων έκφρασης, Λειτουργική σχολιασμού, και των προοπτικών κατάταξη σε ανθρώπινα καρκινικά Genomes

Απρίλιος 29th, 2011 elhealth του καρκίνου άρθρα

Αφηρημένο

Εισαγωγή

Η γονιδιακή έκφραση δεδομένα είναι συχνά θεωρείται ότι είναι με κανονικό διανέμονται, αλλά η υπόθεση αυτή δεν έχει δοκιμαστεί αυστηρά. Διερευνούμε τη διανομή των δεδομένων έκφρασης στο ανθρώπινο γονιδίωμα του καρκίνου και να μελετήσει τις επιπτώσεις των αποκλίσεων από την κανονική κατανομή για την μεταγραφική έρευνα μοριακής ογκολογίας.

Μέθοδοι

Θα διεξαχθεί μια κεντρική ανάλυση στιγμές πέντε γονιδιωμάτων καρκίνο και διενεργήθηκε εμπειρική διανομή τοποθέτηση για να εξετάσει την πραγματική κατανομή των δεδομένων έκφρασης τόσο στην πλήρη-πείραμα και για τα επίπεδα μεμονωμένα-γονιδίου. Χρησιμοποιήσαμε μια ποικιλία από παραμετρικές και μη παραμετρικές μεθόδους για να εξεταστούν τα αποτελέσματα των αποκλίσεων από το φυσιολογικό στο γονίδιο κλήση, λειτουργική σχολιασμό, και τους υποψήφιους της μοριακής ταξινόμησης χρησιμοποιώντας ένα έκτο του γονιδιώματος του καρκίνου.

Αναλύει

Αποτελέσματα

Κεντρική στιγμές αποκαλύπτουν στατιστικώς σημαντικών αποκλίσεων από ομαλότητα σε όλες τις αναλύθηκαν γονιδιωμάτων καρκίνο. Παρατηρούμε όσο το 37% μεταβλητότητα γονίδιο κλήση, 39% μεταβλητότητα στην λειτουργική σχολιασμό, και το 30% διακύμανση στην προοπτική, υποταξινόμησης μοριακού όγκου που σχετίζονται με αυτό το αποτέλεσμα.

Συμπεράσματα

γονιδιακής έκφρασης του καρκίνου προφίλ δεν είναι κανονικά κατανεμημένα, είτε στην πλήρη-πείραμα ή σε επίπεδο μεμονωμένων γονιδίων. Αντ ‘αυτού, παρουσιάζουν πολύπλοκη, βαριά ουρά διανομές χαρακτηρίζεται από στατιστικά-σημαντική ασυμμετρία και κύρτωση. Η μη-Gaussian κατανομή των δεδομένων επηρεάζει ταυτοποίηση των διαφορικά εκφρασμένων γονιδίων, λειτουργική σχολιασμό, και τους υποψήφιους της μοριακής ταξινόμησης. Αυτά τα αποτελέσματα μπορούν να μειωθούν σε ορισμένες περιπτώσεις, αν και όχι εντελώς εξαλειφθεί, χρησιμοποιώντας μη παραμετρικές analytics. Η ανάλυση αυτή αναδεικνύει δύο αναξιόπιστες υποθέσεις της μεταφραστικής ανάλυσης γονιδιακής έκφρασης του καρκίνου: οι «μικρές» αποκλίσεις από την κανονικότητα στην έκφραση κατανομές των δεδομένων είναι αναλυτικά-ασήμαντο και ότι «ισχυρή» αλγόριθμους γονίδιο-κλήση μπορεί να αντισταθμίσει πλήρως για τα αποτελέσματα αυτά

Παράθεση: Marko NF, Weil RJ (2012) μη-Gaussian κατανομές Επηρεάζουν Προσδιορισμός των προτύπων έκφρασης, Λειτουργική σχολιασμού, και των προοπτικών κατάταξη σε ανθρώπινα καρκινικά γονιδιώματα. PLoS ONE 7 (10): e46935. doi: 10.1371 /journal.pone.0046935

Συντάκτης: William B. Coleman, του Πανεπιστημίου της Βόρειας Καρολίνας Σχολή Ιατρικής, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 17, Μάρτη του 2012? Αποδεκτές: 6 Σεπ του 2012? Δημοσιεύθηκε: 31 Οκτώβρη, 2012

Copyright: © 2012 Marko, Weil. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. NFM είναι υποστηρίζεται από μια επιχορήγηση από την αμερικανική Ένωση πρόγραμμα William P. VanWagenen Fellowship Νευρολογικές Χειρουργών ». RJW υποστηρίζεται εν μέρει από Grant No.W81XWH-062-0033 από το Υπουργείο Άμυνας του Καρκίνου του Μαστού Ερευνητικό Πρόγραμμα των Ηνωμένων Πολιτειών, ο πρόεδρος Melvin Burkhardt σε νευροχειρουργική ογκολογία, και από την ερευνητική κληροδότημα Karen Colina Wilson εντός του όγκου του εγκεφάλου και Νευρο ογκολογικό Κέντρο στο Ίδρυμα Cleveland Clinic. Καμία πρόσθετη εξωτερική χρηματοδότηση ελήφθη για τη μελέτη αυτή. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Ιστορικό

μικροσυστοιχιών με βάση αναλύσεις της γονιδιακής έκφρασης έχουν γίνει ένα στήριγμα της βασικής και καρκίνου μεταγραφική έρευνα. Ένας σημαντικός αριθμός των σύγχρονων ερευνών βασίζονται σε αυτά τα εργαλεία για να ενημερώσει τη δημιουργία υποθέσεων [1], για την ανάλυση της πορείας [2], [3], για φαρμακογονιδιωματικής και ανακάλυψη φαρμάκων [4], και για την ανάπτυξη στρατηγικών μοριακή βάση ταξινόμηση των ασθενειών [5] , [6]. Επιπλέον, τα δεδομένα έκφρασης γονιδίου γίνεται σταδιακά πιο σημαντικό για την ενημέρωση κλινική διάγνωση και διαχείριση ασθενών [7], [8], και οι γονιδιωματικές προφίλ βάσει μικροδιάταξης χρησιμοποιούνται σήμερα για να καθοδηγήσει την εγγραφή και τη διαστρωμάτωση των ασθενών σε κλινικές δοκιμές μεγάλης κλίμακας [9] , [10].

Σε αυτό το πλαίσιο, η σημασία της ακριβούς ερμηνείας των αποτελεσμάτων των μικροσυστοιχιών και οι σημαντικές επιπτώσεις των συστηματικών σφαλμάτων αναλυτική γίνεται εμφανής. Κατά τις πρώτες ημέρες της ανάλυσης μικροσυστοιχιών, υψηλή πειραματική κόστος και σημαντική τεχνική μεταβλητότητα περιορίζονται τα διαθέσιμα στοιχεία με τα οποία θα μπορούσαν να μελετηθούν ολοκληρωμένες αναλύσεις των πρακτικών συνεπειών της ανεπαίσθητες αποκλίσεις στα δεδομένα μικροσυστοιχιών ή την ερμηνεία της [11]. Αυτό, με τη σειρά του, απαιτούσε ότι πρέπει να γίνουν ορισμένες μαθηματικές και βιολογικές υποθέσεις [12], [13], καθώς και η έλλειψη επαρκών δεδομένων αποκλείεται σε βάθος διερεύνηση της εγκυρότητας αυτών των υποθέσεων.

Η Κοίμηση της ομαλότητας σε δύο συναφών τύπων των συνόλων δεδομένων έκφραση

μια κοινή παραδοχή είναι ότι τα δεδομένα από την έκφραση του γονιδιώματος μικροσυστοιχιών με βάση αναλύσεις σύμφωνες με ένα πρότυπο Gaussian (κανονική) κατανομή. Η υπόθεση αυτή είναι σπάνια ρητή, αλλά μάλλον είναι πιο συχνά γίνεται σιωπηρά όταν οι ερευνητές εφαρμόζουν αναλυτική αλγορίθμων στηρίζεται από την Gaussian υπόθεση. παραδοχές Κατανομή σχετίζονται σχετίζονται με τουλάχιστον δύο, ξεχωριστές σειρές δεδομένων έκφρασης δημιουργούνται σε αναλύσεις μικροσυστοιχιών, η υπόθεση και ομαλότητας έχει μεταβλητά (συχνά σιωπηρώς) εφαρμόζεται τόσο [12] – [15].

Η πρώτα σύνολο δεδομένων στην οποία είναι σχετική κατανομή περιλαμβάνει το πλήρες σύνολο των μεμονωμένων τιμών έκφρασης σε όλα τα γονίδια και όλα τα δείγματα σε ένα δεδομένο πείραμα. Για παράδειγμα, σε μία μελέτη που εξετάζει την έκφραση των γονιδίων 25000 σε 100 όγκους, αυτό είναι το σύνολο όλων των τιμών έκφρασης 2,5 εκατομμύρια γονιδίου. Η κατανομή αυτού του σύνθετου συνόλου δεδομένων μπορεί να είναι ιδιαίτερα σημαντική για τους μεταγενέστερους ομαδοποίηση και αναλύει τις διακρίσεις κατηγορίας, καθώς πολλοί από αυτούς τους αλγόριθμους είναι συνήθως εφαρμόζεται σε ολόκληρο το σύνολο δεδομένων ως σύνολο. Όταν χρησιμοποιούνται αλγόριθμοι στηρίζεται σε μια τυπική κατανομή Gauss, η κανονική υπόθεση σιωπηρά εισάγεται.

Το δεύτερο σύνολο δεδομένων για τα οποία η διανομή που έχει σημασία είναι το σύνολο δεδομένων περιλαμβάνει τις μεμονωμένες τιμές έκφρασης για ένα μόνο γονίδιο σε όλο το φάσμα των πειραματικών δείγματα. Συνεχίζοντας το προηγούμενο παράδειγμα, το πείραμα αυτό θα δημιουργήσει 25.000 τέτοια σύνολα δεδομένων, το καθένα με 100 σημεία δεδομένων. Η κατανομή αυτών των 100 σημείων δεδομένων μπορεί να είναι ιδιαίτερα σχετικές με μελέτες που εξετάζουν τη συνοχή της συμπεριφοράς ενός συγκεκριμένου γονιδίου σε ένα συγκεκριμένο τύπο όγκου ή να αναλύσει το μοτίβο της αλλαγής του σε ένα ευρύ φάσμα των «κατηγοριών» ή «τάξεις» ενός συγκεκριμένου όγκου . Εδώ η κατανομή μπορεί να παρέχει μία χρήσιμη περιγραφή της συμπεριφοράς αυτού του μοναδικού γονιδίου σε πολλαπλά ανεξάρτητα δείγματα, αλλά η κανονική παραδοχή μπορεί να εισαχθεί σιωπηρά εάν αλγόριθμοι χρησιμοποιούνται για την ανάλυση της συμπεριφοράς του γονιδίου αυτού στηρίζεται πάνω σε ένα πρότυπο Gaussian κατανομή.

Η υπόθεση της κανονικότητας έχει ρητά διερευνήθηκε σε ανάλυση γονιδιακής έκφρασης, αν και σε περιορισμένο βαθμό. Ενώ αρχικά φάνηκε να έχουν τόσο θεωρητική [16] και την υποστήριξη εμπειρική [11], [17], πιο πρόσφατες αναλύσεις έχουν προτείνει τη δυνατότητα της μη-Gaussian κατανομές για τα δεδομένα γονιδιακής έκφρασης [18] – [21]. Προς το παρόν, όμως, οι περισσότερες από αυτές τις παρατηρήσεις προέρχονται από προσομοίωση [19], [21], ετερογενή [20], [21], ή μη-κλινικές σύνολα δεδομένων [18] – [21].

Σημασία

η πιθανότητα ότι τα δεδομένα γονιδιακής έκφρασης παραβιάζουν την υπόθεση ομαλότητας μπορεί να έχει ιδιαίτερη σημασία για την κλινική και μεταγραφική ερευνητές. Οι περισσότερες τρέχουσες και προτεινόμενες ιατρικές εφαρμογές των δεδομένων έκφρασης μικροσυστοιχιών προέρχεται από αναλύσεις στηρίζεται επάνω σε αυτήν την υπόθεση, πολλές από τις οποίες έχουν προβληθεί παραμετρικές στατιστικές για γονιδιακή καλώντας και την τάξη ανακάλυψη [6] – [8]. Μεταγραφική ογκολόγοι είναι από τα πιο μανιώδεις καταναλωτές των δεδομένων των μικροσυστοιχιών και το πιο πιθανό να προτείνει την κλινική εφαρμογή της, έτσι, ένα λογικό μέρος για να ξεκινήσει μια έρευνα για το μέγεθος, την έκταση και τις κλινικές επιπτώσεις της μη-Gaussian κατανομών στα δεδομένα γονιδιακής έκφρασης είναι με μεγάλη , δημόσια διαθέσιμες βάσεις δεδομένων γονιδιώματος του καρκίνου [22], [23]. Παρόλα αυτά, το ζήτημα αυτό είναι θεμελιώδους σημασίας για την τρέχουσα αναλυτική πρότυπο για τα δεδομένα γονιδιακής έκφρασης σε γενικές γραμμές, και αναμένουμε ότι τα ευρήματα αυτής της έρευνας θα έχει σημασία πέρα από τη σφαίρα της μεταφραστικής μοριακής ογκολογίας.

Η παρούσα έρευνα έχει δύο στόχους και έχει δομηθεί σε δύο μέρη: το πρώτο είναι θεωρητικό – να μελετήσει τις κατανομές των δεδομένων γονιδιακής έκφρασης του καρκίνου – τόσο σε ατομικό γονιδίου και την πλήρη επίπεδο σύνολο δεδομένων – και να εκτιμήσει το βαθμό στον οποίο αυτά αποκλίνουν από την ομαλότητα. Αυτό αποτελεί τη βάση για το δεύτερο, μεταφραστική στόχος: να μελετήσει τις επιπτώσεις των μη-Gaussian κατανομές γονιδιακής έκφρασης σε κλινικά γονιδιωματικής με γνώμονα τις αναλύσεις. Το πειραματικό μοντέλο έχει σκοπίμως σχεδιαστεί για να ανακεφαλαιώσω πιστά το workflow ενός τυπικού, μεταφραστική αγωγός για ανάλυση γονιδιακής έκφρασης (Σχήμα 1).

Το διάγραμμα ροής απεικονίζει τυπική ανάλυση μικροσυστοιχιών ροής εργασιών (πάνω μέρος), οι στατιστικές μέθοδοι που χρησιμοποιήθηκαν σε κάθε βήμα (μεσαίο τμήμα), καθώς και τους αντίστοιχους πίνακες και τα στοιχεία σε αυτό το χειρόγραφο ότι οι σημερινές αναλύσεις σε κάθε επίπεδο (κάτω τμήμα)

Αποτελέσματα

Ανάλυση Διανομή -. ολοκληρωμένων συνόλων δεδομένων

Θα εξεταστεί πρώτα τις κατανομές του πλήρες σύνολο των επιμέρους τιμές έκφρασης σε όλες τις γονιδίων και όλα τα δείγματα σε κάθε ένα από τα πέντε πειράματα (ο πρώτος τύπος του σετ δεδομένων που περιγράφονται στην εισαγωγή). Ο Πίνακας 1 συνοψίζει τα αποτελέσματα της ανάλυσης κεντρικού στιγμές πέντε, μεγάλης κλίμακας (n = 180, κάθε) ανθρώπινη γονιδιώματα καρκίνου, η οποία διεξήχθη μετά από κανονικοποίηση με είτε τη μέση ισχυρή multichip (RMA) [24] ή την DChip [25] μεθόδους. Αυτά τα δεδομένα δείχνουν ότι, ενώ οι μέσες τιμές και τυπικές αποκλίσεις δείχνουν κατά προσέγγιση κανονικότητας (μ εύρος: -0,18 έως 0,10? Σ εύρος: 0,84 – 1,58), η τρίτη και η τέταρτη κεντρική στιγμές αναχωρούν από το φυσιολογικό σε μια στατιστικώς σημαντικό τρόπο. δεικτών του Fisher της ασυμμετρίας και κύρτωσης, οι οποίες θεωρούνται σημαντικές στο α & lt? 0,05, όταν υπερβαίνει το ± 1,96, είναι & gt? 100 για όλα τα δείγματα. Επιπλέον, η

-test της διακύμανσης δείχνει στατιστικώς σημαντικές αποκλίσεις από το φυσιολογικό για όλα τα δείγματα (Πίνακες 1, S1). Ως εκ τούτου, όλες οι διανομές γονιδιακής έκφρασης πέντε καρκίνο αποκλίνουν σημαντικά από την κανονική κατανομή. Αυτό υποστηρίζεται περαιτέρω από τα αποτελέσματα των μονόδρομη και αμφίδρομη δοκιμές KS, τα οποία καταδεικνύουν σημαντική απόκλιση από τα ομαλότητα για όλα τα σύνολα δεδομένων. Επιπλέον, τα ευρήματα της κεντρικής ανάλυσης στιγμές δείχνουν ότι αυτές οι διανομές έχουν μικρή αλλά σημαντική ασυμμετρία, είναι αισθητά kurtotic, και είναι βαριά ουρά (Σχήμα 2). Παρόμοια αποτελέσματα από τα δεδομένα ομαλοποιήθηκαν χρησιμοποιώντας τόσο το RMA [24] και την μέθοδο DChip [25] υποδηλώνουν ότι αυτή η απόκλιση από την κανονικότητα είναι απίθανο να είναι μια συνάρτηση του αλγόριθμου κανονικοποίησης, και την ανάλυση των δύο Log

2-μετασχηματισμένα και Log

2-αφαιρούνται στοιχεία δείχνουν ότι δεν έχει σχέση με Είσοδος αφαίρεση (πίνακες 1, S1? Σχήματα S1, S2).

τα δεδομένα πηγής για αυτές τις γραφικές παραστάσεις είναι οι Σύνδεση

2-αφαιρείται σύνολα δεδομένων. Όλες bin πλάτη οριστεί σε 200 για τη βελτίωση της απεικόνισης. Κόκκινο καμπύλες αντιπροσωπεύουν την καλύτερη εφαρμογή κανονική κατανομή. Η κύρια εικόνα δίνει το ιστόγραμμα με την υπέρθεση θεωρητική κανονική καμπύλη. Το ένθετο παρουσιάζει το οικόπεδο quantile-quantile (QQ), όπου απόκλιση από τη γραμμή (y = x, μαύρο) παρουσιάζει απόκλιση από την εμπειρική από το θεωρητικό κανονική κατανομή. Αριστερό πλαίσιο δείχνει τα δεδομένα κανονικοποιούνται με τη μέθοδο RMA. Δικαίωμα πλαίσιο δείχνει τα δεδομένα κανονικοποιούνται με τη μέθοδο DChip. Α: Brain? Β: Μαστού? C: Colon? D: Γαστρικό? . Ε: ωοθηκών

Αυτά τα ευρήματα δεν είναι απαραίτητα έκπληξη, καθώς καμία από τις μεθόδους κανονικοποίησης ούτε η διαδικασία της καταγραφής-μετασχηματισμού προορίζονται ειδικά για την παραγωγή ομαλότητα? Ωστόσο, η ανάλυση αυτή καταδεικνύει τη χρήση πολλαπλών συνόλων δεδομένων έκφρασης που κανένας από αυτούς τους μετασχηματισμούς είναι επαρκής για να παράγει Gaussian δεδομένων. Κατά συνέπεια, δεν μπορεί να υποτεθεί με ασφάλεια ότι τα δεδομένα που έχουν «ομαλοποιηθεί», χρησιμοποιώντας οποιαδήποτε από αυτές τις μεθόδους στην πραγματικότητα είναι σύμφωνες με ένα «κανονικό» (πρότυπο Gaussian) κατανομή

Διανομή Ανάλυση -. Μεμονωμένα γονίδια

Εξετάσαμε επίσης τις κατανομές δεδομένα των μεμονωμένων γονιδίων μεταξύ των 180 δειγμάτων του καθενός από τα σύνολα δεδομένων 5 του καρκίνου. Πολλοί ερευνητές εξετάζοντας δεδομένα από ένα πείραμα που περιέχουν μικροσυστοιχίες πολλαπλών, παρόμοιων όγκων μπορεί να υποθέσει ότι μία «υπερεκφράζεται» γονίδιο θα παρουσιάζουν μια κατανομή Gauss επικεντρώνεται γύρω από μια θετική μέση τιμή, ένα «υποεκφράζονται» γονίδιο θα έχει μια παρόμοια κατανομή γύρω από μια αρνητική τιμή, και ένα γονίδιο του οποίου η έκφραση είναι αμετάβλητη θα έχει μια κατανομή Gauss επικεντρώνεται γύρω από το μηδέν. Η ανάλυσή μας, όμως, αποδεικνύει ότι ποικίλους βαθμούς ασυμμετρίας και κύρτωσης, καθώς σημειώνονται αποκλίσεις από την ενότητα μεταξύ των τυπικών αποκλίσεων είναι χαρακτηριστικό των κατανομών έκφρασης για μεμονωμένα γονίδια. Ο Πίνακας 2 συνοψίζει τα αποτελέσματα αυτής της ανάλυσης, και το Σχήμα 3 δίνει ένα χαρακτηριστικό παράδειγμα αυτού του φαινομένου με τη γραφική αναπαράσταση των κατανομών επιλεγμένων γονιδίων από τον όγκο του εγκεφάλου (γλοιοβλάστωμα) σύνολο δεδομένων.

Αυτές οι γραφικές παραστάσεις απεικονίζουν το ευρύ φάσμα των πιθανών ασυμμετρία (Α) και κύρτωσης (Β) που υπάρχουν στις κατανομές έκφρασης των μεμονωμένων γονιδίων που περιλαμβάνουν τα σύνολα δεδομένων έκφρασης του καρκίνου. Αυτό αντικρούει την υπόθεση ότι τα δεδομένα έκφρασης για τα μεμονωμένα γονίδια ακολουθήσει μια προσέγγιση κατανομή Gauss γύρω από τη μέση στάθμη της έκφρασης του γονιδίου. Τα στοιχεία για αυτές τις γραφικές παραστάσεις λήφθηκε από το αρχείο καταγραφής

2-αφαιρείται, RMA-κανονικοποιημένα δεδομένα έκφραση γλοιοβλαστώματος. Για την ασυμμετρία σύγκρισης, επιλέχθηκαν πέντε γονίδια με ανάλογα μέσα, τυπικές αποκλίσεις και κύρτωση από υποσύνολα των γονιδίων που αντιπροσωπεύουν περίπου το 10

ου, 25

ου, 50

ου, 75

ου και 90

ου εκατοστημόρια για κάθε γονίδιο ασυμμετρίας που περιέχονται στο σύνολο δεδομένων. Ομοίως, για τη σύγκριση κύρτωση, επιλέχθηκαν πέντε γονίδια με ανάλογα μέσα, τυπικές αποκλίσεις και ασυμμετρία από υποσύνολα των γονιδίων που αντιπροσωπεύουν περίπου το 10

ου, 25

ου, 50

ου, 75

ου και 90

ου εκατοστημόρια για κάθε γονίδιο κύρτωση που περιέχεται στο σύνολο δεδομένων. Οι ταυτότητες των γονιδίων δεν είναι σχετικός για συγκριτικούς σκοπούς.

Προσαρμογή καμπύλης

εμπειρική καμπύλης χρησιμοποιήθηκε για να διερευνήσει περαιτέρω την πραγματική μορφολογία των κατανομών γονιδιακής έκφρασης του καρκίνου ( Πίνακας 3? Σχήματα 4, S3, S4, S5, S6). Αυτή η ανάλυση δείχνει ότι οι περίπλοκες, διανομές πολλαπλών παραμέτρων που απαιτούνται για τη μοντελοποίηση με μεγαλύτερη ακρίβεια τις κατανομές των δεδομένων έκφρασης. Σε γενικές γραμμές, οι καλύτεροι-fit διανομές ήταν εκείνοι που παραμετροποιηθούν για τη μοντελοποίηση λοξότητα, κύρτωση και βαριές ουρές. Αυτές περιλαμβάνουν κατανομές πολλαπλών παραμέτρων που σχετίζονται με το β-prime (Pearson VI, ικανό ασυμμετρίας μοντελοποίησης) (π.χ. Log-υλικοτεχνική, Dagum, Burr), kurtotic διανομές (π.χ. υπερβολική-τέμνουσας), και το ευέλικτο, 4-παραμέτρων Johnson SU [26].

Διανομή τοποθέτηση για το σύνολο δεδομένων καρκίνο του εγκεφάλου για RMA (επάνω) και DChip (κάτω) κανονικοποιημένα δεδομένα. Οι τρεις καλύτερες προσαρμογής καμπυλών επάνω στο ιστόγραμμα, και η κανονική καμπύλη κατανομής περιλαμβάνεται για σύγκριση. Οι ειδικές παράμετροι για τους ταιριάζει καλύτερα κατανομές δίνονται. Το ένθετο εμφανίζει το quantile-quantile (QQ) οικόπεδο για την καλύτερη προσαρμογή και κανονικές κατανομές. Αυτά τα διαγράμματα δείχνουν ότι πολλαπλών παραμέτρων κατανομών ικανό ασυμμετρία μοντελοποίησης και κύρτωση καλύτερα χαρακτηρίζουν τα δεδομένα από την τυπική Gaussian (κανονική) κατανομή. Παρόμοιες γραφήματα για πρόσθετους τύπους όγκων δίνονται στα σχήματα S2, S3, S4, S5.

Αν και αυτές οι κατανομές ταιριάζουν τα δεδομένα με μεγαλύτερη ακρίβεια από την κανονική κατανομή, τον έλεγχο KS δείχνει ότι είναι ατελή κρίσεις (Πίνακας 3). Επιπλέον, δεν υπάρχει ενιαία κατανομή που είναι σαφώς ανώτερη για τη μοντελοποίηση όλα τα σύνολα δεδομένων έκφρασης. Συνολικά, η ανάλυση αυτή επιβεβαιώνει τις σημαντικές αποκλίσεις από την κανονικότητα που σχετίζονται με τα δεδομένα της έκφρασης του γονιδιώματος του καρκίνου και καταδεικνύει την πολύπλοκη φύση των υποκείμενων κατανομών έκφραση

Gene Κλήση & amp.? Λειτουργική Σχολιασμός

Μέχρι αυτό το σημείο η ανάλυση έχει επικεντρωθεί στη διερεύνηση των πραγματικών διανομών σύνολα δεδομένων γονιδιακής έκφρασης και συγκρίνοντας αυτά σε ένα θεωρητικό, κανονική κατανομή. Αυτή η ανάλυση έδειξε ότι τα δεδομένα γονιδιακής έκφρασης ανθρώπινου καρκίνου δεν είναι κανονικά κατανεμημένο, είτε για το πείραμα ή στο επίπεδο ενός μόνο γονιδίου. Ένα κατάλληλο επόμενο ερώτημα είναι αν αυτές οι αποκλίσεις από την κανονικότητα επηρεάζει συνήθως γίνεται-analytics γονιδιακής έκφρασης, συμπεριλαμβανομένης της μοριακής ταξινόμησης, το γονίδιο καλώντας και λειτουργική σχολιασμό.

Για να διερευνήσουν αυτή την ερώτηση, πραγματοποιήσαμε μια ανάλυση ενός συνόλου δεδομένων γονιδιακής έκφρασης από 23 γλοιώματα χαμηλής ποιότητας (LGG), συμπεριλαμβανομένου ενός μοναδικού υποσυνόλου των έντεκα όγκων με άθικτα χρωμοσώματα 1p και 19q (αυθαίρετα καθορισμένο

Κλάση 1

) και ένα άλλο υποσύνολο των οκτώ ολιγοδενρρογλοιώματα με το χρωμόσωμα 1p /19q codeletions [5] [27], (αυθαίρετα καθορισμένο

Κλάση 2

), χρησιμοποιήθηκε για να μελετήσει τα αποτελέσματα της κατανομής των δεδομένων σε γονίδια ταυτοποίησης που είναι διαφορικά-εκφρασμένα μεταξύ γνωστών υποσύνολα του όγκου. Αυτό επιτεύχθηκε με την εφαρμογή ενός ενιαίου μετασχηματισμού (Box-Cox [28]) στο σύνολο δεδομένων εκφράσεως για τη βελτίωση της κανονικότητα της κατανομής των δεδομένων και, στη συνέχεια, συγκρίνοντας τα αποτελέσματα της γονιδιακής καλώντας αλγόριθμοι εφαρμόζονται στη μητρική και μετασχηματίζεται σύνολα δεδομένων (Σχήμα 5). Με τον τρόπο αυτό μόνο το σχήμα της κατανομής έχει αλλάξει, και η μηδενική υπόθεση είναι ότι αυτή η μεταμόρφωση πρέπει να έχει καμία επίδραση στη γονιδιακή καλώντας εάν οι μέθοδοι είναι επαρκώς «εύρωστη» στη μορφολογία διανομή ή είναι πραγματικά «διανομή ανεξάρτητη.»

Α μετασχηματισμός Box-Cox εφαρμόζεται στο σύνολο δεδομένων γλοίωμα χαμηλού βαθμού (αριστερά) έχει ως αποτέλεσμα μια κατανομή που προσεγγίζει περισσότερο κανονική κατανομή (δεξιά). Σημειώστε ότι η μητρική διανομή έγινε recentered σε μηδενικό σημαίνουν για να αντισταθμίσει την προεπιλεγμένη μέση του Robust εξόδου πολλαπλών μικροπλακετών Κανονικοποίηση του 7. Αυτό το μετασχηματισμένο διανομή στη συνέχεια χρησιμοποιήθηκε για να αναλυθούν τα αποτελέσματα της διανομής-που εξαρτώνται από την ταυτοποίηση διαφορικά εκφρασμένων γονιδίων-, λειτουργική σχολιασμό, και υποψήφιους μοριακής ταξινόμησης

Οι δύο όψεων φοιτητή

t-test

με μια τυπική Bonferroni διόρθωσης (

& lt? 0.01)., εντοπίστηκαν 50 διαφορικά εκφρασμένα γονιδίων μεταξύ

Κλάση 1

και

Class 2

χρησιμοποιώντας τη μητρική διανομής και 55 χρησιμοποιώντας το μετασχηματισμένο διανομής (9,1% διαφορά). Σαράντα εννέα (49) από 56 στο σύνολο διαφορικά εκφρασμένα γονίδια ήταν κοινά και στις δύο λίστες (87,5%), ενώ 7 ήταν μοναδικά εντοπίστηκαν μόνο σε μία από τις δύο λίστες (12,5%) (πίνακες 4Α, S3).

Ακόμη και με την αυστηρή Bonferroni διόρθωσης, η

t-test

είναι ένα παραμετρικό τεστ που κάνει υποθέσεις σχετικά με το σχήμα της υποκείμενης κατανομής. Για να εξαλειφθεί αυτό το φαινόμενο, εφαρμόσαμε δύο, μη παραμετρικές μέθοδοι για γονιδιακή κλήση. Ένα δύο κατηγορίας, μη ζευγαρωμένα ανάλυση σημασία των μικροσυστοιχιών (SAM) [29] εντοπίζονται 759 διαφορικά-εκφρασμένα γονίδια στο γονέα και 478 στο μετασχηματισμένο διανομής (37,2% διαφορά). 760 συνολικές γονίδια, 477 (62,8%) ήταν κοινά και στις δύο λίστες, ενώ 283 (37,2%) ήταν μοναδική για μία μόνο από τις δύο λίστες (πίνακες 4Α, S4). Μια δοκιμασία δύο-class, unpaired Kruskal-Wallis (KW) προσδιόρισε 1801 διαφορικά εκφρασμένα γονίδια στο πατρικό διανομή και 1800 στο μετασχηματισμένο διανομής. Υπήρξε 99,9% επικάλυψη σε αυτές τις λίστες γονίδιο (πίνακες 4Α, S5).

Μια εναλλακτική στρατηγική για γονιδιακή κλήση χρησιμοποιεί γραμμική μοντελοποίηση για μικροσυστοιχίες (LIMMA) [30] μια Bayesian προσέγγιση για την γραμμική μοντελοποίηση για να υπολογίσει μια μετριάστηκε

t-test

. Ενώ αυτή η μέθοδος υποθέτει κανονικότητα των υποκείμενων στοιχείων, θεωρείται από πολλούς για να είναι ανώτερη από την τυπική και να διορθωθεί

-ΜΕΛΕΤΕΣ και θεωρείται ισχυρή σε μια ποικιλία σύγχυσης μαθηματικές και στατιστικές επιδράσεις [31]. LIMMA προσδιορίζονται 2866 διαφορικά-εκφρασμένα γονίδια στο γονέα και 2981 στο μετασχηματισμένο διανομής. Του 3047 συνολικού γονίδια, 2.710 (88,9%) ήταν κοινά και στις δύο λίστες, ενώ 337 (11,1%) ήταν μοναδική για μία μόνο από τις δύο λίστες (πίνακες 4Α, S6).

Τα αποτελέσματα της κατανομής σε λειτουργική σχολιασμό μελετήθηκαν για πρώτη φορά από τη χρήση DAVID [32], [33] για να σχολιάσετε για το γονίδιο της οντολογίας (GO) [34], [35] και του Κιότο Εγκυκλοπαίδεια γονιδίων και γονιδιωμάτων (KEGG) [36] όσον αφορά στους καταλόγους του γονιδίου που δημιουργούνται στο παρελθόν από η SAM και KW αναλύει και στη συνέχεια εκτελώντας μια στατιστική ανάλυση εμπλουτισμού για τους σχολιασμένη όρους. Αυτό εντοπίστηκαν 46 μοναδικό όρους στις λίστες SAM, με 60,9% επικάλυψη μεταξύ των εμπλουτισμένο όρους στη μητρική και να μετατραπεί λίστες. Αντίθετα, η ανάλυση των καταλόγων που προκύπτουν από την ανάλυση KW εντοπίστηκαν 49 εμπλουτισμένο όρους, τα οποία ήταν πανομοιότυπα στους καταλόγους από τη μητρική και να μετατραπεί σύνολα δεδομένων (100,0% επικάλυψη) (Πίνακες 4Β, S7, S8).

τα Ταξινόμηση

δεδομένα γονιδιακής έκφρασης που χρησιμοποιούνται συχνά ως βάση για προσπάθειες μοριακής με βάση υποδιαίρεση των όγκων με παρόμοια ιστολογία αλλά διαφορετικές κλινικών φαινοτύπων. Εμείς εκμεταλλεύτηκε το

a priori

γνώσης [5] των δύο ομάδων αυτών εντός του γλοιώματος σύνολο δεδομένων χαμηλού βαθμού (

Κλάση 1

και

Class 2

) για την προσομοίωση της διαδικασίας κατάταξης και για να μελετηθεί η σχέση των αποτελεσμάτων με το σχήμα της υποκείμενης διανομής δεδομένων. Διακριτική ανάλυση (ΔΑ) και k-πλησιέστερων γειτόνων (KNN) ταξινομητές έχουν εκπαιδευτεί σε ένα υποσύνολο των όγκων με εκπροσώπους από κάθε κατηγορία και στη συνέχεια χρησιμοποιούνται για την ταξινόμηση δέκα, μυθιστόρημα όγκων σε μία από τις δύο κατηγορίες. Πανομοιότυπες αναλύσεις πραγματοποιήθηκαν σε δεδομένα από τη μητρική και μετασχηματίζεται διανομών. Τα αποτελέσματα αυτών των αναλύσεων καταδεικνύουν τη διαφορά 20% στην εκχώρηση κατηγορία (2/10 δείγματα) για την DA και 30% (3/10 δείγματα) για ταξινομητή KNN όταν χρησιμοποιείται με τις μητρικές δεδομένα αλλά πανομοιότυπα ταξινομήσεις για τα δύο μοντέλα, όταν χρησιμοποιείται με το μετασχηματισμένο σύνολο δεδομένων (Σχήμα 6). Η επίδραση αυτή είναι ανεξάρτητη από την αρχική μέθοδο μείωσης δεδομένων (SAM ή

-τεστ) (Σχήμα S7).

Δύο μέθοδοι υποψήφιους μοριακής ταξινόμησης, η παραμετρική Διαχωριστική Ανάλυση (DA, κορυφή ) και η μη-παραμετρική K-Πλησιέστερα γείτονες ταξινομητή (KNN, κάτω), χρησιμοποιήθηκαν σε συνδυασμό με τη μητρική και να μετατραπεί σύνολα δεδομένων έκφρασης γλοίωμα χαμηλής ποιότητας για τη μελέτη επιπτώσεων της διανομής που εξαρτώνται υποταξινόμησης μοριακού όγκου. Κλάση 1 αντιπροσωπεύει χαμηλού βαθμού, 1P /19q-ανέπαφο γλοιώματα, και κατηγορίας 2 αντιπροσωπεύει χρωμόσωμα 1p /19q codeleted, χαμηλού βαθμού ολιγοδενρρογλοιώματα. Οι κορυφαίο έγχρωμες γραμμές αντιπροσωπεύουν την γνωστή κατηγορία του κάθε δείγματος (μαύρα κουτιά? Κόκκινο = Κλάση 1, μπλε = Class 2). Η περιοχή κάτω από τις έγχρωμες γραμμές είναι ένα μέρος του προφίλ γονιδιακής έκφρασης (κόκκινο = υποεκφράζονται, πράσινο = υπερεκφράζεται). DA χρησιμοποιείται σε συνδυασμό με το μητρικό (μη-κανονική) κατανομή παράγει δύο εσφαλμένων ταξινομήσεων και KNN παράγει 3, ενώ και οι δύο μέθοδοι που χρησιμοποιούνται με το μετασχηματισμένο σύνολο δεδομένων ως αποτέλεσμα την ακριβή μοριακή υποταξινόμησης.

Συζήτηση

γονιδιακής έκφρασης τα δεδομένα δεν είναι Κανονικά-Distributed

Η κατανομή των δεδομένων γονιδιακής έκφρασης είναι συνήθως θεωρείται ότι είναι σύμφωνες με ένα πρότυπο Gaussian (κανονική) κατανομή [11], [17]. Αυτή η υπόθεση μπορεί να οφείλεται σε ένα συνδυασμό τριών παραγόντων. Κατ ‘αρχάς, αυτή η συμπεριφορά μπορεί να (αναμφισβήτητα) που προβλέπεται από το κεντρικό οριακό θεώρημα [16]. Δεύτερον, οι βασικές αναλύσεις των συνόλων δεδομένων γονιδιακής έκφρασης, που γενικά περιλαμβάνουν υπολογισμούς του μέσου όρου και της τυπικής απόκλισης, καθώς και οπτικό έλεγχο της διανομής δεδομένων, συνήθως αποκαλύπτουν σχήμα καμπάνας καμπύλες με μέσα (μ) με επίκεντρο κοντά στο μηδέν και οι τυπικές αποκλίσεις (σ) περίπου ίση με ένα. Τρίτον, κατά τις πρώτες ημέρες της ανάλυσης γονιδιακής έκφρασης, όταν κωδικοποιήθηκαν οι παραδοχές αυτές, σύνολα δεδομένων ήταν μικρές και παρατηρούνται διαφορές από αυτές τις θεωρητικές τιμές δεν μπορεί να επιτευχθεί στατιστική σημαντικότητα.

Η σύγχρονη εποχή της ανάλυσης της έκφρασης, που χαρακτηρίζεται από μειωμένο κόστος και αυξημένη διαθεσιμότητα του δείγματος, δίνει πλέον την πολυτέλεια της εργασίας με σύνολα δεδομένων που περιλαμβάνουν αρκετές φορές περισσότερα δείγματα και εκθετικά, περισσότερες δυνατότητες από αυτές του παρελθόντος. Αυτά τα σύνολα δεδομένων, όπως αυτά που εξετάζονται στην παρούσα, επιτρέπει ακριβέστερη ανάλυση των κατανομών των δεδομένων έκφρασης. Σε αυτή την ανάλυση που έχουμε προχωρήσει πέρα από τον υπολογισμό των μ και σ (η οποία, στην πραγματικότητα, φαίνεται εκ πρώτης όψεως να είναι συνεπής με ομαλότητα σε αυτά τα δεδομένα) και έχουν πραγματοποιήσει μια ολοκληρωμένη ανάλυση των ανώτερης τάξης κεντρικό στιγμές για αυτές τις διανομές. Η ανάλυση αυτή εκμεταλλεύεται τη διαθεσιμότητα των σχεδόν 10

8 χαρακτηριστικά κάθε σύνολο δεδομένων για να επιτρέψει την αξιολόγηση στατιστική σημαντικότητα των φαινομενικά ήσσονος σημασίας αποκλίσεις από την κανονικότητα. Με τον τρόπο αυτό, αποκαλύπτει ότι αυτές οι αποκλίσεις επίτευξη υψηλού βαθμού στατιστικής σημαντικότητας για το σύνολο των τεσσάρων πρώτων κεντρικών στιγμές. Αυτό παρέχει πειστικές αποδείξεις ότι αυτά τα δεδομένα γονιδιακής έκφρασης του καρκίνου δεν είναι σύμφωνες με ένα πρότυπο κατανομή Gauss (Σχήμα 2, Πίνακας 1) και ότι κατηγορηματική υποθέσεις ομαλότητας για αυτούς τους τύπους των συνόλων δεδομένων μπορεί να είναι άκυρη.

Γονιδιακής Έκφρασης δεδομένων Εκθέματα συγκρότημα Χαρακτηριστικά Διανομή

καμπύλη εμπειρική τοποθέτηση προσδιορίζει, σε μια αμερόληπτη μόδας, διανομές που το μοντέλο με μεγαλύτερη ακρίβεια τις παρατηρούμενες κατανομές των στοιχείων της έκφρασης. Ανάλυση των εμπειρικά-fit διανομές παρέχει πρόσθετες πληροφορίες σχετικά με τη διανομή των δεδομένων και μπορεί να χρησιμοποιηθεί για να εξαχθούν γενικά συμπεράσματα σχετικά με τους τύπους των κατάντη αναλύσεις που ενδέχεται να ισχύουν για αυτά τα σύνολα δεδομένων. Αυτή η ανάλυση αποδεικνύει ότι οι κατανομές έκφρασης δεν είναι καλά μοντελοποιούνται με απλουστευμένες, δύο κατανομές παραμέτρων (όπως η κανονική κατανομή), αλλά αντ ‘αυτού απαιτούν κατανομές με πολλαπλά (3-4) παράμετροι σχήμα για τη μοντελοποίηση των δεδομένων με ακρίβεια. Αρκετά παράγωγα της β-prime διανομής (π.χ. Log-εφοδιαστικής, Dagum, Burr [37], [38]) έχουν εμπειρικά αναγνωριστεί ως χρήσιμα μοντέλα για αυτά τα δεδομένα. Αυτό είναι λογικό, δεδομένου ότι η β-prime σχετίζεται με τη διανομή VI τύπο Pearson, η οποία είναι ένα από μια οικογένεια κατανομών που χρησιμοποιήθηκε αρχικά για τη μοντελοποίηση ασύμμετρων δεδομένων [38]. Η υπερβολική τέμνουσας διανομής ήταν επίσης συχνά μεταξύ αυτών των εμπειρικών μοντέλων. Αυτή είναι μια πιο απλή, διανομή 2-παραμέτρων με υπερβολική κύρτωση [39], και η αναγνώρισή του ως ένα χρήσιμο μοντέλο για τα δεδομένα αυτά υπογραμμίζει την kurtotic φύση των συνόλων δεδομένων. Τέλος, η 4-παραμέτρων Johnson SU [26] είναι ένα ευέλικτο κατανομή για τη μοντελοποίηση λοξή και kurtotic δεδομένων. Μαζί η οικογένεια Johnson διανομών καλύπτει όλο το φάσμα ασυμμετρίας-κύρτωσης, και η κατανομή SU είναι ιδιαίτερα χρήσιμο με λογαριθμική δεδομένων [38]. Συνολικά, ο προσδιορισμός αυτών των συγκεκριμένων οικογενειών (β-prime /Pearson, υπερβολική-τέμνουσας, Johnson), τονίζει την ασυμμετρία και κύρτωση αυτών των συνόλων δεδομένων και υπογραμμίζει την ανεπάρκεια της κανονικής κατανομής για το μοντέλο με ακρίβεια τα δεδομένα γονιδιακής έκφρασης του καρκίνου.

Ο στόχος ήταν να χρησιμοποιήσει τη διαδικασία της τοποθέτησης για να μάθουν όσο το δυνατόν περισσότερες πληροφορίες για την υποκείμενη δομή δεδομένων της μεταγραφικό καρκίνου διανομής, όχι να προσδιορίσει ένα μοναδικό, «best-fit» διανομής για τα δεδομένα γονιδιακής έκφρασης του καρκίνου. Στην πραγματικότητα, η ανάλυση KS (Πίνακας 3) δείχνει ότι κανένα από τα 57 κατανομών (Πίνακας S2) έναντι των οποίων εξετάστηκαν τα δεδομένα αυτά παρέχεται ένα ιδανικό μοντέλο για τα υποκείμενα δεδομένα. Παραμένει ασαφές εάν μια ενιαία κατανομή μπορεί να περιγράψει το μεταγραφικό καρκίνου πιστά, και είναι πιθανό ότι δεν υπάρχουν δύο σύνολα δεδομένων γονιδιακής έκφρασης του καρκίνου θα έχουν την ίδια, «best-fit» διανομής. Υποθέτουμε ότι το σύμπλοκο σχήμα των αδρανών κατανομών μπορεί να αντανακλά τη σύνθεση τους από διάφορα, μοναδικό διανομές των γονιδίων συνιστώσας. Περαιτέρω διερεύνηση αυτού του μίγματος μοντέλο υπόθεση και οι συνέπειές της για γονιδιακή κλήση είναι εκτός του πεδίου εφαρμογής της παρούσας έκθεσης, αλλά αξίζει περαιτέρω διερεύνηση.

Κατά παρέκκλιση, αναγνωρίζοντας ένα τέτοιο θεωρητικό μοντέλο για το σύνολο της διανομής δεν είναι κατ ‘ανάγκη για τη διεξαγωγή υψηλής ποιοτική ανάλυση των δεδομένων έκφρασης. Αντ ‘αυτού, οι ερευνητές που εργάζονται με δεδομένα γονιδιακής έκφρασης μπορεί να επιθυμεί να εκτελέσει παρόμοιες αναλύσεις με αυτές που περιγράφονται, προκειμένου να κατανοήσουν τη φύση της κατανομής των μοναδικών συνόλων δεδομένων τους. Αυτό στη συνέχεια θα τους επιτρέψει να επαληθεύσει ότι οι μεταγενέστεροι αναλύσεις τους δεν διαταράσσεται από ανακριβείς υποθέσεις σχετικά με το σχήμα των κατανομών δεδομένων.

Μη-Gaussian κατανομές Επηρεάζουν Gene Calling και Λειτουργική Σχολιασμός

Αφού απέδειξε ότι δεδομένων γονιδιακής έκφρασης του καρκίνου δεν είναι κανονικά κατανεμημένα, ένα κρίσιμο ερώτημα είναι ο βαθμός στον οποίο αυτές οι αποκλίσεις από την κανονικότητα επηρεάσει προς τα κάτω, αναλύει μεταφραστικά. Σημαντική προσπάθεια στη μεταγραφική ογκολογία έχει εφαρμοστεί για τον εντοπισμό μοναδική, γονοτυπική υποσύνολα των όγκων με κλινικά σημαντική φαινοτυπική συσχετισμούς, έτσι επικεντρώσαμε την ανάλυσή μας των αναλυτικών αποτελεσμάτων των μη-Gaussian κατανομές σε αυτόν τον τομέα.

Ένα κοινό στόχο της μεταφραστικής έρευνας είναι να προσδιορίσει ένα σύνολο γονιδίων με διαφορική έκφραση μεταξύ των δύο, είναι γνωστό ή υπάρχουν υποψίες υποσύνολα του όγκου. Ερευνήσαμε το ζήτημα αυτό με την εφαρμογή ενός κανονικού μετασχηματισμού στο σύνολο δεδομένων LGG, χρησιμοποιώντας τρεις διαφορετικούς αλγόριθμους για τον εντοπισμό διαφορικά εκφρασμένων γονιδίων μεταξύ

Class1

και

Class 2

τόσο της μητρικής και το μετασχηματισμένο δεδομένων, και στη συνέχεια εκτελώντας μια ημι-ποσοτική ανάλυση των προκυπτόντων καταλόγων γονιδίου.

Ο Bonferroni διορθωμένη

t-test

προσδιορίζονται 50 διαφορικά εκφρασμένα γονίδια στο γονέα και 55 στο μετασχηματισμένο διανομή και οδήγησε σε μια κατανομή που εξαρτάται από τη μεταβλητότητα του 12,5% (δείτε το

Κείμενο S1

, για περαιτέρω συζήτηση αυτού του υπολογισμού) (Πίνακας 4Α). Ο βαθμός στον οποίο αυτή η μεταβλητότητα αντικατοπτρίζει τις παραμετρικές υποθέσεις του ταξινομητή είναι δύσκολο να προσδιοριστεί, επειδή η αυστηρότητα των Bonferroni διόρθωσης οδηγεί σε μια μικρή λίστα των διαφορικά εκφρασμένων γονιδίων. LIMMA [30], η οποία θεωρείται πιο ισχυρή από ό, τι τα βασικά και διορθώνονται

-ΜΕΛΕΤΕΣ παρά θεμελιώδη παραδοχή της ομαλότητας, ήταν επίσης ευαίσθητα στις αλλαγές στην υποκείμενη κατανομή των δεδομένων, με διαφορά 11,1% στο γονίδιο καλώντας σημειωθεί μεταξύ της μητρικής και να μετατραπεί διανομές (Πίνακας 4Α, S6). Αντιστρόφως, η δοκιμή μη παραμετρικό KW προσδιορίζονται 1801 διαφορικά εκφρασμένα γονίδια, εκ των οποίων 1,800 (99,9%) ήταν κοινή και στις δύο λίστες (Πίνακας 4Α, S5).

Χρόνιες ασθένειες

PLoS One: Μη-Gaussian κατανομές Επηρεάζουν Προσδιορισμός των προτύπων έκφρασης, Λειτουργική σχολιασμού, και των προοπτικών κατάταξη σε ανθρώπινα καρκινικά Genomes