You must be logged into post a comment.
Αφηρημένο
εξέλιξης του καρκίνου είναι συχνά καθοδηγείται από τη συσσώρευση των γενετικών αλλαγών, αλλά και συνοδεύεται από αύξηση της γονιδιωματικής αστάθειας. Οι διαδικασίες αυτές οδηγούν σε ένα περίπλοκο τοπίο του αριθμού αντιγράφων αλλοιώσεις (προσαρμογείς CNA) σε επιμέρους όγκους και μεγάλη ποικιλομορφία σε όλη δείγματα όγκων. Υψηλής ανάλυσης σειρά που βασίζεται σε συγκριτική γονιδιωματική υβριδισμού (aCGH) είναι χρησιμοποιείται στο προφίλ CNAs των όλο και μεγαλύτερων συλλογών του όγκου, και την καλύτερη υπολογιστικών μεθόδων για την επεξεργασία αυτών των συνόλων δεδομένων και τον προσδιορισμό των ενδεχόμενων CNAs πρόγραμμα οδήγησης που απαιτούνται. Τυπικές μελέτες των συνόλων δεδομένων aCGH λάβει μια προσέγγιση αγωγό, ξεκινώντας με τμηματοποίηση των προφίλ, καλεί κερδών και ζημιών, και, τέλος, τον προσδιορισμό των συχνών CNAs σε όλη δείγματα. Ένα μειονέκτημα των αγωγών είναι ότι οι επιλογές σε κάθε βήμα μπορεί να παράγει διαφορετικά αποτελέσματα, και οι προκαταλήψεις διαδίδεται προς τα εμπρός. Σας παρουσιάζουμε μια μαθηματική ισχυρή νέα μέθοδο που εκμεταλλεύεται συσχετίσεις καθετήρα σε επίπεδο δεδομένων aCGH να ανακαλύψετε υποσύνολα των δειγμάτων που εμφανίζουν κοινά CNAs. Ο αλγόριθμός μας έχει σχέση με τις πρόσφατες εργασίες για ομαδοποίηση μέγιστου περιθωρίου. Δεν απαιτεί προ-κατάτμηση των δεδομένων και παρέχει επίσης ομαδοποίηση των επαναλαμβανόμενων CNAs σε ομάδες. Δοκιμάσαμε την προσέγγισή μας σε μια μεγάλη ομάδα του γλοιοβλαστώματος δείγματα aCGH από τον καρκίνο Genome Atlas και να ανακτηθεί το σύνολο σχεδόν προσαρμογείς CNA αναφερθεί στην αρχική μελέτη. Βρήκαμε επίσης πρόσθετες σημαντικές προσαρμογείς CNA έχασε από την αρχική ανάλυση, αλλά υποστηρίζεται από προηγούμενες μελέτες, και εντοπίζονται σημαντικές συσχετίσεις μεταξύ προσαρμογείς CNA
Παράθεση:. Rapaport F, Leslie C (2010) Προσδιορισμός συχνή Πρότυπα Copy Number Τροποποιήσεις στον Καρκίνο . PLoS ONE 5 (8): e12028. doi: 10.1371 /journal.pone.0012028
Επιμέλεια: Jean Peccoud, Virginia Tech, Ηνωμένες Πολιτείες της Αμερικής
Ελήφθη: 27, Απρ, 2010? Δεκτές: 2, Ιούλη του 2010? Δημοσιεύθηκε: 12 Αυγούστου, 2010
Copyright: © 2010 Rapaport, Leslie. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται
Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από επιχορήγηση Εθνικό Ίδρυμα Επιστημών IIS-0705580 και το Εθνικό Ινστιτούτο Υγείας χορηγήσει 1-U24-CA143840. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου
Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα
Εισαγωγή
καρκίνοι είναι ένα πολύπλοκο σύνολο των πολλαπλασιαστικών παθήσεων των οποίων η εξέλιξη, στις περισσότερες περιπτώσεις, οδηγείται εν μέρει από τη συσσώρευση των γενετικών αλλαγών, συμπεριλαμβανομένου του αριθμού αντιγράφων εκτροπές (προσαρμογείς CNA) μεγάλων ή μικρών περιοχές του γονιδιώματος [1], [ ,,,0],2], [3] το οποίο μπορεί για παράδειγμα να οδηγήσει σε ενίσχυση των ογκογονιδίων ή απώλειας των ογκοκατασταλτικών γονιδίων. Ωστόσο, η εξέλιξη του καρκίνου είναι επίσης συχνά χαρακτηρίζεται από την αυξανόμενη αστάθεια του γονιδιώματος, πιθανώς δημιουργώντας πολλά «επιβατών» προσαρμογείς CNA που δεν παρέχουν κλωνική πλεονέκτημα ανάπτυξης. Αυτές οι διαδικασίες δημιουργούν μια περίπλοκη τοπίο γονιδιωματικού αλλοιώσεων μέσα σε ένα μεμονωμένο όγκο και μεγάλη ποικιλομορφία αυτών των CNAs σε όλη δείγματα όγκων, γεγονός που καθιστά δύσκολο να προσδιοριστούν οι μεταλλάξεις οδηγού που συνδέονται με την εξέλιξη του καρκίνου.
Τα τελευταία χρόνια, η σειρά που βασίζεται συγκριτική γενωμική υβριδοποίησης (aCGH) [4], [5] και πολυμορφισμού ενός νουκλεοτιδίου (SNP) συστοιχιών [6] έχουν χρησιμοποιηθεί για την ανάλυση της CNAs των δειγμάτων του όγκου σε μία γενωμική κλίμακα και σε προοδευτικώς υψηλότερες αναλύσεις. Επιπλέον, μελέτες προφίλ πολυάριθμες μεγάλης κλίμακας καρκινικών έχουν δημιουργήσει σύνολα δεδομένων αριθμού αντιγράφων για μεγάλες ομάδες όγκων [7], [8]. Αυτά τα μεγάλα και σύνθετα «γονιδιώματος του καρκίνου» σύνολα δεδομένων παρούσα δύσκολη στατιστική προκλήσεις [9]. Μεμονωμένα CNAs μπορεί να είναι τόσο μικρή όσο μερικά γειτονικά ανιχνευτές ή τόσο μεγάλο όσο ένα ολόκληρα χρωμοσώματα και μπορεί να είναι δύσκολο να ανιχνευθούν πάνω από τον θόρυβο ανιχνευτή επιπέδου? Επιπλέον, δεν είναι σαφές πώς να έχει νόημα από ποικίλες CNAs από εκατοντάδες όγκων
Συνήθως, δύο είδη αναλύσεων έχουν διεξαχθεί σε σύνολα δεδομένων αριθμός αντιγράφων:.
ομαδοποίηση των δειγμάτων από προσαρμογείς CNA τους, για τον προσδιορισμό πιθανών υποτύπους όγκου χαρακτηρίζεται από ένα κοινό πρότυπο ενισχύσεις και τις διαγραφές?
προσδιορισμό σημαντικών γενετικών ανωμαλιών, είτε τα κέρδη ή ζημίες, που συμβαίνουν συχνά στο σύνολο δεδομένων, δεδομένου ότι αυτά μπορεί να αντιπροσωπεύει μεταλλάξεις οδηγού σημαντικό για την εξέλιξη του όγκου
η
Σχεδόν πάντα, τα προβλήματα αυτά αντιμετωπίζονται με μια προσέγγιση του αγωγού, όπου aCGH προφίλ των χρωμοσωμάτων για μεμονωμένα δείγματα πρώτα σε επεξεργασία από έναν αλγόριθμο κατάτμησης.? μεμονωμένα τμήματα (περιοχές του γονιδιώματος) είναι «ονομάζεται» ως κέρδη ή ζημίες, με βάση το πλάτος τους, χρησιμοποιώντας μια επιλογή από στατιστική διαδικασία και το κατώφλι σημασία? και, τέλος, οι ονομάζονται τμήματα που χρησιμοποιούνται ως είσοδος σε έναν αλγόριθμο ομαδοποίησης [1], [10], [11] ή σκοράρει με βάση τη μέθοδο για τον προσδιορισμό σημαντικών κοινών εκτροπές [12], [13], [14]. Το μειονέκτημα των προσεγγίσεων αγωγού, ωστόσο, είναι ότι η αλγοριθμική επιλογές και τις παραμέτρους συντονισμού σε κάθε βήμα μπορεί να παράγουν πολύ διαφορετικά αποτελέσματα, και τα λάθη ή τις προκαταλήψεις διαδίδεται προς τα εμπρός.
Για το πρώτο βήμα, υπάρχουν πολλές αλγόριθμοι κατάτμησης [15 ], [16], [17], [18] που αποφέρουν σημαντικά διαφορετικά όρια τομέα [19], που οδηγούν σε διαφορετικές κλήσεις των κερδών και ζημιών. Το τελικό βήμα της ανάλυσης CNAs σε όλη δειγμάτων εξαρτάται σε μεγάλο βαθμό από τις επιλογές που έγιναν νωρίτερα. Ως παράδειγμα, η ευρέως χρησιμοποιούμενη μέθοδος GISTIC για τον προσδιορισμό συχνές ανωμαλίες [12] χρησιμοποιεί ως στατιστικό τεστ του, σε κάθε τόπο, τον αριθμό δειγμάτων όπου ένα κέρδος (ή ζημία) είναι παρόν πολλαπλασιάζεται με το μέσο εύρος του κέρδους ( απώλεια). Ωστόσο, τόσο ο αριθμός και η μέση ένταση εξαρτάται από προηγούμενες επιλογές στον αγωγό.
Σε αυτή τη μελέτη, προτείνουμε ένα νέο και μαθηματικά ισχυρή μέθοδο για την εύρεση σημαντικών μοντέλων CNAs σε ένα μεγάλο αριθμό αντιγράφων των δεδομένων που άμεσα από τα δεδομένα ανιχνευτή επιπέδου. Με την αποφυγή μιας προσέγγισης αγωγού περιλαμβάνει ένα βήμα κατάτμησης, ο αλγόριθμος εκμεταλλεύεται συσχετίσεις ανιχνευτή επιπέδου μας στα δεδομένα aCGH να ανακαλύψετε υποσύνολα των δειγμάτων που εμφανίζουν κοινά CNAs. Με την εφαρμογή της προσέγγισης με ιεραρχικό τρόπο να στεγανοποιήσει επαναληπτικά το σύνολο δεδομένων, ανακαλύπτουμε τα δύο γεγονότα μεγάλης και μικρής κλίμακας και μπορεί να ανιχνεύσει στατιστικά σημαντική προσαρμογείς CNA συμβαίνουν στο 5% των δειγμάτων. Με τον τρόπο αυτό, ο αλγόριθμος αντιμετωπίζει τόσο το πρόβλημα ομαδοποίησης και το συχνό πρόβλημα εκτροπή ταυτόχρονα. Αλγοριθμικά, η προσέγγισή μας έχει σχέση με τις πρόσφατες εργασίες για ομαδοποίηση μέγιστου περιθωρίου [20], [21], [22], [23], η οποία εκτείνεται φορέας υποστήριξης της μηχανής που μοιάζει με τη βελτιστοποίηση προσεγγίσεις στο πρόβλημα της μη επιβλεπόμενη ομαδοποίηση. Δηλαδή, κάθε διαμέρισμα του συνόλου δεδομένων επιτυγχάνεται με την εκμάθηση ενός γραμμικού ταξινομητή του ανιχνευτή επιπέδου aCGH προφίλ που εκχωρεί τα δείγματα σε μία ομάδα ή την άλλη. Μπορούμε επίσης να αξιοποιήσει τις ιδέες που αναπτύχθηκαν για εποπτευόμενη ταξινόμηση των δειγμάτων aCGH [24], [25], [26], [27], ιδίως, η χρήση της σταθερής κομμάτι-σοφός και λάσο [17], [26], [28 ] όρων νομιμοποίηση στο πρόβλημα βελτιστοποίησης, η οποία ενθαρρύνει τον ταξινομητή για τη λήψη αποφάσεων, χρησιμοποιώντας μόνο ένα μικρό αριθμό των ανιχνευτών στο ενημερωτικό όμορες περιφέρειες.
Δοκιμάσαμε την προσέγγισή μας σε μια μεγάλη ομάδα του γλοιοβλαστώματος δείγματα aCGH δημιουργείται πρόσφατα από τον καρκίνο Genome Atlas Έργου (TCGA) [7]. Βρήκαμε ότι οι μεγάλες προσαρμογείς CNA ανιχνεύονται από τον αλγόριθμο μας είναι σε μεγάλο βαθμό σύμφωνη με την αρχική μελέτη TCGA, στο ότι σχεδόν όλα τα προσαρμογείς CNA έχουν αναφερθεί στο παρελθόν ήταν επίσης στα αποτελέσματα μας. Ωστόσο, βρήκαμε μια επιπλέον σημαντική προσαρμογείς CNA έχασε από την ανάλυση TCGA αλλά υποστηρίζεται από προηγούμενες μελέτες αναλύσεις ή /και της έκφρασης. Επιπλέον, η προσέγγιση ιεραρχική κατάτμηση συνοψίζει τα σετ σχέσεις και εξαρτήσεις μεταξύ διαφορετικών προσαρμογέων CNA, το οποίο μπορεί να είναι χρήσιμο για τη δημιουργία υποθέσεων σχετικά με την ακολουθία των CNAs στο εξέλιξης του όγκου.
Αποτελέσματα
Επισκόπηση Αλγόριθμος
Ο αλγόριθμός μας χωρίσματα επαναληπτικά ένα σύνολο δεδομένων του όγκου προφίλ aCGH για ένα δεδομένο χρωμόσωμα να ανακαλύψετε υποσύνολα των όγκων με παρόμοια CNAs. Αντί να χρησιμοποιεί τις τυπικές τεχνικές προεπεξεργασίας όπως αλγόριθμοι κατάτμησης, χρησιμοποιούμε δεδομένα απευθείας ανιχνευτή επιπέδου και να ενσωματώσει εκ των προτέρων γνώση για τη φύση των εν λόγω στοιχείων, δηλαδή: (1) Οι διαδοχικές ανιχνευτές συσχετίζονται, δηλαδή είναι πιθανόν να αντιπροσωπεύουν τους ίδιους αριθμούς αντίγραφο? και (2) ένα χρωμόσωμα τυπικά (αν και όχι πάντα) ελλιμενίζει λίγοι CNAs. Σε κάθε βήμα διαχωρισμού, μαθαίνουμε ένα γραμμικό διαχωριστή που αναθέτει προφίλ aCGH σε μία από δύο κατηγορίες, που αντιπροσωπεύεται γεωμετρικά από τα δύο ημι-χώρους (δηλαδή και) εκατέρωθεν του υπερεπίπεδο που ορίζεται από την κανονική διάρκεια του φορέα και προκατάληψη (Σχήμα 1) . Εδώ, τα προφίλ χρωμόσωμα και το διάνυσμα βάρους είναι πραγματικών τιμών φορέων με διάσταση ίση με τον αριθμό των ανιχνευτών για το χρωμόσωμα, και προσδιορίζεται από την επίλυση ενός προβλήματος βελτιστοποίησης (βλέπε Μέθοδοι), όπου περιορίζεται να είναι τμηματικά σταθερές (διαδοχικές ανιχνευτές έχουν την τάση να έχουν τα ίδια βάρη) και αραιά (λίγες ανιχνευτές έχουν μη μηδενική βάρη). Η προσέγγισή μας βασίζεται σε μία πρότεινε πρόσφατα μέγιστη αλγορίθμου ομαδοποίησης περιθώριο [21], [22], η οποία φέρνει ιδέες από μεγάλα περιθώρια εποπτεύεται εκμάθηση τεχνικών, όπως φορέα υποστήριξης ταξινόμηση μηχάνημα και υποστήριξη φορέα παλινδρόμησης με την χωρίς επιτήρηση πρόβλημα ομαδοποίησης? η επιλογή των περιορισμών που υποκινήθηκε από τις πρόσφατες εργασίες για λιωμένο λάσο παλινδρόμησης [28] (βλέπε Μέθοδοι).
Ο αλγόριθμος βρίσκει μια γραμμική συνάρτηση που είναι σε θέση να στεγανοποιήσει τα δείγματα aCGH σε δύο ομάδες. Με την επίλυση ενός προβλήματος βελτιστοποίησης, ο αλγόριθμος προσδιορίζει τον φορέα, το οποίο αντιπροσωπεύει την κανονική γεωμετρική διάνυσμα ένα υπερεπίπεδο (φαίνεται σε κόκκινο) διαχωρισμό των δειγμάτων, μαζί με τον όρο προκατάληψη, και την αντιστοίχηση των δειγμάτων σε ομάδες. Στο παράδειγμα παιχνίδι που φαίνεται, το υπερεπίπεδο χωρίζει τα δείγματα που παρουσιάζουν μια διαγραφή στο βραχίονα q (πάνω από το υπερεπίπεδο) από αυτούς που δεν το κάνουν (κάτω από το υπερεπίπεδο).
Η
Δεδομένου ότι κάθε γραμμική αποτελέσματα διαχωριστή σε ένα δυαδικό χώρισμα δειγμάτων, εφαρμόζουμε διαδικασία μας επαναληπτικό για το διαχωρισμό κάθε ομάδα δειγμάτων σε δύο νέες ομάδες κατά τέτοιον τρόπο ώστε η νέα γραμμικό διαχωριστή είναι ορθογώνια προς τις προηγουμένως καθοριστεί αυτά. Ως εκ τούτου, κάθε βήμα θα βρείτε μια νέα κατεύθυνση της διακύμανσης στα δεδομένα aCGH (παρόμοια με ανάλυση κύριων συνιστωσών [29]), και τα συνολικά η διαδικασία καταλήγει σε μια ιεραρχική κατάτμηση του συνόλου δεδομένων (βλέπε Μέθοδοι).
στεγανοποίηση μεγάλα περιθώρια κέρδους αποκαλύπτει ιεραρχία του αριθμού αντιγράφων αλλάζει
Συλλέξαμε δεδομένα μας που από την πύλη δεδομένων του καρκίνου Γονιδιώματος Atlas (TCGA) [7]. Περιέχει 345 δείγματα γλοιοβλαστώματος όγκου με τις αλλαγές του αριθμού αντιγράφων προφίλ σε συστοιχίες Agilent 244K (228Κ ανιχνευτές). Αυτό το σύνολο δεδομένων έχει ήδη αναλυθεί για να καθορίσει σημαντικά γεγονότα ενίσχυση και διαγραφή χρησιμοποιώντας τη ΡΑΕ [13] και GISTIC [12] αλγόριθμους [7].
Χρησιμοποιήσαμε το Επίπεδο 2 δεδομένων που έχουν ήδη παραχθεί από την προηγούμενη ανάλυση [7 ]. Αυτά τα δεδομένα έχουν ήδη κανονικοποιηθεί μέσω της εφαρμογής ενός αλγορίθμου Lowess στα στοιχεία αναλογία καταγραφής, και ανιχνευτές επισημαίνονται ως χαμηλής ποιότητας (κορεσμένα, ανομοιόμορφη ή λιποθυμία) εξαιρούνται. Ποιότητα των συστοιχιών μετρήθηκε επίσης με το ποσοστό των αποκλεισμένων ανιχνευτών και τη συνοχή των αξιών που συνδέονται με τις διαδοχικές ανιχνευτές, και συστοιχίες χαμηλής ποιότητας είχαν αφαιρεθεί από το σύνολο δεδομένων.
Τρέξαμε αλγόριθμο μας ξεχωριστά σε κάθε χρωμόσωμα, με μια σπανιότητα συντελεστή και συντελεστή τμηματικά-constantness (βλέπε Μέθοδοι). Εμπειρικά, βρήκαμε την ακόλουθη εξάρτηση από την επιλογή αυτών των συντελεστών: αν οι συντελεστές επιλέχθηκαν να είναι πάρα πολύ μικρό, αυτό θα οδηγήσει σε ένα ασήμαντο ομαδοποίηση, με όλα τα δείγματα εκχωρηθεί στον ίδιο όμιλο? εάν οι παράμετροι ήταν πολύ ανεκτική, η ομαδοποίηση που λαμβάνεται θα είναι το ίδιο με το πρότυπο -means (). Ωστόσο, μεταξύ αυτών των δύο άκρων, τα αποτελέσματα ομαδοποίησης δεν ήταν υπερβολικά ευαίσθητα σε επιλογή παραμέτρων. Περιμένουμε το κατάλληλο εύρος των παραμέτρων που εξαρτώνται από την πλατφόρμα συστοιχία καθώς και στατιστικές ιδιότητες των προφίλ array σε ένα δεδομένο σύνολο δεδομένων. Γι ‘αυτό προτείνουμε την εκτέλεση μιας αναζήτησης πλέγμα σε ένα υποσύνολο των δειγμάτων και επιλέγοντας τις μικρότερες δυνατές παραμέτρους που δίνουν μια μη τετριμμένη ομαδοποίηση σε κάθε χρωμόσωμα.
Για να εκτιμηθεί η σημασία των αποτελεσμάτων μας, χρησιμοποιήσαμε ένα τυχαίο μοντέλο όπου ανακατεύονται τους ανιχνευτές του συνόλου δεδομένων μας και να συγκριθεί η απόσταση μεταξύ των διάμεσος δείγματα από δύο ομάδες μας με τη διανομή των 1.000 αποστάσεις διάμεσου δείγματα δύο τυχαίες ομάδες δείγμα διαχωρίζεται με τον ίδιο ταξινομητή. Εμείς διαπιστώσαμε ότι το τυχαιοποιημένη κατανομή απόσταση ακολουθεί μια κανονική κατανομή, και υπολογίσαμε την τιμή-για την απόσταση μεταξύ των διάμεσος δείγματα που αντιστοιχούν στην ουρά αυτής της κανονικής κατανομής.
Για κάθε χρωμόσωμα, κατασκευάσαμε ένα «δέντρο ομαδοποίηση «από επαναληπτικά το διαχωρισμό κάθε ομάδα σε δύο και αν τηρούνται τα τρία κριτήρια. Το πρώτο κριτήριο ήταν ότι θα πρέπει να περιέχουν περισσότερα από πέντε δείγματα (1,5% του συνόλου των δεδομένων), δεδομένου ότι θα είναι δύσκολο να επιτευχθεί μια στατιστικά σημαντική κατάτμηση των πολύ μικρών υποσύνολα. Το δεύτερο κριτήριο ήταν ότι ο διαχωρισμός σε αυτή την ομάδα δεν θα κάνει το βάθος του δέντρου μας μεγαλύτερο από 3. Το μέγιστο βάθος επιλέχθηκε ευρετικά: μετά από τρεις επαναλήψεις, μπορούμε εμπειρικά διαπίστωσε ότι οι ομάδες ήταν πολύ μικρό ή ο διαχωρισμός δεν ήταν πια σημαντική. Το τελευταίο κριτήριο ήταν ότι η κατάτμηση δημιουργία αυτής της ομάδας πρέπει να πληρούν το όριο σημαντικότητας του. Ενώ αυτό μπορεί να φανεί-τιμή υπερβολικά ανεκτική, είναι σημαντικό να κατανοήσουμε ότι εκτιμητής μας (το κέντρο βάρους απόσταση) δεν έχει βελτιστοποιηθεί άμεσα από τον αλγόριθμο? Ως εκ τούτου, οι εμπειρικές-τιμές που προκύπτουν είναι αρκετά συντηρητική.
Σχήμα 2 δίνει ένα παράδειγμα ενός «δέντρου ομαδοποίηση» που παράγεται από τον αλγόριθμο μας για το χρωμόσωμα 19. Η πρώτη επανάληψη χωρίζει τα δείγματα σε δύο ομάδες, μία με 17 δείγματα ότι παρουσιάζει μία διαγραφή μίας περιοχής του βραχίονα q και ένα από 326 δείγματα, με. Το κεντροειδές κάθε συστάδα εμφανίζεται με πράσινο χρώμα (Εικόνα 2, αριστερή στήλη)? Επιπλέον, η κατάτμηση του κάθε κέντρου βάρους του συμπλέγματος, χρησιμοποιώντας ένα τυποποιημένο εργαλείο (κυκλική δυαδικό κατάτμησης [30]) φαίνεται να βοηθήσει στην ανίχνευση του αριθμού αντιγράφων διαφορές μεταξύ των δύο ομάδων. Όσον αφορά αυτό το διαχωρισμό και κάθε συστάδα είναι μεγαλύτερο από 5 δείγματα, χωρίζουμε κάθε ένα από αυτά τα υποσύνολα σε δύο νέες ομάδες. Η διάσπαση της ομάδας των 17 δειγμάτων δεν σχετίζεται με μια σημαντική αρκετά διάμεσος διαχωρισμού () και ως εκ τούτου δεν είναι χωρισμένο πάλι. Από την άλλη πλευρά, η κατάτμηση της ομάδας των 326 δειγμάτων παράγει μία ομάδα από 250 δείγματα χωρίς καμία προφανή σημαντική CNA και μια ομάδα 76 δειγμάτων των οποίων κεντροειδές δείχνει μία ενίσχυση του συνόλου των χρωμοσωμάτων. Αυτή η διάσπαση έχει ισχυρή σημασία (), και ως εκ τούτου και οι δύο από αυτές τις ομάδες χωρίζονται και πάλι. Το διαμέρισμα της ομάδας των 250 δειγμάτων δεν επιτυγχάνει σημαντική (), και κανένα από τα προκύπτοντα συμπλέγματα δείχνουν καμία σημαντική CNAs. Η ομάδα των 76 δειγμάτων διαιρείται σε δύο νέες ομάδες 37 και 39 δείγματα (). Κάθε μία από αυτές τις ομάδες δείχνει μία ενίσχυση της όλης χρωμοσώματος, αλλά η ομάδα με 39 δείγματα φαίνεται να έχουν μικρότερη ενίσχυση του βραχίονα q παρά της ρ βραχίονα, ενώ το άλλο όχι. Όπως έχουμε περιορίσει τους εαυτούς μας σε δέντρα του βάθους 3, δεν διχοτόμηση είτε από αυτές τις ομάδες περαιτέρω.
Σε κάθε επανάληψη του αλγορίθμου, κάθε προηγουμένως εντοπιστεί ομάδα των δειγμάτων είναι χωρισμένο σε δύο νέες συστάδες χρησιμοποιείται ένα μεγίστης τεχνική ομαδοποίησης περιθώριο που εκμεταλλεύεται τους συσχετισμούς στο προφίλ aCGH (βλέπε Μέθοδοι). Η διαδικασία διαχωρισμού σταματά όταν (i) μια ομάδα έχει λιγότερους από 5 δείγματα? (Ii) το διαμέρισμα δημιουργώντας την ομάδα αποτυγχάνει να επιτύχει ένα στατιστικό κατώφλι σημασία? ή (iii) το δέντρο είναι ήδη στο μέγιστο βάθος 3. Στην παραπάνω εικόνα, κάθε ομάδα αντιπροσωπεύεται από κέντρο βάρους του, δηλαδή μέση προφίλ της, με πράσινο χρώμα. Για λόγους απεικόνισης, η κατάτμηση του κέντρου βάρους, που παράγεται από κυκλικές δυαδικό κατάτμησης [30], εμφανίζεται με κόκκινο χρώμα.
Η
Ανάλυση του γλοιοβλαστώματος δεδομένων aCGH ανακτεί γνωστό CNAs, χωρίς κατάτμηση δείγματα
Εφαρμόσαμε την επαναληπτική διαδικασία σε κάθε χρωμόσωμα ανεξάρτητα, όπως περιγράφεται στο προηγούμενο τμήμα. Για να καλέσετε χαρακτηριστικό προσαρμογείς CNA της κάθε συστάδας, εφαρμόσαμε κυκλική δυαδικό κατάτμησης [30] χρησιμοποιώντας τις προεπιλεγμένες παραμέτρους κέντρο βάρους του, δηλαδή το μέσο προφίλ της συστάδας, και συνδέεται το χαρακτηριστικό CNA (ες) της παρούσας κέντρο βάρους στο σύμπλεγμα. Κάποιος πρέπει να καταλάβει ότι οι εκτροπές του κέντρου βάρους προφίλ δεν μπορεί να μοιραστεί από κάθε ένα από τα δείγματα συμπλέγματος, αλλά ότι δίνει μια καλή εκτίμηση αυτών των γεγονότων. Μπορούμε επίσης προειδοποιούν ότι το μέγεθος του διαμερίσματος δίνει μια καλή ιδέα για την διεισδυτικότητα, αλλά δεν είναι απολύτως ισοδύναμες.
Η πρώτη επανάληψη του αλγορίθμου μας βρήκε μια ενίσχυση ολόκληρου του χρωμοσώματος 1, του συνόλου του χρωμοσώματος 7 και της ολόκληρη η χρωμοσώματος 20. Προσδιόρισε επίσης τη διαγραφή του συνόλου 9p βραχίονα, καθώς και ένα μεγάλο μέρος του 19q, το σύνολο του χρωμοσώματος 10, το σύνολο του χρωμοσώματος 13, το σύνολο του χρωμοσώματος 14 και το σύνολο του χρωμοσώματος 22. η δεύτερη επανάληψη του αλγόριθμο βρήκε την απώλεια 6q βραχίονα, διαγραφή ολόκληρου του χρωμοσώματος 15, του συνόλου του χρωμοσώματος 16 και την ενίσχυση του συνόλου του χρωμοσώματος 19. απέδειξε, επίσης, ότι ορισμένα δείγματα που παρουσιάζουν ενίσχυση του χρωμοσώματος 7 περιέχουν επίσης ένα κομβικό και πολύ ισχυρή ενίσχυση εκδήλωση για την 7ρ βραχίονα. Η τρίτη επανάληψη του αλγορίθμου που προσδιορίζονται γεγονότα εστιακό ενίσχυση στο χρωμόσωμα 3 και στο χρωμόσωμα 4. Έδειξε επίσης μία απώλεια των ολόκληρα χρωμοσώματα 9 και 21. Αυτά τα αποτελέσματα συνοψίζονται στον Πίνακα 1, μαζί με το μέγεθος του διαμερίσματος στο οποίο κάθε CNA εντοπίστηκε από την άποψη του αριθμού των δειγμάτων και το ποσοστό του πλήρους συνόλου δεδομένων.
η
Μια ανάλυση του ίδιου συνόλου δεδομένων χρησιμοποιώντας τόσο τη ΡΑΕ [13] και GISTIC [12] αλγορίθμων έχει ήδη δημοσιευθεί [7 ]. Και οι δύο μέθοδοι συμφώνησαν σε σημαντικά γεγονότα ενίσχυση μεγάλης κλίμακας για τα ολόκληρα χρωμοσώματα 7, 19 και 20 και το εστιακό ενίσχυση γεγονότα στο χρωμόσωμα 1 και 12? σημαντική μεγάλης κλίμακας εκδηλώσεις διαγραφή για χρωμοσωμικές 6q όπλα, 9p, 15q, σε ολόκληρα χρωμοσώματα 10, 13, 14 και 22? και εστιακή διαγραφή καταχωρήσεις χρωμόσωμα 1. Επιπλέον, η ΡΑΕ βρέθηκαν σημαντικά γεγονότα εστιακό ενίσχυση στο χρωμόσωμα 14, καθώς και σημαντικές εστιακό γεγονότα διαγραφή στο χρωμόσωμα 11. Αντιθέτως, GISTIC βρέθηκαν διάφορα πρόσθετα γεγονότα εστιακό ενίσχυσης στα χρωμοσώματα 3 και 4. Το σχήμα 3 περιλαμβάνει μια σύνοψη των αποτελεσμάτων μας, καθώς και μια σύγκριση με τα γεγονότα ενίσχυση και τη διαγραφή βρεθεί από τα δύο αυτά ανάλυσης.
Οι οριζόντιες διαδρομές δείχνουν την CNAs προσδιορίζονται από τρεις πρώτες επαναλήψεις της μεθόδου μας, σε σύγκριση με αυτά που βρέθηκαν από GISTIC και στη ΡΑΕ. Το μεσαίο κομμάτι απεικονίζει τα χρωμοσώματα, ακόμη και με αριθμούς χρωμοσωμάτων σχολιασμένη. Τα κέρδη σημειώνονται με κόκκινο χρώμα και οι απώλειες σε μπλε χρώμα.
Η
Όπως φαίνεται στο Σχήμα 3, τα περισσότερα από τα γεγονότα που βρέθηκαν στις δύο ΡΑΕ και GISTIC αναλύσεις βρίσκονται από τις δύο πρώτες επαναλήψεις της μεθόδου μας, συμπεριλαμβανομένων όλων των μεγάλων -scale εκδήλωση που προσδιορίζονται από αυτές τις μεθόδους. Εξαιρέσεις περιλαμβάνουν μια μικρή εκδήλωση ενίσχυσης στο χρωμόσωμα 12, τα γεγονότα στο χρωμόσωμα 1 (όπου η μέθοδός μας διαφωνεί με τη διαπίστωση της ΡΑΕ και GISTIC) και μια εκδήλωση ενίσχυσης στο χρωμόσωμα 4, το οποίο βρίσκεται στην τρίτη μας επανάληψη.
επαναληπτική στεγανοποίηση αποκαλύπτει μυθιστόρημα προσαρμογείς CNA υποστηρίζεται από ανεξάρτητες μελέτες γλοιοβλάστωμα
Πέρα από την ανάκτηση σχεδόν όλα τα προσαρμογείς CNA προσδιορίζονται με μεθόδους όπως η ΡΑΕ και GISTIC, επαναληπτικός αλγόριθμος κατάτμησης μας βρήκε μια σειρά από σημαντικά γεγονότα που δεν ανακαλύφθηκαν από προηγούμενες αναλύσεις αυτού του συνόλου δεδομένων . Οι εκδηλώσεις αυτές περιλαμβάνουν μια ενίσχυση του συνόλου χρωμοσώματος 1, ένα συμβάν διαγραφή στις ολόκληρα χρωμοσώματα 9, 15, 16 και 21, καθώς και μια διαγραφή της 19q βραχίονα.
Μερικά από αυτά τα γεγονότα έχουν τεκμηριωθεί σε μελέτες ανεξάρτητων συνόλων δεδομένων αριθμού αντιγράφων, όπως τη διαγραφή στο 19q βραχίονα [31], [32] και του χρωμοσώματος 16 [33]. Η διαγραφή του χρωμοσώματος 21 έχει προηγουμένως συνδέεται με γλοιοβλάστωμα [34], και έχει προταθεί ότι η χαμηλή συχνότητα γλοιοβλαστώματος σε ασθενείς με σύνδρομο Down, είναι συνδεδεμένο με το χρωμόσωμα 21 τρισωμία που χαρακτηρίζει αυτό το γενετική κατάσταση [35]. Εδώ, συναντάμε τη διαγραφή χρωμοσώματος συνδέεται με ένα πολύ μικρό σύμπλεγμα (6 δείγματα), και η χαμηλή συχνότητα εξηγεί πιθανώς γιατί αυτή η εκτροπή χάθηκε από προηγούμενες αναλύσεις. Η διαγραφή του χρωμοσώματος 15 περιλαμβάνει πράγματι τη διαγραφή στο 15q βραχίονα βρίσκονται στις προηγούμενες αναλύσεις. Το σχήμα του κεντροειδούς για αυτή την κατάτμηση δείχνει ότι το πλάτος της διαγραφής είναι μικρότερο για το υπόλοιπο του βραχίονα q και το ρ βραχίονα, και είναι πιθανό ότι η διαγραφή πλήρης χρωμόσωμα δεν βρέθηκε από τη ΡΑΕ ή GISTIC λόγω του μικρότερου πλάτους .
Για την αναγνώριση των γονιδίων που είναι καλά συσχετίζονται με την CNAs, πραγματοποιήσαμε μια ανάλυση σημασία των μικροσυστοιχιών (SAM) χρησιμοποιώντας το πακέτο SAMR. Για κάθε ομάδα, θα επισημαίνονται κάθε δείγμα σύμφωνα με την ετικέτα του (εντός ή εκτός του συμπλέγματος των τόκων) και εξέτασε τον αριθμό των γονιδίων της περιοχής του ΚΥΠΕ που ήταν σημαντικά διαφορικά υποεκφράζονται στην περίπτωση διαγραφής, ή σημαντικά υπερεκφράζεται σε η περίπτωση ενός ενίσχυσης. Υπολογισμοί έγιναν χρησιμοποιώντας το t-στατιστική, 100 παραλλαγές και τη μέθοδο Tusher [36].
Τα αποτελέσματά μας, που συνοψίζονται στον Πίνακα 1, δείχνουν ότι στις περισσότερες περιπτώσεις ένα μεγάλο αριθμό γονιδίων είχαν επίπεδα έκφρασης που συσχετίζονται σημαντικά με την ανάθεση των δειγμάτων στο σύμπλεγμα φιλοξενεί το ΚΥΠΕ. Θα πρέπει να σημειωθεί ότι η σχέση μεταξύ έκφρασης και αριθμού αντιγράφων είναι πολύπλοκη, και ότι η απουσία σημαντικοί συσχετισμοί δεν αποκλείει την παρουσία του CNA, ειδικά σε περιπτώσεις όπου ο χαμηλός αριθμός των γονιδίων ή δειγμάτων καθιστά αυτό συσχέτιση στατιστικά δύσκολο να αποδειχθεί.
Το μυθιστόρημα προσαρμογείς CNA ανακαλύφθηκε από την ανάλυσή μας συσχετίζονται με πολλά σημαντικά γονίδια. Για παράδειγμα, η διαγραφή του χρωμοσώματος 16, στις περιφέρειες 19q13.2-19q13.43, και το χρωμόσωμα 21 συσχετίζονται σημαντικά με υποέκφραση των υποψηφίων γονιδίων του καρκίνου-καταστολέα, αντίστοιχα ΟΒΡΒ [37], [38] ή CDH11 [39] , TFPT [40] και DSCR1 [35], δίνοντας επιπλέον αποδεικτικά στοιχεία για την υποστήριξη αυτών των γεγονότων.
Αρκετές ομάδες συχνές χρωμοσωμικές ανωμαλίες εμφανίζουν υψηλή συσχέτιση
Ένα πλεονέκτημα της μεθόδου μας σε σύγκριση με score- με βάση τις προσεγγίσεις, όπως η ΡΑΕ και GISTIC είναι ότι δίνει μια ανάθεση των δειγμάτων σε ομάδες – ή, ακριβέστερα, προσδιορίζει CNAs με την ταυτόχρονη εύρεση των ομάδων των δειγμάτων που τους υποθάλπουν – που καθιστά ευκολότερο να προσδιορίσει ποια δείγματα επηρεάζονται από την οποία συχνάζουν προσαρμογείς CNA . Εμείς που συνδέονται κάθε δείγμα σε μια σειρά συχνών CNAs βασίζεται στις αναθέσεις σύμπλεγμα της στην επαναληπτική διαδικασία διαχωρισμού των χρωμοσωμάτων που βασίζεται. Βρήκαμε ότι οι συν-εμφανίσεις των συχνών CNAs στο δείγμα ήταν κοινό? Πράγματι, η πλειονότητα των δειγμάτων (249 από τις 345) περιείχαν 2 ή περισσότερα των συχνών CNAs παρατίθενται στον Πίνακα 1.
εξετάστηκε περαιτέρω συν-εμφανίσεις των ζευγών των συχνών CNAs, και βρήκαμε ότι το 31 ζεύγη μπορούν να θεωρηθεί ότι συσχετίζονται (δηλαδή με μια διασταύρωση της εκχώρησης δείγματος καλύτερα από τα αναμενόμενα από τις συχνότητες φόντο) με την ακριβή δοκιμή του Fisher (βλέπε συμπληρωματικό σχήμα S1).
μια απλή ανάλυση αυτών των σημαντικών ζεύγη αποκάλυψαν ότι αυτές συσχετίζονται προσαρμογείς CNA μπορεί στην πραγματικότητα να θεωρηθεί ως τρεις ομάδες συν-περιστατικών:
η ενίσχυση του χρωμοσώματος 7 και συναφών συμβάν εστιακό ενίσχυση της, τη διαγραφή στο 9p, τη διαγραφή των χρωμοσωμάτων 10, 13 και 14, καθώς και τις ενισχύσεις στα χρωμοσώματα 19 και 20 είναι όλα συσχετίζονται σε μεγάλο βαθμό.
Η διαγραφή της 6q είναι καλά συσχετίζεται με την εκδήλωση εστιακό ενίσχυση στο χρωμόσωμα 7, καθώς και με τη διαγραφή στο 9p.
Η διαγραφή στο χρωμόσωμα 22 είναι καλά συσχετίζεται με την ενίσχυση του χρωμοσώματος 7 (αλλά όχι με το αντίστοιχο εστιακό περίπτωση), τη διαγραφή του χρωμοσώματος 10 και τη διαγραφή του χρωμοσώματος 14.
η
Συζήτηση
Ανάκτηση CNAs έχασε από συνοπτικά στατιστικά στοιχεία
Μερικά από τα νέα CNAs γλοιοβλάστωμα που βρήκαμε είναι καλά παραδείγματα για το πώς η μέθοδός μας βελτιώνει την περίληψη στατιστική προσεγγίσεις, όπως η ΡΑΕ και GISTIC. Για παράδειγμα, η διαγραφή του χρωμοσώματος 15 έχει μόνο στίγματα στο βραχίονα q από τη ΡΑΕ και GISTIC. Όταν εξετάσαμε το προφίλ του κέντρου βάρους ενός συμπλέγματος που προσδιορίζονται με τη μέθοδο μας, είδαμε ένα χαμηλότερο εύρος διαγραφή για το σ βραχίονα, καθώς και. Λόγω αυτής της χαμηλής έντασης, κάθε ανιχνευτής από μόνη της δεν θα έχει σημαντική μέση διαγραφή μεταξύ των δεδομένων και θα ως εκ τούτου πρέπει να χαθεί από συνοπτική στατιστική. Ωστόσο, επειδή όλα τα ανιχνευτές για το χρωμόσωμα επηρεάζονται, η διαγραφή θα πρέπει να θεωρείται ένα σημαντικό CNA και εύκολα προσδιορίζονται από την προσέγγιση.
Ως δεύτερο παράδειγμα, η διαγραφή της περιοχής 19q2-19q13.3 έχει δεν έχουν βρεθεί με άλλες μεθόδους που εφαρμόζονται στο σύνολο των δεδομένων TCGA, παρόλο που έχει επιβεβαιωθεί ως μια εκδήλωση διαγραφή από προηγούμενες μελέτες. Εδώ, το πρόβλημα φαίνεται να είναι το γεγονός ότι η ίδια περιοχή είναι επίσης παρούσα ως συμβάν ενίσχυσης σε μεγαλύτερο αριθμό δειγμάτων, τα οποία συγχέει την ανίχνευση αυτής της διαγραφής από περίληψη στατιστικό τεστ. Τέλος, η διαγραφή ολόκληρου του χρωμοσώματος 21 πιθανώς μάλιστα με άλλες μεθόδους, επειδή είναι παρουσιάζει μόνο έναν μικρό αριθμό δειγμάτων (6 δείγματα ή 2%). Ωστόσο, δεδομένου ότι αυτό το γεγονός είναι μία διαγραφή του συνόλου των χρωμοσωμάτων και ως εκ τούτου στηρίζεται επί πολλά ανιχνευτές, διαισθητικά θα πρέπει να είναι πολύ πιο στατιστικά σημαντική ότι ένα μικρότερο αλλά παρομοίως σπάνια εκδήλωση. Πράγματι, η σημασία αυτού του CNA επιβεβαιώνεται από προηγούμενες μελέτες που συνδέουν τρισωμία 21 στο σύνδρομο Down να χαμηλότερο επιπολασμό γλοιοβλάστωμα, καθώς και από την συσχέτιση με το υπο-έκφραση ενός υποψήφιου όγκου καταστολέα γονίδιο υπάρχει σε αυτή την περιοχή.
Ανάκτηση της εστίασης εκδηλώσεις &
το σχήμα 3 δείχνει ότι ακόμα και αν η πρώτη επανάληψη του αλγορίθμου μας φαίνεται να επικεντρώνονται στις μεγάλες εκτροπές, οι ακόλουθες επαναλήψεις είναι σε θέση να βρουν εστίασης γεγονότα όπως αυτά στα χρωμοσώματα 3 και 4, και ότι ο αλγόριθμος μας είναι συνεπώς σε θέση να βρείτε εστιακό εκδηλώσεις, καθώς και μεγάλες επιχειρήσεις. Το μόνο εστιακό εκδήλωση η παρουσία των οποίων συμφώνησαν για τόσο από τη ΡΑΕ και GISTIC και ότι η μέθοδός μας δεν είναι σε θέση να βρει είναι το ένα πάνω στο χρωμόσωμα 12. Εξετάζοντας την πρωτογενή δεδομένα μας δείχνουν ότι αυτό το γεγονός είναι κοινόχρηστο από περίπου 40 δείγματα, αλλά επηρεάζει μόνο το 2 ανιχνευτές, που την καθιστούν μια δύσκολη σήμα κάνει για να βρείτε όταν ψάχνει πολλαπλούς ανιχνευτές. Ωστόσο, περιορίζοντας την ανάλυσή μας σε ένα μικρό χρονικό διάστημα με επίκεντρο την εκδήλωση (300kbp ή 40 ανιχνευτές), ήμασταν σε θέση να προσδιορίσει το κοινό εκδήλωση, χρησιμοποιώντας τη μέγιστη περιθωρίου αλγορίθμου ομαδοποίησης μας (βλέπε συμπληρωματικό σχήμα S2), γεγονός που υποδηλώνει ότι η μέθοδός μας θα μπορούσε ίσως να είναι χρησιμοποιείται σε συνδυασμό με ένα συρόμενο παράθυρο για να βελτιωθεί η ανίχνευση πολύ μικρών εκδηλώσεων.
Η ανάλυση των δειγμάτων με υψηλό θόρυβο και γενωμική αστάθεια
Τα προφίλ αριθμό αντιγράφων γλοιοβλάστωμα που αναλύσαμε εδώ έχουν σχετικά λίγα γεγονότα ΚΥΠΕ και ως εκ τούτου παρέχει μια ευνοϊκή περίπτωση δοκιμής για υπολογιστική ανάλυση. σύνολα αριθμό Αντιγραφή δεδομένων για άλλους καρκίνους έχουν αποδειχθεί πολύ πιο προβληματική. Για παράδειγμα, μια πρόσφατη μελέτη αριθμός αντιγράφων του αδενοκαρκινώματος του πνεύμονα [8] συντάξει έναν πολύ μεγάλο (400 δείγματα), αλλά προκλητικό σύνολο δεδομένων, όπου το σήμα στο θόρυβο ποικίλλει σημαντικά πάνω από τα δείγματα – πιθανώς λόγω της μόλυνσης στρωματικά – και ένα αρκετά μεγάλο ποσοστό των δειγμάτων που εμφανίζονται πολυάριθμες εκδηλώσεις. Οι συγγραφείς επιμεληθεί τα δείγματα σε τρεις κατηγορίες με βάση την ποιότητα του σήματος και περιορισμένης ανάλυσης για την καλύτερη βαθμίδα. Παρά το μεγάλο μέσο αριθμό συμβάντων ανά δείγματα, η μελέτη εντόπισε λίγες μόνο περιοχές μεταβληθεί σε σημαντικό αριθμό δειγμάτων, με την πιο κοινή CNA (ενίσχυση του χρωμοσώματος 14q13.3) που υπάρχει μόνο σε 12% από τα καλύτερα τρίτο (κορυφαία βαθμίδα ) των δειγμάτων τους. Εφαρμόσαμε τη μέθοδο μας σε αυτό πνεύμονα σύνολο δεδομένων αδενοκαρκίνωμα να δούμε πώς θα εκτελεί σε ένα περιβάλλον υψηλού θορύβου. Δεδομένου ότι η αρχική κατανομή των δειγμάτων σε επίπεδα που δεν ήταν άμεσα διαθέσιμη, κάναμε μια πρώτη ανάλυση πέρασμα του ολόκληρο το σύνολο δεδομένων – χωρίς να προσπαθήσει να μειώσει τις καθαρότερες δείγματα – χρησιμοποιώντας τις ίδιες παραμέτρους όπως χρησιμοποιείται στο σύνολο δεδομένων TCGA. Είναι ενδιαφέρον ότι η πρώτη επανάληψη του αλγορίθμου κατανεμήθηκε κάθε χρωμόσωμα σε δύο συστάδες που περιέχουν ακριβώς τα ίδια δείγματα (με), με μία ομάδα που αποτελείται από δείγματα με μια ισχυρή αλλά πολύ θορυβώδες σήμα και τα άλλα δείγματα που περιέχουν με ένα ασθενές σήμα. Αυτό το αποτέλεσμα δείχνει ότι η μέθοδός μας μπορεί να είναι σε θέση να διακρίνει αυτόματα την ποιότητα του σήματος.
Η αρχική επιλογή των παραμέτρων δεν βρούμε σημαντικές εκτροπές σε μια-τιμή αποκοπής 0,05, πιθανόν να οφείλεται στο διαφορετικό πλατφόρμα σειρά, καθώς και οι διαφορετικές στατιστικές ιδιότητες των προφίλ αριθμού αντιγράφων (βλέπε συμπληρωματικό σχήμα S3 και συμπληρωματικό πίνακα S1). Ωστόσο, χρησιμοποιώντας τον αλγόριθμο μας με ένα διαφορετικό σύνολο παραμέτρων (και) στο χρωμόσωμα 14 μας επέτρεψε να βρει την ενίσχυση του 14q13.3, αν και μόνο σε 6 δείγματα (2% του συνολικού αριθμού των δειγμάτων) και με ένα ασθενές-τιμή () . Εδώ, η παρουσία μιας μεγάλης ομάδας πολύ θορυβώδεις δειγμάτων στο σύνολο δεδομένων μπορεί να είναι υπεύθυνη για την αποικοδόμηση του-τιμή. Αν και δεν ήταν σε θέση να συγκρίνουν άμεσα με την αρχική ανάλυση για τα κορυφαία δείγματα της πρώτης βαθμίδας, αυτή η γρήγορη ανάλυση σχετικά με το πλήρες σύνολο δεδομένων είναι αρκετά ενθαρρυντικά, δεδομένου ότι ήμασταν σε θέση να ανακτήσει το κύριο αποτέλεσμα χωρίς
ad hoc
επιμέλεια των δειγμάτων.
Πιθανή αλγοριθμική επεκτάσεις
Η παραπάνω ανάλυση υπογραμμίζει επίσης τον αντίκτυπο από την επιλογή των δύο παραμέτρων περιορισμό, και (βλέπε Μέθοδοι), τα οποία καθορίζουν το βαθμό σπανιότητα και piecewise- constantness, αντίστοιχα, των γραμμικών ταξινομητές μας. Εμείς επιλέξαμε τις παραμέτρους για τη μελέτη γλοιοβλαστώματος μέσω heuristics και να ανακτηθούν πιο γνωστά γεγονότα, καθώς και αρκετές νέες και ευλογοφανείς CNAs. Ωστόσο, η πλήρης εξερεύνηση του διαστήματος αυτού η παράμετρος θα μπορούσε να αποφέρει πρόσθετα αποτελέσματα? για παράδειγμα, να προδιαθέτουν τον αλγόριθμο για να βρείτε εστιακό γεγονότα, θα μπορούσε κανείς να προσπαθήσει να κάνει το αραιότητας περιορισμός αυστηρότερες. Διάφορες στρατηγικές μπορεί να χρησιμοποιηθεί για τη βελτιστοποίηση της επιλογής των παραμέτρων, συμπεριλαμβανομένης της χρήσης ενός βρόχου διασταυρούμενης επικύρωσης. Για την εφαρμογή της προσέγγισης αυτής, κάποιος θα πρέπει να επιλέξετε την κατάλληλη μέθοδο για την εκτίμηση της ποιότητας των clusters: πρότυπο εκτιμητές είναι στενά συνδεδεμένη με τις αντικειμενικές λειτουργίες βελτιστοποιηθεί με την παραδοσιακή αλγορίθμων ομαδοποίησης (όπως -means), οι οποίες δεν λαμβάνουν υπόψη τις ιδιότητες της αντιγραφής προφίλ αριθμού (δηλαδή χωρικές συσχετίσεις, ελάχιστες αναφορές των γεγονότων διαγραφή /amplication). Ωστόσο, ένα τέτοιο βρόχο διασταυρωμένης επικύρωσης θα συνεπαγόταν επίσης μακροσκελής υπολογιστική φορές. Το κόστος αυτό θα μπορούσε να μειωθεί σημαντικά αν ήμασταν σε θέση να υπολογίσουμε ολόκληρη τη διαδρομή νομιμοποίησης του λιωμένο λάσο σε ένα μόνο πέρασμα, όπως άλλοι ήταν σε θέση να κάνει με την αρχική λάσο [41] και SVM [42] προβλήματα βελτιστοποίησης.
<
You must be logged into post a comment.