PLoS One: Συγκριτική Ανάλυση των μεθόδων για την αναγνώριση Περιοδική Copy Number Μεταβολές στην Cancer


Αφηρημένο

Περιοδική αριθμού αντιγράφων αλλοιώσεις (προσαρμογείς CNA) διαδραματίζουν σημαντικό ρόλο στη γένεση του καρκίνου. Ενώ έχουν προταθεί διάφορες υπολογιστικές μεθόδους για τον προσδιορισμό αυτών CNAs, σε σχέση με την αξία τους να παραμείνει σε μεγάλο βαθμό άγνωστο στην πράξη, δεδομένου ότι έχουν πολύ λίγες προσπάθειες έχουν επικεντρωθεί στη συγκριτική ανάλυση των μεθόδων. Για τη διευκόλυνση των σπουδών των επαναλαμβανόμενων αναγνώρισης ΚΥΠΕ στο γονιδίωμα του καρκίνου, είναι επιτακτική ανάγκη να προβούν σε λεπτομερή σύγκριση των επιδόσεων και των περιορισμών μεταξύ των υφιστάμενων μεθόδων. Στο έγγραφο αυτό, έξι αντιπροσωπευτικές μεθόδους που προτείνονται στα τελευταία έξι ετών σε σύγκριση. Αυτές περιλαμβάνουν ένα στάδιο και σε δύο στάδια προσεγγίσεις, σε συνεργασία με τα στοιχεία αναλογία πρώτων ένταση και discretized δεδομένων αντίστοιχα. Βασίζονται σε διάφορες τεχνικές, όπως η παλινδρόμηση του πυρήνα, μήτρα συσχέτισης διαγώνια κατάτμηση, ημι-παραμετρική μετάθεση και συστήματα κυκλική μετάθεση. Ερευνούμε πολλαπλά κριτήρια όπως το ποσοστό τύπου Ι σφάλματος, η ισχύς ανίχνευσης, Δέκτης Λειτουργικά Χαρακτηριστικά (ROC) καμπύλη και η περιοχή κάτω από την καμπύλη (AUC), και υπολογιστική πολυπλοκότητα, να αξιολογεί την απόδοση των μεθόδων σύμφωνα με πολλαπλά σενάρια προσομοίωσης. Σας χαρακτηρίζουν επίσης τις ικανότητές τους σχετικά με τις αιτήσεις δύο πραγματικά δεδομένα που λαμβάνονται από καρκίνους με αδενοκαρκίνωμα του πνεύμονα και γλοιοβλάστωμα. Αυτή η συγκριτική μελέτη αποκαλύπτει γενικά χαρακτηριστικά των υφιστάμενων μεθόδων για τον εντοπισμό επαναλαμβανόμενων προσαρμογείς CNA και περαιτέρω παρέχει νέες γνώσεις σχετικά με τα πλεονεκτήματα και τις αδυναμίες τους. Πιστεύεται χρήσιμο για την επιτάχυνση της ανάπτυξης νέων και βελτιωμένων μεθόδων

Παράθεση:. Yuan Χ, Zhang J, Zhang S, Yu G, Wang Υ (2012) Συγκριτική ανάλυση των μεθόδων για την αναγνώριση Περιοδική Copy Number Μεταβολές στην Καρκίνος. PLoS ONE 7 (12): e52516. doi: 10.1371 /journal.pone.0052516

Επιμέλεια: Noam Shomron, Πανεπιστήμιο του Τελ Αβίβ, Ισραήλ

Ελήφθη: 7 Αυγούστου 2012? Αποδεκτές: 14 Νοέμβρη του 2012? Δημοσιεύθηκε: 20 του Δεκεμβρίου 2012

Copyright: © 2012 Yuan et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από το Ίδρυμα Φυσικών Επιστημών της Κίνας στο πλαίσιο επιχορηγήσεων 61201312, 61070137, 61202175 και 91130006? οι Ηνωμένες Πολιτείες Εθνικά Ινστιτούτα Υγείας επιχορηγήσεις στο πλαίσιο CA160036, CA149147 και GM085665? και το έργο που υποστηρίζεται από Φυσικών Επιστημών Βασικό Πρόγραμμα Έρευνας στην επαρχία Shaanxi της Κίνας (αριθμός προγράμματος 2012JQ8027, 2012JQ1010)? και της βασικής έρευνας Ταμεία για τις Κεντρικές Πανεπιστήμια (K50511030002, K50511030001 και K5051270012). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

ο εντοπισμός επαναλαμβανόμενο αριθμό αντιγράφων αλλοιώσεις (προσαρμογείς CNA) σε γονιδιώματα του καρκίνου είναι ένα σημαντικό βήμα για τον εντοπισμό των γονιδίων του οδηγού του καρκίνου και την κατανόηση των μηχανισμών της έναρξης του όγκου. Πολλοί ανθρώπινοι καρκίνοι περιλαμβανομένων των ωοθηκών ορώδες καρκίνωμα [1], αδενοκαρκίνωμα του πνεύμονα [2], πολύμορφο γλοιοβλάστωμα [3], και άλλους τύπους καρκίνων [4], [5], έχουν σε μεγάλο βαθμό διερευνηθεί αναλύοντας CNAs. Ωστόσο, οι προσδιορίζονται CNAs με υψηλή συχνότητα εμφάνισης σε πολλαπλές δείγματα αντιπροσωπεύουν μόνο ένα μικρό κλάσμα των κλινικά ή βιολογικά σχετικές παρεκκλίσεις για πολλούς καρκίνους. Ο πιο συνηθισμένος λόγος για λείπουν ορισμένα γνωστά μεταλλάξεων οδηγός είναι ότι σχεδόν όλοι οι καρκίνοι είναι ετερογενείς [6], αναφέροντας ότι πολλές επαναλαμβανόμενες προσαρμογείς CNA εμφανίζονται μόνο σε ένα υποσύνολο των δειγμάτων (δηλαδή, τα δείγματα μέσα σε υποτύπους) και ως εκ τούτου οι συχνότητες τους είναι λιγότερο ακραία σε ολόκληρη την δείγματα. Για αυτή την πρόκληση, ένας αριθμός στατιστικών και υπολογιστικών μεθόδων με ελπιδοφόρα αποτελέσματα έχουν αναφερθεί. Χωρίζονται σε ένα στάδιο [7], [8], [9], [10] και δύο σταδίων προσεγγίσεις [3], [4], [11], [12], [13]. Πολλοί από αυτούς εξετάστηκαν και συζητήθηκαν από Rueda και Diaz-Uriarte στην τελευταία τους ανακοίνωση [14].

Ένα εξαιρετικό φαινόμενο του προφίλ αριθμού αντιγράφων είναι ότι ένα μέρος των δεικτών έχουν αλλάξει σε πανομοιότυπες περιοχές σε πολλές γονιδιώματα και η οι δείκτες υπόλοιπο αλλάξει σε τυχαία σημεία των γονιδιωμάτων. Έτσι, η συχνότητα εμφάνισης CNA σε όλη δείγματα είναι συνήθως χρησιμοποιείται για να βοηθήσει στη διάκριση επαναλαμβανόμενα γεγονότα από τυχαία δείκτες. Ωστόσο, λόγω των περίπλοκων δομών δεδομένων αριθμού αντιγράφων, ο προσδιορισμός των λιγότερο ακραία υποτροπιάζουσα προσαρμογείς CNA είναι ένα εξαιρετικά δύσκολο έργο. Παρακάτω σας προφίλ ενός αριθμού πραγματικό αντίγραφο σύνολο δεδομένων για να δείξει την πολυπλοκότητα των CNAs, και περαιτέρω το χρησιμοποιούν ως παράδειγμα για να τονίσει γιατί οι λιγότερο ακραίες προσαρμογείς CNA είναι δύσκολο να ανιχνευθούν.

Εικόνα 1α και Σχήμα 1β απεικονίζουν το ποσοστό των CNA περιστατικό σε ολόκληρο το γονιδίωμα και τη συχνότητα του κατά μήκος των δειγμάτων σε ένα σύνολο των καρκίνων του πνεύμονα, το οποίο περιέχει 371 δείγματα και 216.327 δείκτες [3], [5]. Μπορεί να σημειωθεί από τα σχήματα ότι οι περισσότεροι από τους δείκτες έχουν αλλάξει (ενισχύονται ή να διαγραφεί) σε τουλάχιστον ένα δείγμα και πολλοί από αυτούς επικαλύπτονται από ένα τμήμα των δειγμάτων. Επιπλέον, τα μεγέθη των περιοχών CNA ποικίλουν από το χρωμόσωμα με το χρωμόσωμα. Για ένα δεδομένο σύνολο

είναι Ν

δείγματα καρκίνου, υποθέτοντας ότι όλα τα παρατηρούμενα CNAs τυχαία κατανεμημένα σε όλη του γονιδιώματος σε κάθε δείγμα, το αναμενόμενο πιθανότητα (Ε (

P

)) ενός δείκτη CNA κοινόχρηστο από τουλάχιστον

n

δείγματα (που αντιστοιχεί σε ποσοστό

στ

του συνόλου των δειγμάτων) μπορεί να υπολογιστεί χρησιμοποιώντας την εξίσωση (1), και, κατά συνέπεια, τον αναμενόμενο αριθμό (E (

λ

)) των εν λόγω κοινόχρηστη δεικτών στο γονιδίωμα μπορεί να εκφρασθεί από την Εξίσωση (2) (1) (2) όπου

L

είναι το μήκος του γονιδιώματος που αναλύονται.?

r

ki

και

r

kj

είναι τα ποσοστά ΚΥΠΕ από το

i

-ου και

ι

της -ου δείγματα σε η

k

-ου υποσύνολο, το οποίο αναφέρεται στην

k

-ου συνδυασμό

ν

δείγματα επιλέγονται από το σύνολο

Ν

δείγματα. Εδώ, ο συνολικός αριθμός των συνδυασμών επιλογή

ν

από

Ν

εκπροσωπείται από.

Εδώ χρησιμοποιούμε log

2-αναλογίες 0,322 (2,5 αντίγραφα) και -0.415 (1,5 αντίγραφα) να καθορίσει ενισχύσεις και τις διαγραφές. (Α) Οι μέσες τιμές του ΚΥΠΕ για την ενίσχυση και τη διαγραφή από τα 371 δείγματα που είναι 0,0379 και 0,0417, αντίστοιχα. (Β) Ένα μεγάλο μέρος της ενισχύσεις και τις διαγραφές είναι λιγότερο από 0,1 όσον αφορά τη συχνότητα.

Η

Ας θεωρήσουμε ένα σύνολο 100 δειγμάτων με κάθε έχει 1000 δείκτες, και σε κάθε δείγμα τα ποσοστά του ΚΥΠΕ είναι 0.035 για την ενίσχυση και 0,040 για διαγραφή (αυτές οι συχνότητες είναι σχετικά μικρότερο από το μέσο της ανωτέρω πνεύμονα σύνολο δεδομένων καρκίνου). Αν υποθέσουμε την CNAs τοποθετούνται τυχαία στο γονιδίωμα, η πιθανότητα ενός δείκτη μοιράζονται τουλάχιστον 100

f

(0 & lt?

f

≤1) δείγματα μπορεί να θεωρηθεί ως μια αθροιστική πιθανότητα , που ονομάζεται

P

γ

(

f

) (που δεικνύεται στην Εξίσωση (3)). Για παράδειγμα,

P

γ

(0,1) ισούται με 0.0027 στην περίπτωση της ενίσχυσης, υποδεικνύοντας ότι η πιθανότητα ενός δείκτη ενισχύθηκε σε τουλάχιστον 10 (0,1 πολλαπλασιάζει 100) δειγμάτων είναι 0,0027. Το Σχήμα 2 δείχνει ότι αυτή η αθροιστική πιθανότητα σε σχέση με την συχνότητα ενός δείκτη CNA σε όλη την 100 δείγματα. Κατά συνέπεια, ο αριθμός αυτών των δεικτών σε ολόκληρο το γονιδίωμα μπορεί να εκτιμηθεί ως 1000

P

γ

(

στ

). (3)

Η

Αν η συχνότητα χρησιμοποιείται ως στατιστική για να δοκιμαστεί η σημασία των CNAs μεμονωμένα, η εκτιμώμενη

σ

-τιμή για τον δείκτη με συχνότητα

f

μπορεί να υπολογιστεί χρησιμοποιώντας την εξίσωση (4), η οποία είναι κάτω από η διαδικασία max-T για τον έλεγχο του ρυθμού της οικογένειας-σοφός σφάλματος (FWER) [15]. Για σαφώς κατανόηση της σχέσης μεταξύ της συχνότητας CNA και του

σ

-τιμή, δείχνουμε το

σ

-τιμή ως συνάρτηση της συχνότητας που κυμαίνεται από 0,01 έως 1 για ενίσχυση και διαγραφή χωριστά σε Σχήμα 3. μπορεί να σημειωθεί ότι το

σ

-τιμή μειώνεται με την αύξηση της συχνότητας του ΚΥΠΕ, και ιδιαίτερα,

σ

-τιμή είναι 0,05 όταν το

f

= 0,13 στην περίπτωση της ενίσχυσης και

σ

-τιμή ίση με 0.05, όταν

f

= 0.14 στην περίπτωση της διαγραφής. Αυτά δείχνουν ότι εάν ένας

σ

-τιμή αποκοπής 0,05 χρησιμοποιείται, δεν μπορούσαν να ανιχνευθούν οι δείκτες CNA με συχνότητα μικρότερη από 0.13 για ενίσχυση (ή λιγότερο από 0,14 για διαγραφή), ενώ σε πραγματικά δεδομένα τέτοια συχνότητα μπορεί να είναι σημαντικών βιολογικών ενδιαφέρον δεδομένου ότι πολλοί προσαρμογείς CNA μπορεί να επηρεάσει μόνο μια μειονότητα των δειγμάτων καρκίνου [3], [7] (4)

στην περίπτωση της ενίσχυσης, p-value (0,12). = 0,20 και p-value (0,13) = 0,05? στην περίπτωση της διαγραφής, ρ-τιμή (0.13) = 0.18 και ρ-τιμή (0.14) = 0.05.

Η

Γενικά, η συχνότητα στατιστικής και τυχαία μετάθεση των δεικτών στο παραπάνω παράδειγμα είναι μόνο μια βασική στρατηγική για τη δοκιμή σημασία. Για να συμπληρώσει αυτή τη στρατηγική, πολλές μέθοδοι σχεδιάσει διάφορες στατιστικές και μηδενική κατανομές για αυτή την πρόκληση. Για παράδειγμα, STAC (Σημασία Δοκιμές για τον αριθμό παρεκκλίνουσα Copy) [4] προτείνει ένα νέο στατιστικό στοιχείο «αποτύπωμα» για να σκοράρει σε κάθε δείκτη και καθορίζει τη διανομή υπό την μηδενική υπόθεση ότι οι παρατηρούμενες περιοχές CNA είναι εξίσου τοποθετηθεί οπουδήποτε κατά μήκος του γονιδιώματος? GISTIC (Γονιδιωματική προσδιορισμό των σημαντικών Στόχοι Στον καρκίνο) [3] βαθμολογίες κάθε δείκτη με το κτένισμα συχνότητα και το πλάτος, και κατασκευάζει ένα ημι-ακριβώς προσέγγιση μηδενική κατανομή, καθώς και επέκταση GISTIC2.0 της [11] θεωρεί τη διάκριση της συχνότητας παρασκήνιο μεταξύ των εστιακών CNA και ευρεία CNA και βαθμολογίες κάθε δείκτη ανάλογη με το πλάτος του? CMDS (Correlation Matrix Diagonal Τμηματοποίηση) [9] βαθμολογίες κάθε δείκτη βασίζεται σε συσχετισμούς της με τις γύρω περιοχές και κατασκευάζει

t

διανομή ενός μαθητή? και DINAMIC (Ανακαλύπτοντας Copy Number Παρεκκλίσεις που εκδηλώνεται με Καρκίνο) [13] χρησιμοποιεί μια συνοπτική στατιστική και ένα σύστημα κυκλική μετάθεση για να δημιουργήσει την μηδενική κατανομή. Επιπλέον, για να προσαρμόσει στατιστικές τιμές και τη βελτίωση null διανομές, πολλές μέθοδοι χρησιμοποιούν έναν αλγόριθμο φλούδα-off για τη δοκιμή επαναληπτικά CNAs [3], [13], [16], [17]. Αυτό θα βοηθήσει πολύ στον εντοπισμό χαμηλή έως μέτρια συχνότητα (ή /και χαμηλή έως μέτρια έντασης) δείκτες.

Μαζί με την πρόσφατη πρόοδο της γονιδιωματικής τεχνολογίας και ταχεία παραγωγή των τεράστιων συνόλων δεδομένων, νέες μεθόδους με πιο εξελιγμένες δυνατότητες και τα χαρακτηριστικά για τον εντοπισμό επαναλαμβανόμενων CNAs συνεχίζουν να προκύπτουν. Ωστόσο, τα σχετικά πλεονεκτήματα και τις αδυναμίες των υφιστάμενων μεθόδων, είναι δύσκολο να διακρίνει κανείς, λόγω της έλλειψης ολοκληρωμένης συγκρίσεις απόδοσης. Αυτό είναι ένα πραγματικό πρόβλημα, ιδίως από την άποψη της βιολογικής ερευνητές, οι οποίοι πρέπει να επιλέξετε μια μέθοδο για ένα σύνολο δεδομένων ενδιαφέροντος. Στο έγγραφο αυτό, συγκρίνουμε έξι κλασικά και διατίθενται στο κοινό τις μεθόδους που βασίζονται σε κριτήρια όπως το ποσοστό τύπου Ι σφάλματος, η ισχύς ανίχνευσης, Δέκτης Λειτουργικά Χαρακτηριστικά (ROC) καμπύλη και η περιοχή κάτω από την καμπύλη (AUC), και υπολογιστική πολυπλοκότητα, έτσι ώστε οι χρήστες μπορούν να πάρουν γρήγορα μια γενική επισκόπηση αυτών και τις επιδόσεις τους. Τα διάφορα σύνολα δεδομένων προσομοίωσης και δύο πραγματικά δεδομένα που λαμβάνονται για τα δείγματα αδενοκαρκινώματος του πνεύμονα και το γλοιοβλάστωμα που χρησιμοποιούνται για την αξιολόγηση των μεθόδων.

Υλικά και Μέθοδοι

μέθοδοι για τον εντοπισμό Περιοδική CNAs

Μια ποικιλία των έχουν στατιστικών και υπολογιστικών μεθόδων έχουν προταθεί πρόσφατα για τον εντοπισμό επαναλαμβανόμενων CNAs. Αυτές οι μέθοδοι μπορούν να ταξινομηθούν με διάφορους τρόπους, όπως πλαίσια, στρατηγικές για την ίδρυση null διανομές, τους κωδικούς πηγή, και ούτω καθεξής. Σε γενικές γραμμές, διάφορες τράπεζες δεδομένων καρκίνο έχουν διακριτά προφίλ και τα πρότυπα του αριθμού αντιγράφων τροποποιήσεις, και μπορεί να απαιτούν διαφορετικές υπολογιστικές μεθόδους για την ανάλυση, καθώς δεν υπάρχει μία μέθοδος που θα μπορούσε να είναι κατάλληλο για όλες τις σειρές δεδομένων. Είναι απαραίτητο να διερευνήσει τις μεθόδους που έχουν διαφορετικά χαρακτηριστικά και διαφορετικά πλεονεκτήματα. Να αντανακλά αυτό, επιλέγουμε προσεκτικά έξι αντιπροσωπευτικές μεθόδους για την αξιολόγηση και τη σύγκριση, με βάση τις αναφερθείσες την αποτελεσματικότητά τους σε πραγματικές εφαρμογές. Εμείς λίστα των έξι μεθόδους στον Πίνακα 1 καθώς και οι ιδιότητές τους για μια επισκόπηση. Αυτές οι μέθοδοι έχουν αναπτυχθεί κάτω από διαφορετικές λογικές στις τελευταίες έξι χρόνια και ορισμένα από αυτά έχουν χρησιμοποιηθεί ευρέως στην ανάλυση των δεδομένων του καρκίνου [2], [18], [19]. Για μια γενική κατανόηση από αυτούς, δίνουμε μια σύντομη περίληψη των αρχών τους ως εξής.

Η

(1) STAC [4].

Η είσοδος του STAC είναι μια δυαδική μήτρα

x

, στην οποία κάθε στοιχείο

x

ij

αντιπροσωπεύει την ιδιότητα του

ι

-ου δείκτη σε δείγμα

i

. Συγκεκριμένα,

x

ij

= 1 σημαίνει ενίσχυση (ή διαγραφή),

x

ij

= 0 σημαίνει φυσιολογικό. Αναλύονται μήτρες πολλαπλασιασμού και διαγραφή χωριστά, και δοκιμάζει σημασία τους με τον ίδιο τρόπο. Η μηδενική υπόθεση πίσω από STAC είναι ότι οι παρατηρούμενες τμήματα ΚΥΠΕ τοποθετούνται τυχαία οπουδήποτε στο χρωμόσωμα εξετάζεται [4], [17], ως εκ τούτου, Μετατεθειμένο δείγματα μπορούν να διατηρούν τις αρχικές δομές των δεδομένων αριθμού αντιγράφων. STAC εκδίδει δύο στατιστικά στοιχεία, η συχνότητα της ανωμαλίας και το «αποτύπωμα», για να αξιολογήσει

σ

-τιμές για κάθε δείκτη, και ελέγχει την οικογένεια-σοφός ποσοστό σφάλματος (FWER) με βάση την πιθανότητα ουρά άκρα δεξιά [4 ], [13], [20].

Η «συχνότητα» για δείκτη

x

υπολογίζεται ως το ποσοστό των δειγμάτων που μοιράζονται την εκτροπή, ενώ το «αποτύπωμα» για δείκτη

x

υπολογίζεται ως μια σειρά από θέσεις που περιέχονται σε μια στοίβα, η οποία είναι ένα σύνολο διαστημάτων που περιέχουν

x

απέναντι δείγματα [4]. Η αρχή πίσω από το «αποτύπωμα» είναι ότι οι αυστηρότεροι ευθυγραμμίσεις των εκτροπών είναι λιγότερο πιθανό να πρέπει να αναμένεται από την τύχη και έτσι είναι πιο πιθανό να υποδηλώνουν βιολογικά συναφείς εκδηλώσεις, ενώ οι πιο χαλαρή ευθυγραμμίσεις των εκτροπών θα μπορούσε να υποδηλώνει μεταλλάξεις των επιβατών με μεγαλύτερη πιθανότητα.

(2) GISTIC [3].

Αυτή η μέθοδος απαιτεί κατακερματισμένη δεδομένων εισόδου με συνεχή log

2-τιμές προέκυψαν από τις μεθόδους ανάλυσης μόνο δείγμα, όπως CBS [21] και στην ευχάριστη θέση [22] . Είναι μεταθέτει επιμέρους δείκτες για το σύνολο του γονιδιώματος με την παραδοχή ότι οι δείκτες είναι ανεξάρτητοι [3], [17], και να εξάγει ένα ημι-ακριβή εκτιμάται μηδενική κατανομή με βάση την λειτουργία συνέλιξης [3] (5), όπου είναι η κατανομή (ιστόγραμμα ) της ενίσχυσης στο

i

ου δείγματος. Με βάση τη μηδενική κατανομή, GISTIC χρησιμοποιεί ένα

G

-score συνδυάζοντας τόσο την συχνότητα και το πλάτος (Εξίσωση 6) για να αξιολογήσει τη σημασία κάθε δείκτη και διορθώνει πολλαπλές δοκιμές μέσω της διαδικασίας Benjamini-Hochberg FDR υπόθεση [23] . Η ίδια διαδικασία εφαρμόζεται στην ανάλυση διαγραφής και LOH (απώλεια ετεροζυγωτίας). (6), όπου και είναι η συχνότητα του πολλαπλασιασμού και το μέσο πλάτος της

j

-ου δείκτη κατά μήκος των δειγμάτων.

η διαίσθηση πίσω από το

G

-score είναι ότι ένας παραλογισμός με μεγαλύτερη ένταση και συχνότητα είναι πιο πιθανό να είναι μια εκδήλωση του οδηγού. Για να ανακουφίσει την παρενέργεια των περιφερειών κορυφή με τη μεγαλύτερη ένταση και συχνότητα, GISTIC υιοθετεί μια «φλούδα-off» αλγόριθμο για επαναληπτική δοκιμή του CNAs εντός των σημαντικών περιοχών.

(3) KC-SMART [8 ].

Διαφορετικό από τις δύο παραπάνω μεθόδους, πλαίσιο ενός σταδίου που αγκάλιασε για αυτή τη μέθοδο χωρίς να απαιτείται προηγούμενη βήμα της τμηματοποίησης (εξομάλυνσης) αντίγραφο προφίλ αριθμό. Η αρχή πίσω από KC-SMART είναι ότι επιβάλλει μια λειτουργία πυρήνα σε κάθε θέση

m

να κατασκευάσει ένα στατιστικό στοιχείο, πυρήνα εξομαλύνονται εκτίμηση (KSE) [8] 🙁 7), όπου ένας συνόψισε θετική ή αρνητική log

2-αναλογίες σε όλες δείγματα για κάθε θέση, είναι μια συνάρτηση πυρήνα (π.χ. επίπεδη κορυφή Gaussian συνάρτηση πυρήνα), και είναι ένα σύνολο δεικτών γύρω από την τοποθεσία

m

και συνήθως καθορίζεται με βάση το πλάτος της συνάρτησης πυρήνα. Θεωρητικά, αυτό το στατιστικό στοιχείο θεωρεί ότι οι συσχετίσεις μεταξύ των δεδομένων αριθμό αντιγράφων και ενσωματώνει τις πληροφορίες που προκύπτουν από τις γειτονικές δείκτες.

Για να εντοπίσετε τις θέσεις αιχμής (δηλαδή, επαναλαμβανόμενες CNAs), η μέθοδος συγκρίνει την παρατηρούμενη KSE κάθε θέση έναντι μηδενικής κατανομής που είναι εγκατεστημένος μέσα από παραλλαγές των ατομικών log

2-δεικτών στο γονιδίωμα που εξετάζεται. Για να διορθώσετε το φαινόμενο των πολλαπλών δοκιμών υποθέσεις, KC-SMART υιοθετεί στρατηγική Bonferroni πολλαπλασιάζοντας το αξιολογούνται

σ

-τιμές χρησιμοποιώντας το συνολικό αριθμό των θέσεων που δοκιμάζεται.

(4) CMDS [9] .

Τα δεδομένα εισόδου για CMDS είναι σε μεγάλο βαθμό παρόμοια με KC-SMART. Αυτή η μέθοδος δεν χρησιμοποιεί άμεσα τη συχνότητα και το πλάτος του αριθμού αντιγράφων εκτροπών για να κατασκευάσει το στατιστικό τεστ. Είναι εκχωρεί ένα σκορ RCNA σε κάθε δείκτη. Η βαθμολογία RCNA είναι μια μέση τιμή συσχέτισης πάνω από τις γύρω περιοχές του δείκτη. Η μηδενική υπόθεση του CMDS είναι ότι δεν υπάρχει καμία συσχέτιση μεταξύ των δεικτών εντός χρωμοσωμάτων, έτσι μπορεί να δημιουργηθεί από τυχαία μετάθεση επιμέρους δείκτες στο τέντωμα του χρωμοσώματος που εξετάζονται. Για να αποθηκεύσετε υπολογιστικό χρόνο, CMDS χρησιμοποιεί τις πληροφορίες από τις παρατηρούμενες τιμές συσχέτισης στο γονιδίωμα του αριθμού αντιγράφων να καθιερώσει μια τυπική κανονική κατανομή, όπως μια στενή προσέγγιση

t

διανομής. Το αποτέλεσμα πολλών δοκιμών έχει επίσης διορθωθεί με τη στρατηγική Bonferroni, ακριβώς όπως το KC-SMART μέθοδο.

Η διαισθητική αντίληψη πίσω από CMDS είναι ότι ο θόρυβος αριθμός αντιγράφων δεν συσχετίζεται ενώ οι επαναλαμβανόμενες προσαρμογείς CNA βρίσκονται σε υψηλή συσχέτιση. Ένα άλλο σημαντικό χαρακτηριστικό του CMDS είναι ότι δεν αναλύει ενίσχυση και διαγραφή χωριστά, αλλά χρησιμοποιεί τη μέση τιμή αριθμού αντιγράφων πάνω από το προκαθορισμένο παράθυρο σε όλα τα δείγματα και το επίπεδο σημαντικότητας του [9] για να προσδιοριστεί αν η αντίστοιχη δείκτης είναι η ενίσχυση ή διαγραφή. Αυτό είναι διαφορετικό από τις περισσότερες άλλες υπάρχουσες μεθόδους.

(5) DINAMIC [13].

Αυτή η μέθοδος δέχεται δύο συνεχή πρωτογενές σήμα και διακριτά διαστήματα δεδομένων. Υιοθετεί μια παγκόσμια σύνοψη στατιστικό στοιχείο που ενσωματώνει τόσο τη συχνότητα και το πλάτος του κάθε δείκτη για την ανάλυση είτε την ενίσχυση ή τη διαγραφή. Τα δύο νέα χαρακτηριστικά που διέπουν DINAMIC κατέληγε ως εξής. Πρώτον, χρησιμοποιεί μια κυκλική μετάθεση στρατηγική για τη δημιουργία της κατανομής null [13], [17], η οποία διατηρεί τις δομές των αρχικών δεδομένων αριθμού αντιγράφων σε μεγαλύτερο βαθμό από τις περισσότερες άλλες μεθόδους, όπως STAC [4] και GISTIC2.0 [ ,,,0],11]. Δεύτερον, για να αυξήσει τη δύναμη για την ανίχνευση λιγότερο ακραίες δείκτες ΚΥΠΕ, η μέθοδος χρησιμοποιεί μια «φλούδα-off» αλγόριθμο διαφορετική από εκείνη που χρησιμοποιείται από GISTIC [3], η οποία αξιολογεί τις έννοιες των νέων περιφερειών με την αφαίρεση όλων των εκτροπών επικαλύπτεται από το παρελθόν εντοπιστεί επαναλαμβανόμενες περιοχές, ενώ dINAMIC εκ νέου δοκιμές δείκτες δημιουργώντας μια νέα κατανομή null σε ένα νέο πίνακα δεδομένων στην οποία το παρελθόν εντοπιστεί δείκτες

K

είναι άκυρη και οι δείκτες συμβάλλουν στη σημασία του

K

κλιμακώνονται χρήση ενός συντελεστή.

Αυτή η μέθοδος είναι υποτιθέμενο για να δοκιμάσει ένα δείκτη κατά τη διάρκεια κάθε «φλούδα-off» διαδικασία επανάληψης, έτσι υπολογιστικό κόστος θα είναι ένα σημαντικό ζήτημα, ειδικά όταν απαιτείται ένας μεγάλος αριθμός των επαναλήψεων. Για το σκοπό αυτό, DINAMIC παρέχει

Quick Look

και

Λεπτομερής πλατφόρμες Δείτε

για τις επιλογές του χρήστη. Στο πρώτο, το αρχικό διανομή null επαναχρησιμοποιείται για να δοκιμαστεί η σημασία από τις πιο ακραίες δεικτών, και έτσι εξοικονομεί τούτου ένα κομμάτι του υπολογιστικού χρόνου. Επιπλέον, η σημασία για πολλαπλές δοκιμές διορθώνεται με τη χρήση διαδικασίας max-T ακριβώς όπως STAC [4].

(6) ΓΑΙΑ [16].

Σε αντίθεση με άλλες υπάρχουσες μεθόδους [3 ], [13], [24], ΓΑΙΑ (Γονιδιωματική ανάλυση των Σημαντικών Τροποποιήσεις) ενσωματώνει στο δείγμα ομοιογένεια στη διαδικασία «ξεφλουδίσματος» υπό στατιστικό πλαίσιο υπόθεση της: πρώτον, οι ατομικές δείκτες permuted τυχαία για να δημιουργήσει μια μηδενική κατανομή, με βάση την οποία η παρατηρούμενη μέτρηση (ο αριθμός των εκτροπών σε όλη δειγμάτων, αυτό είναι ισοδύναμο με την επίδραση της συχνότητας των εκτροπών) του κάθε δείκτη αξιολογείται και αποδίδεται με επίπεδο σημαντικότητας? δεύτερο, ΓΑΙΑ ορίζει μια τιμή ομοιογένεια για κάθε συνδεδεμένο δίπλα δείκτες σε κάθε δείγμα και παράγει μια νέα μήτρα δεδομένων που ονομάζεται

Η

(

Ν

×

Μ

-1), στη η οποία κάθε στοιχείο

H

ij

∈ {0, 0,5, 1}, αντιπροσωπεύει κατ ‘ανώτατο όριο, μεσαίου ή ελάχιστη ομοιογένεια? Τέλος, ένα ομοιογενές αποκόλλησης εκτελείται επί της μήτρας

H

να επεκτείνουν τα όρια των σημαντικών περιοχών ανιχνευθεί προηγουμένως. Αυτό το σχέδιο «ξεφλουδίσματος» αναμενόταν να εντοπίσει περισσότερες επαναλαμβανόμενες κορυφές CNA και παραλείπουν πλαστές κορυφές.

αξιολόγηση των μεθόδων

Αρκετά αξιολόγηση τα συγκριτικά πλεονεκτήματα των μεθόδων αυτών είναι απαραίτητη, αλλά αυτό είναι περίπλοκο λόγω των αρκετά ρεαλιστικά θέματα. Πρώτα απ ‘όλα, οι μορφές δεδομένων εισόδου (κατά διαστήματα ή ωμά) σε διαφορετικούς αλγορίθμους δεν είναι πάντα η ίδια, και εκείνα που απαιτούν κατά διαστήματα εισόδους συνήθως υιοθετούν διαφορετικούς αλγορίθμους κατάτμησης. Για παράδειγμα, οι αλγόριθμοι προεπιλογή κατάτμησης που χρησιμοποιείται από STAC, GISTIC, dinamic και ΓΑΙΑ είναι GenePix Pro 4.0 [25], στην ευχάριστη θέση [22], CBS [26], και VEGA [27] αντίστοιχα. Λαμβάνοντας υπόψη ότι διαφορετικοί αλγόριθμοι τμηματοποίησης μπορεί να έχουν διαφορετικές ικανότητες στην επεξεργασία των ατομικών προφίλ CNA, και ως εκ τούτου θα αποτελέσει μεγάλη επίδραση στην κατάντη ανάλυση, επιλέγουμε να χρησιμοποιήσουμε τον αλγόριθμο CBS κατάτμησης [26] για όλες τις μεθόδους δύο σταδίων σε αυτή τη μελέτη σύγκρισης, δεδομένου ότι CBS είναι ένα πολύ δημοφιλές αλγόριθμο και εκτελεί με συνέπεια και στην ανίχνευση αριθμού αντιγράφων αλλαγές [28]. Δεύτερον, οι έξοδοι σημασία των έξι μέθοδοι περιλαμβάνουν δύο τύπους:

p-τιμές

(STAC, KC-Smar, CMDS, και dinamic) και

q

-τιμές (GISTIC και ΓΑΙΑ), και τα κατώτατα όρια για την κήρυξη σημαντική σε αυτές τις μεθόδους είναι διαφορετικά. Για μια δίκαιη σύγκριση, επιλέγουμε τα κοινώς χρησιμοποιούμενα όρια 0,05 για

σ

-τιμή και 0,25 για το

q

-τιμή εδώ. Τρίτον, οι παράμετροι στις διάφορες μεθόδους διαφέρουν κατά πολύ. Για παράδειγμα, DINAMIC απαιτεί εισαγωγή του αριθμού των επαναλήψεων, όπου η προεπιλεγμένη ρύθμιση είναι 10. Ωστόσο, μια τέτοια ρύθμιση δεν είναι συνήθως αρκετά μεγάλη σε πραγματικές εφαρμογές, αφού θα μπορούσε να υπάρχει ένας μεγάλος αριθμός των μη-φυσιολογικών δεικτών που πρέπει να αξιολογηθούν. Έτσι, έχουμε αλλάξει την προεπιλεγμένη ρύθμιση σε ένα μεγαλύτερο αριθμό στην υλοποίηση του αλγορίθμου. Για τις περισσότερες από τις παραμέτρους αλγορίθμου, έχουμε χρησιμοποιήσει τις προεπιλεγμένες ρυθμίσεις όσο το δυνατόν περισσότερο ή οι τιμές που προτείνονται στις εφημερίδες ή τα έγγραφα του προγράμματος. Τέλος, διαφορετικοί αλγόριθμοι γράφτηκαν σε διάφορες γλώσσες και να εφαρμοστούν σε διαφορετικές πλατφόρμες, όπως φαίνεται στον Πίνακα 1. Αυτό θα αυξήσει τις δυσκολίες να συγκρίνει την υπολογιστική χρόνο από τις μεθόδους στην πράξη.

Για να αξιολογήσει ποσοτικά την απόδοση του μεθόδους, εμείς δοκιμή τέσσερα κοινώς χρησιμοποιούμενα κριτήρια [13], [28], [29], [30] που βασίζεται σε ένα μεγάλο αριθμό των συνόλων δεδομένων προσομοίωσης. Τα κριτήρια που περιγράφονται λεπτομερώς παρακάτω.

1. Ποσοστό σφάλματος Τύπου Ι.

Ο σκοπός της αξιολόγησης τύπου Ι ποσοστό σφάλματος είναι να διερευνήσει την έννοια της σημασίας των επιπέδων προέκυψε από τις στατιστικές μεθόδους για την ανίχνευση επαναλαμβανόμενες CNAs [13], [30]. Αν ο ρυθμός σφάλματος τύπου Ι είναι πολύ συντηρητική ή πολύ επιθετική, η προβλεπόμενη έννοια του

σ

-τιμές (ή

q

-τιμές) θα μειωθεί ή χαθεί, και δεν συμφωνώ με το πραγματικό ποσοστό ψευδώς θετικών στα αποτελέσματα. Έτσι, η ακρίβεια του λόγου σφάλματος τύπου Ι είναι ένας κρίσιμος δείκτης για την αξιολόγηση των μεθόδων. Για το σκοπό αυτό, θα προσομοιώνουν ένα μεγάλο αριθμό () της αναπαραχθεί σύνολα δεδομένων με μηδενική έδαφος αλήθεια προσαρμογείς CNA και τον υπολογισμό του τύπου Ι ποσοστό σφάλματος χρησιμοποιώντας την εξίσωση (8) 🙁 8), όπου είναι το όριο για την κλήση σημαντικές (π.χ.), και αποτελεί συνάρτηση δείκτη, δηλαδή, αν υπάρχουν CNAs στο σύνολο δεδομένων δηλώνονται σημαντική, τότε? Αλλιώς,. Έτσι, η Εξίσωση (8) είναι στην πραγματικότητα ένα υπολογισμό των οικογενειακών-σοφός τύπου Ι ποσοστό σφάλματος [17].

2. ισχύς ανίχνευσης

Από ΚΥΠΕ είναι μια δομική μονάδα και συνήθως περιλαμβάνει μια σειρά από δείκτες, η ισχύς ανίχνευσης μπορεί να υπολογιστεί με δύο τρόπους:.. μονάδα βάσης και οι υπολογισμοί δείκτη που βασίζεται

ΚΥΠΕ μονάδα που βασίζεται σε ισχύ ανίχνευσης:

για την αλήθεια του εδάφους (υποτροπιάζουσα) μονάδα ΚΥΠΕ, είναι απαραίτητο να παρατηρήσουμε πόσο πιθανό μπορεί να είναι επιτυχία δηλωθεί σημαντική με μια μέθοδο. Ορίζουμε αυτή τη δύναμη ανίχνευσης της ευαισθησίας για την ανίχνευση της υποτροπιάζουσας μονάδα ΚΥΠΕ. Σε γενικές γραμμές, ακριβώς την ανίχνευση των ορίων του (ή όλους τους δείκτες εντός) τις περιοδικές μονάδα CNA είναι δύσκολο να επιτευχθεί, και αυτό δεν είναι πάντα απαραίτητο για τον εντοπισμό των γονιδίων που καλύπτονται από CNA. Για παράδειγμα, τα γονίδια μπορούν να χαρτογραφηθούν αν ένα μέρος των δεικτών μέσα σε αυτές επικαλύπτονται από τους ανιχνεύονται μονάδες CNA. Για μια βολική αξιολόγησης, χρησιμοποιούμε το μεσαίο δείκτη της περιοδικής μονάδας CNA να προσδιοριστεί αν η μονάδα έχει δηλωθεί, δηλαδή, αν το μεσαίο δείκτη ανιχνεύεται, τότε μπορούμε να υποθέσουμε ότι η μονάδα έχει εντοπιστεί επιτυχώς, ειδάλλως, δεν είναι. Κατά συνέπεια, η ισχύς ανίχνευσης μονάδα που βασίζεται CNA μιας μεθόδου μπορεί να υπολογιστεί από την [30] (9), όπου είναι ο συνολικός αριθμός των υπογείων αλήθειας μονάδες CNA σε κάθε προσομοίωση σύνολο δεδομένων και υποδεικνύει τον αριθμό των μονάδων εδάφους αλήθεια CNA που δηλώνονται σημαντική στο

i

-ου σύνολο δεδομένων

ΚΥΠΕ δείκτη που βασίζεται σε ισχύ ανίχνευσης:.

εκτός από τη θέση του οδηγού γονίδια του καρκίνου, επαναλαμβανόμενες CNAs μπορεί επίσης να χρησιμοποιηθεί για την ανάλυση χρωμοσωμική αστάθεια δείκτη και άλλων βιολογικών σημασίες [1]. Γι ‘αυτό είναι απαραίτητο να δείτε πόσες έδαφος δείκτες αλήθεια ανιχνεύονται. Κατά συνέπεια, ορίζουμε αυτή την εξουσία ως εξίσωση (10) [30], στην οποία είναι ο συνολικός αριθμός των υπογείων αλήθειας δεικτών CNA και δείχνει τον αριθμό των δεικτών αλήθειας έδαφος που ανιχνεύονται με επιτυχία στο

i

ου συνόλου δεδομένων . (10)

3. Δέκτη που λειτουργούν χαρακτηριστικά (ROC) καμπύλη και AUC μέτρο.

Εμείς εκτιμηθεί περαιτέρω η συνολική απόδοση των έξι μεθόδους, που μετράται τόσο από την ευαισθησία και την ειδικότητα με τις καμπύλες ROC, η οποία δείχνει πόσο ποσοστό των δεικτών αλήθειας έδαφος επιλέγονται συσκευασμένων για ένα δεδομένο ποσοστό ψευδώς θετικών. Επιπλέον, μετράμε την περιοχή κάτω από την καμπύλη (AUC) για τις μεθόδους αυτές με σκοπό την αξιολόγηση μέση απόδοσή τους, ιδίως όταν κάποιοι καμπύλες ROC έχουν διασχίσει.

4. Υπολογιστική πολυπλοκότητα.

Αξιολογούμε την υπολογιστική πολυπλοκότητα με βάση το χρόνο εκτέλεσης και χρήση μνήμης. Δεδομένου ότι οι διάφορες μέθοδοι που εφαρμόζονται συνήθως σε διαφορετικές πλατφόρμες, όπως η C ++, R γλώσσα, και JAVA, η σύγκριση του υπολογιστικού χρόνου μπορεί να επηρεαστεί. Για να ξεπεραστεί αυτό το ζήτημα και να προσφέρει μια γενική σύγκριση της αποτελεσματικότητας των έξι μεθόδους, δίνουμε πολυπλοκότητα big-O γι ‘αυτούς, εκτός από τις πραγματικές ώρες λειτουργίας.

Σύνολα Προσομοίωση

Ακίνητα σύνολα δεδομένων σπάνια έχουν επιβεβαιώσει απολύτως έδαφος αλήθεια προσαρμογείς CNA, και ως εκ τούτου δεν μπορούν να χρησιμοποιηθούν για την αξιολόγηση της απόδοσης των μεθόδων. Ωστόσο, οι τεχνολογίες προσομοίωσης παρέχει ένα λογικό τρόπο για την επίλυση αυτού του προβλήματος [31]. Από τα τέσσερα κριτήρια αξιολόγησης απεικονίζεται παραπάνω χρησιμοποιούνται για την ποσοτικοποίηση των μεθόδων από διαφορετικές οπτικές γωνίες, είναι απαραίτητο να χρησιμοποιούν διαφορετικά συστήματα προσομοίωσης για να δημιουργήσει μια ποικιλία από σύνολα δεδομένων.

Για το πρώτο κριτήριο του τύπου δοκιμών I ποσοστό σφάλματος, εμείς εγκρίνει τον αλγόριθμο προσομοίωσης που εισήγαγε Hsu et al [32] και Walter et al [13], για να δημιουργήσετε null σύνολα δεδομένων. Ο αλγόριθμος βασίζεται σε ένα μοντέλο αστάθεια επιλογής [33], το οποίο έχει αρχικά χρησιμοποιηθεί από πολλούς ερευνητές με το υπόδειγμα LOH (απώλεια ετεροζυγωτίας). Η αρχή της προσομοίωσης αριθμού αντιγράφων εκτροπές σύμφωνα με το μοντέλο αστάθεια επιλογής μπορούν να συνοψιστούν ως εξής απλά [13]. Η κατάσταση δείκτης πρώτον συμβολίζεται είτε από 0 ως μη εκτροπή ή από 1 ως εκτροπή. Για να δημιουργήσετε συνεχόμενα δείκτες που είναι εγγενείς συσχετίζονται κατά μήκος ενός χρωμοσώματος με μήκος

Μ

, μια αρχική θέση δείκτη

x

k

(

k

∈ {1, 2 , …,

Μ

}) είναι προκαθορισμένη και η κατάσταση των γειτονικών δείκτη του

x

k

1 τότε το πρότυπο βασίζεται στην πιθανότητα μετάβασης [13],

p

α, β

(

δ

) =

σ

(

T

(

x

k

1) =

μια

|

T

(

x

k

) =

β

), όπου

a

,

b

= 0, 1, και

δ

είναι η απόσταση μεταξύ γειτονικών δείκτες

x

k

και

x

k

+1. Συγκεκριμένα, οι πιθανότητες μετάβασης ορίζεται ως [13], [33] 🙁 11) όπου

μ

είναι το υπόβαθρο ή σποραδική πιθανότητα εκτροπής σε ένα δείκτη, και

λ

είναι η ρυθμός μετάβασης μεταξύ των περιφερειών της εκτροπής και της κανονικότητας (δηλαδή, δεν υπάρχει εκτροπή). Οι άλλες πιθανότητες μετάβασης είναι

σ

0, 0 (

δ

) = 1

σ

1, 0 (

d

) και

σ

1, 1 (

δ

) = 1

σ

0, 1 (

δ

) . Σύμφωνα με αυτές τις πιθανότητες, το καθεστώς των δεικτών

x

k

1, …,

x

Μ

καθορίζεται με βάση μια διωνυμική κατανομή. Για τον δείκτη εκκίνησης

x

k

, η κατάσταση είναι ανατεθεί με τη χρήση διωνυμικού τυχαία μεταβλητή με πιθανότητα

μ

[13]. Το αριστερό τμήμα του χρωμοσώματος μπορεί επίσης να καθοριστεί με παρόμοιο τρόπο.

Για να πάρετε μια εξιδανικευμένη δεδομένων αριθμό αντιγράφων, η παραπάνω διαδικασία προσομοίωσης διεξάγεται δύο φορές, και οι δύο προσομοίωση προφίλ στη συνέχεια συνδυάζονται για να δημιουργήσουν ένα μεμονωμένο δείγμα [13 ]. Να θέτει τα δεδομένα προσομοίωσης πιο ρεαλιστική, ένα κανονικό κύτταρο μόλυνση με ένα τυχαίο ποσοστό ~ Uniform (0.7, 0.9) θα προστεθεί σε κάθε δείγμα, καθώς και ένα θόρυβο Gauss με μέσο όρο μηδέν και τυπική απόκλιση 0,25. Για μια πιο λεπτομερή περιγραφή αυτού του αλγορίθμου προσομοίωσης, οι ενδιαφερόμενοι αναγνώστες μπορούν να ανατρέξτε στο [33], [13] και [32].

Για το δεύτερο κριτήριο της δοκιμής στατιστική ισχύ από τις μεθόδους, που συνδυάζουν τα χαρακτηριστικά των στρατηγικών προσομοίωσης που εισήγαγε Willenbrock et al [34] και Zhang et al [9], για να δημιουργήσετε πολλαπλά προφίλ αναλογία με το έδαφος αλήθεια περιοχές CNA, και θεωρούμε περαιτέρω τα σενάρια σήμα συνοψίζονται από Rueda και Diaz-Uriarte όπως σενάρια Ι- ΙΙΙ, και το σενάριο V [14]. Δημιουργούμε μια αρχική μήτρα δεδομένων στην οποία κάθε στοιχείο έχει εκχωρηθεί με ένα κανονικό επίπεδο αριθμού αντιγράφων. Με βάση αυτή τη μήτρα, εισάγουμε το έδαφος αλήθεια περιοχές ΚΥΠΕ λαμβάνοντας υπόψη τους ακόλουθους παράγοντες που γενικά θεωρούνται ότι επηρεάζουν τη στατιστική ισχύ για την ανίχνευση επαναλαμβανόμενων CNAs: μήκος (

L

) και πλάτος (

ΣΟ

) των επαναλαμβανόμενων ΚΥΠΕ, η συχνότητα (

F

) της περιοδικής CNA σε όλη δείγματα [9], το επίπεδο θορύβου του σήματος (

σ

) των προφίλ λόγου, κανονική μόλυνση των κυττάρων (

δ

) σε δείγματα όγκου [35]. Για να κάνετε τα προσομοιωμένα δεδομένα πιο ρεαλιστική, προσθέτουμε μια σειρά τοποθετούνται τυχαία φόντο περιοχές CNA σε κάθε δείγμα. Τα μήκη αυτών των περιοχών είναι γενικά παρόμοια με εκείνη της περιοδικής CNAs. Για το τρίτο και τελευταίο κριτήρια αξιολόγησης, εξακολουθούμε να υιοθετήσουν αυτό το σύστημα προσομοίωσης, αλλά χρησιμοποιούν διαφορετικές ρυθμίσεις παράγοντας. Ιδιαίτερα για το τελευταίο κριτήριο, έχουμε επικεντρωθεί σε προσομοίωση της κλίμακας των συνόλων δεδομένων, δηλαδή, το μέγεθος των δειγμάτων και το μήκος του γονιδιώματος, δεδομένου ότι αυτά είναι γενικά πιστεύεται ότι είναι οι κύριοι παράγοντες που επηρεάζουν την υπολογιστική πολυπλοκότητα.

Για να διερευνήσει πλήρως

You must be logged into post a comment.