You must be logged into post a comment.
Αφηρημένο
αριθμό σωματικά αντίγραφο αλλοίωση (ΚΥΠΕ) είναι ένα συνηθισμένο φαινόμενο στο γονιδίωμά του καρκίνου. Η διάκριση σημαντική συναίνεση γεγονότα (ΕΣΕ) από τυχαία φόντο προσαρμογείς CNA σε μια σειρά από θέματα που έχει αποδειχθεί ότι είναι ένα πολύτιμο εργαλείο για τη μελέτη του καρκίνου. Προκειμένου να εντοπιστούν ΕΣΕ με ένα ποσοστό σφάλματος που αποδεκτό τύπο, πρέπει να αναπτυχθεί καλύτερη υπολογιστικές προσεγγίσεις που βασίζονται σε εύλογες στατιστικές και μηδενική διανομές. Σε αυτό το άρθρο, προτείνουμε μια νέα προσέγγιση που ονομάζεται TAGCNA για τον εντοπισμό των SCE σε σωματικά CNAs που μπορεί να περιλαμβάνει τα γονίδια του οδηγού του καρκίνου. TAGCNA χρησιμοποιεί ένα σύστημα μετάθεση φλούδα-off για να δημιουργήσουν μια λογική κατανομή μηδενική βάση σε μια προηγούμενη φάση της επιλογής tag δείκτες ΚΥΠΕ από το γονιδίωμα του εξετάζεται. Έχουμε αποδείξει τη στατιστική ισχύ των TAGCNA σε δεδομένα προσομοίωσης εδάφους αλήθεια, και την επικύρωση εφαρμογής του χρησιμοποιώντας δύο διαθέσιμες στο κοινό σύνολα δεδομένων καρκίνου: του πνεύμονα και του προστάτη αδενοκαρκινώματος. TAGCNA προσδιορίζει τις SCE που είναι γνωστό ότι εμπλέκονται με πρωτο-ογκογονίδια (
π.χ.
EGFR, CDK4) και ογκοκατασταλτικά γονίδια (
π.χ.
CDKN2A, CDKN2B), και παρέχει πολλές επιπλέον ΕΣΕ με τους πιθανούς βιολογικούς ενδιαφέρον σε αυτά τα δεδομένα. TAGCNA μπορεί να χρησιμοποιηθεί για την ανάλυση της σημασίας των CNAs σε διάφορους καρκίνους. Υλοποιείται στο R και είναι ελεύθερα διαθέσιμο σε https://tagcna.sourceforge.net/
Παράθεση:. Yuan Χ, Zhang J, Yang L, Zhang S, Chen Β, Geng Y, et al. (2012) TAGCNA: Μια μέθοδος για να εντοπίζουν τις σημαντικές Συναίνεση Εκδηλώσεις Copy Number Τροποποιήσεις στον Καρκίνο. PLoS ONE 7 (7): e41082. doi: 10.1371 /journal.pone.0041082
Επιμέλεια: Gayle Ε Woloschak, Northwestern University Feinberg School of Medicine, Ηνωμένες Πολιτείες της Αμερικής
Ελήφθη: 3 του Φλεβάρη 2012? Αποδεκτές: 17 του Ιουνίου του 2012? Δημοσιεύθηκε: 18 του Ιούλη 2012
Copyright: © 2012 Yuan et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται
Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από το Ίδρυμα Φυσικών Επιστημών της Κίνας στο πλαίσιο Επιχορηγήσεις 61070137, 91130006 και 60933009? οι ΗΠΑ Εθνικά Ινστιτούτα Υγείας στο πλαίσιο Επιχορηγήσεις CA160036, CA149147 και GM085665? και το έργο που υποστηρίζεται από Φυσικών Επιστημών Βασικό Πρόγραμμα Έρευνας στην επαρχία Shaanxi της Κίνας (Πρόγραμμα Νο 2012JQ8027)? η τεχνολογία Πρόγραμμα Ανάπτυξης Έρευνας Επιστήμης και στην επαρχία Shaanxi της Κίνας (Αρ 2009K01-56), και της βασικής έρευνας Ταμεία για τις Κεντρικές Πανεπιστήμια (Νο K50511030002). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου
Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα
Εισαγωγή οι
τα σωματικά μεταβολές αριθμό αντιγράφων (CNAs) κατανεμημένα σε όλο το γονιδίωμα σε όλους σχεδόν τους ανθρώπινους καρκίνους [1]. Μία από τις συστηματικές προσπάθειες για τη διερεύνηση της επίδρασης της CNAs στην ανάπτυξη του καρκίνου είναι να διακρίνει σημαντική συναίνεση γεγονότα (ΕΣ) που αντιπροσωπεύουν «μεταλλάξεις οδηγού» από τυχαία φόντο CNAs που αντιπροσωπεύουν «μεταλλάξεις των επιβατών» [2], [3]. Εξαιρετικά τεχνολογίες σειρά υψηλή ανάλυση και μεγάλη συλλογή θεμάτων του καρκίνου περαιτέρω μια ολοκληρωμένη κατανόηση των μεταλλάξεων γεγονότα σε ένα τέτοιο πρόγραμμα [1], [3], [4]. Αυτό εν τω μεταξύ οδηγεί σε μια κρίσιμη απαίτηση των υπολογιστικών προσεγγίσεων για τον εντοπισμό ανωμαλιών σημασία που μοιράζονται πολλά θέματα.
Επί του παρόντος, πολλές στατιστικές προσεγγίσεις έχουν αναπτυχθεί. STAC (Σημασία Δοκιμές για τον αριθμό παρεκκλίνουσα Copy) [5] ελέγχει προσαρμογείς CNA ξεχωριστά για ενισχύσεις και τις διαγραφές, και απαιτεί δυαδική πίνακες εισαγωγής δεδομένων, στην οποία «ένα» αντιπροσωπεύει ενίσχυσης (ή διαγραφή) και το «μηδέν» αντιπροσωπεύει την κανονική κατάσταση. Αυτή η μέθοδος χρησιμοποιεί δύο συμπληρωματικά στατιστικά στοιχεία: η συχνότητα και το αποτύπωμα, για να μετρήσει κάθε δείκτη κάτω από την μηδενική υπόθεση ότι η παρατηρούμενη περιοχές CNA είναι εξίσου τοποθετηθεί οπουδήποτε σε όλη την γονιδίωμα που αναλύεται. Συγκεκριμένα, η στατιστική «συχνότητα» χρησιμοποιείται για να αντανακλούν του συνήθους χαρακτήρα εκτροπή σε όλη δείγματα και το στατιστικό «αποτύπωμα» χρησιμοποιείται για να αντανακλούν το σφιχτό ευθυγράμμιση μιας ανώμαλης περιοχής σε όλη δείγματα. Επιπλέον, «αποτύπωμα» λαμβάνει υπόψη τις συσχετίσεις μεταξύ των εκτροπών και τα μήκη των περιοχών ΚΥΠΕ. Ωστόσο, τα δύο από τα στατιστικά στοιχεία δεν έχουν ενσωματώσει το πλάτος των εκτροπών, έτσι ώστε κάποιες σημαντικές πληροφορίες μπορεί να χαθεί, αφού ενισχύσεις υψηλού επιπέδου και διαγραφές μπορεί να οδηγήσει σε διαφορετικές βιολογικές επιπτώσεις σε σύγκριση με χαμηλού επιπέδου εκτροπές [6]. Παρόμοια με STAC, GISTIC (Γονιδιωματική προσδιορισμό των σημαντικών Στόχοι Στον καρκίνο) [3] αναλύει επίσης ενισχύσεις και τις διαγραφές ξεχωριστά, αλλά απαιτεί τα δεδομένα εισόδου με τμηματικές σήματα. Η μέθοδος αυτή σχεδιάζει ένα G-βαθμολογία, με την ενσωμάτωση τόσο της συχνότητας και του πλάτους των εκτροπών, και αναθέτει την G-βαθμολογία σε κάθε δείκτη για την εκτίμηση της σημασίας που βασίζεται σε μια ημι-ακριβώς προσέγγιση null διανομής. Η μηδενική κατανομή καθορίζεται από την παραδοχή ότι οι δείκτες ΚΥΠΕ είναι ανεξάρτητες. Κατά συνέπεια, οι κοινές επιδράσεις μεταξύ γειτονικών δείκτες αγνοούνται στο ΚΥΠΕ ανιχνεύσεις [7]. Να βελτιώσει τη δύναμη ανίχνευση, την επέκταση της GISTIC, GISTIC2.0 [8], προτείνεται, η οποία θεωρεί τη διάκριση της συχνότητας παρασκήνιο μεταξύ των εστιακών CNA και ευρεία CNA και βαθμολογίες κάθε δείκτη ανάλογη με το πλάτος του. Μια άλλη παρόμοια μέθοδος είναι η DINAMIC (Ανακαλύπτοντας Copy Number Παρεκκλίσεις που εκδηλώνεται με Καρκίνο) [9], η οποία καθορίζει μια συνοπτική στατιστική για κάθε δείκτη και σχεδιάζει ένα νέο πλαίσιο για την αξιολόγηση σημασία. Χρησιμοποιεί ένα κυκλικό σύστημα μετάθεση για να δημιουργήσει null διανομή, στην οποία διατηρείται η δομική πληροφορία του πρωτοτύπου δεδομένων αριθμού αντιγράφων. DINAMIC υιοθετεί περαιτέρω «φλοιοί-off» αλγόριθμο για την ανίχνευση λιγότερο συχνή δείκτες. Σε γενικές γραμμές, το χαρακτηριστικό που το παραπάνω μεθόδους μετοχή είναι η προσέγγιση δύο σταδίων τους, δηλαδή χρειάζονται ένα προηγούμενο στάδιο της διακριτοποίησης των σημάτων CNA χρησιμοποιώντας μεθόδους ανάλυσης μεμονωμένων δειγμάτων [10], [11]. Για να αποφευχθεί η εξάρτηση από την ατομική ανάλυση δείγμα, πολλοί συγγραφείς προτείνουν ένα στάδιο υπολογιστική προσέγγιση. Για παράδειγμα, η KC-SMART (Kernel Συνέλιξη: μια στατιστική μέθοδο για ανώμαλη περιοχή ανιχνεύσεως) [12] αναλύει δεδομένα απευθείας αναλογία πρώτων ένταση (δηλαδή τα δεδομένα χωρίς διακριτοποίηση σε επιμέρους δείγματα) για τον εντοπισμό ΕΣΕ χρησιμοποιώντας μια νέα στατιστική: Kernel εξομαλύνονται Εκτίμηση (KSE ), η οποία λαμβάνει υπόψη την ισχύ του σήματος των γειτονικών σημειωτών? και CMDS (Correlation Matrix Diagonal Τμηματοποίηση) [13] βαθμολογίες κάθε δείκτη βασίζεται σε συσχετισμούς της με τις γύρω περιοχές στις αναλογίες των πρώτων ένταση. Πολλές άλλες προσεγγίσεις που συζητήθηκαν από τον Shah [14] και Rueda
et al
[7]
Στο πλαίσιο των υφιστάμενων προσεγγίσεων, οι τρεις κοινά και σημαντικά στοιχεία συνοψίζονται ως εξής:.. (1) δεδομένα πλατφόρμα, δηλαδή τα στοιχεία της ακατέργαστης αναλογία έντασης ή discretized δεδομένα (που αντιστοιχεί σε ένα στάδιο ή σε δύο στάδια προσέγγιση), για την ανίχνευση των SCE? (2) στατιστικά στοιχεία που συνδέονται με την γονιδιωματική μονάδες (
π.χ.
δείκτες ή γονίδια.)? και (3) null διανομής για τον έλεγχο της στατιστικής. Ωστόσο, ένα εκπληκτικά δύσκολο ερώτημα εδώ είναι πώς να κάνει μια συνοχή μεταξύ των τριών συνιστωσών, λαμβάνοντας υπόψη τις δομές CNA και η στατιστική σημαντικότητα. Μέχρι στιγμής, δεν υπάρχουν οριστικές λύσεις σε αυτό το ερώτημα. μέθοδοι ενός σταδίου μπορεί να οδηγήσει σε ένα μεγάλο σήμα πόλωσης με τα στατιστικά στοιχεία [15], στο οποίο η μηδενική κατανομή δεν είναι ακριβώς σύμφωνη με σκοπό τον προσδιορισμό των SCE από τυχαία φόντο προσαρμογείς CNA,
π.χ.
τη μηδενική υπόθεση υποκείμενων CMDS είναι ότι δεν υπάρχει καμία CNA. Στην περίπτωση αυτή, η ισχύς ανίχνευσης SCE μπορεί να επηρεαστεί σε μεγάλο βαθμό από την πιθανότητα εμφάνισης των τυχαίων CNAs. μεθόδους σε δύο στάδια χρησιμοποιούν συχνά το καθορισμένο προσαρμογείς CNA (κέρδη ή ζημίες) για να δημιουργήσει null διανομής μέσω μεταθέσεων. Ωστόσο, πολλοί από αυτούς υιοθετούν βαθμολόγησης δείκτη που βασίζεται, αλλά τα συστήματα μετάθεση περιοχή που βασίζεται, όπως STAC και DINAMIC μεθόδους. GISTIC πρόγραμμα κάνει μια λογική συνοχή μεταξύ των τριών συνιστωσών, αλλά δεν λαμβάνει υπόψη τις συσχετίσεις μεταξύ των δεικτών. Αυτό θα μπορούσε να κάνει η στατιστική σημαντικότητα συντηρητική σε πολλαπλές δοκιμές [16], και δεν μπορεί να είναι βιολογικά σχετικές [7]. Συνολικά, οι περισσότερες υπάρχουσες μεθόδους είτε σε ένα στάδιο ή σε δύο στάδια πλαίσια ποσοτικοποιηθούν CNA και δοκιμάσει τη σημασία με βάση την ατομική δείκτες, τα οποία συνήθως σχετίζονται με το άλλο. Αυτό μπορεί να οδηγήσει σε μειωμένη δύναμη για την ανίχνευση περιοχών CNA ειδικά για εκείνες τις λιγότερο ακραία περιφέρειες [7]. Επιπλέον, συνήθως παράγουν null διανομές βασίζεται σε ένα μείγμα των SCE (υποθέσεις ψευδών null) και τυχαία φόντο CNAs (αλήθεια υποθέσεις null). Αυτό θεωρητικά αποκλίνει από την πραγματική κατανομή null στο στατιστικός έλεγχος υποθέσεων, μειώνοντας την έννοια της αξιολόγησης σημασίας.
Με αυτές τις σκέψεις, σε αυτό το άρθρο προτείνουμε μια νέα προσέγγιση, TAGCNA, για τον εντοπισμό των SCE που βασίζεται στη συνεχή κατακερματισμένες σήμα αναλογίες. Η προσέγγιση αποτελείται από δύο στάδια. Πρώτον, επιλέξτε ετικέτα CNA δείκτες από το γονιδίωμα που αναλύεται, και στη συνέχεια παράγει ένα νέο μήτρα δεδομένων που αποτελείται από τους δείκτες tag, καθένα από τα οποία βαθμολογείται με την ενσωμάτωση τόσο συχνότητα και πλάτος του CNA? και το δεύτερο, με βάση την μήτρα δεδομένων, δημιουργία κενού διανομής χρησιμοποιώντας ένα σχήμα μετάθεση αποκόλλησης. Τα κύρια χαρακτηριστικά της προσέγγισης περιλαμβάνουν: (1) τόσο βαθμολόγησης και μετάθεση εκτελούνται με βάση την ετικέτα δείκτη επιπέδου, λαμβάνοντας υπόψη τις συσχετίσεις μεταξύ των γειτονικών δείκτες? (2) ο μέσος όρος των null κινείται διανομή αριστερά λόγω της διαδικασίας αποκόλλησης στους δείκτες ετικέτα, συγκλίνουν προς εκείνη της μηδενικής κατανομής αλήθεια. TAGCNA μπορεί να χρησιμοποιηθεί για την ανάλυση των δεδομένων από μεμονωμένα χρωμοσώματα καθώς και στοιχεία που προέρχονται από μελέτες γονιδιώματος σε επίπεδο. Δοκιμάζουμε στατιστική ισχύ της στην εκτεταμένη δεδομένων αλήθεια προσομοίωση του εδάφους, και στη συνέχεια να εφαρμόσει σε δύο πραγματικά δεδομένα του πνεύμονα και του προστάτη. TAGCNA εντοπίζει με επιτυχία τις SCE που σχετίζονται με γνωστά γονίδια του οδηγού του καρκίνου, και παρέχει πολλές επιπλέον ΕΣΕ με πιθανή βιολογική σημασία.
Υλικά και Μέθοδοι
Data Format
Original δεδομένα σε προεπεξεργασία μέσω ατομικών δειγμάτων μήκους μεθόδους ανάλυσης, όπως CBS [10], [17], και αποθηκεύεται σε μήτρα
X
(
Ν
×
L
), όπου κάθε σειρά αντιπροσωπεύει ένα υποβάλλουν και κάθε στήλη αντιπροσωπεύει ένα δείκτη. TAGCNA την έναρξη των εργασιών από το σημείο αυτό. Υιοθετεί τα κατώτατα όρια (
θ
ενισχυτή και
θ
del) να καθορίσει ενισχύσεις και τις διαγραφές στο
X
, και χωρίζει
X
σε δύο μήτρες
X
ενισχυτή (
Ν
×
L
) και
X
del (
N
Χ
L
). TAGCNA αναλύει την ενίσχυση και τη διαγραφή ξεχωριστά, δεδομένου ότι θεωρούνται γενικά ως παίζουν διακριτούς ρόλους στην ανάπτυξη του καρκίνου.
Στην μήτρα
X
ενισχυτή (ή
X
del), εκτροπή εκπροσωπείται με ένα ημερολόγιο
2-δείκτη, και δεν εκτροπή αντιπροσωπεύεται με ένα μηδέν. Παρακάτω περιγράφεται η αρχή TAGCNA να δοκιμάσει σημασία των CNAs είτε στην ανάλυση των δεδομένων μήτρας ενίσχυση ή διαγραφή.
Επιλογή Tag CNA Markers
Τα σωματικά CNA είναι μια δομική παραλλαγή στο ανθρώπινο γονιδίωμα, έτσι οι ανιχνευτές στο γονιδίωμα είναι εγγενώς συσχετίζονται ακόμη και αν οι CNAs είναι τυχαία γεγονότα φόντο. Είναι επιθυμητό να διατηρηθεί αυτή η συσχέτιση και να μεγιστοποιηθεί η ανεξαρτησία μεταξύ των στατιστικών δοκιμών στην ανάλυση των CNAs. Οι σκέψεις μας οδήγησε να σχεδιάσει TAGCNA να δοκιμάσει CNAs διαχωρίζοντας το γονιδίωμα σε μικρά μπλοκ συσχέτισης και την επιλογή των δεικτών tag σε διαφορετικά μπλοκ, τα οποία υποτίθεται ανεξάρτητη. Οι διαδικασίες βαθμολόγησης και μετάθεση της TAGCNA διεξάγονται στη συνέχεια σε τους δείκτες tag
(α) Ένα προφίλ μήτρα των 100 ατόμων και 1000 δείκτες.? οι λευκού χρώματος θέσεις δείχνουν τον αριθμό αντιγράφων αλλαγές. (Β) Η τιμή συσχέτισης για κάθε δείκτη, η οποία είναι ο μέσος συντελεστής μεταξύ περιβάλλει δείκτες της. (Γ) τιμή συσχέτισης Block προέκυψε από το διαμέρισμα του γονιδιώματος με βάση την (β). (Δ) Ένα νέο πίνακα δεδομένων που αποτελείται από τους δείκτες tag CNA (εδώ
Ν
= 100,
Μ
= 50)? κάθε δείκτη ετικέτας επιλέγεται από κάθε μπλοκ (γ), όπου οι κόκκινες κουκίδες είναι το μεσαίο από τα μπλοκ, που εκπροσωπούν τους δείκτες tag.
Η
ΚΥΠΕ διαμέρισμα μπλοκ συσχέτισης πραγματοποιείται με βάση ένα σύνολο θεμάτων (Φιγούρα 1). Το πρώτο βήμα είναι να υπολογίσει συντελεστές συσχέτισης μεταξύ των γειτονικών δεικτών μέσω Pearson τύπο συσχέτισης [13] 🙁 1) όπου
r
ij
είναι ο συντελεστής συσχέτισης μεταξύ των δεικτών
i
και
ι
?
Ν
είναι ο αριθμός των δειγμάτων?
x
ni
είναι log
2-αναλογία θέμα
ν
στο δείκτη
i
? , Και είναι ημερολόγιο μέσα
2-αναλογία και οι τυπικές αποκλίσεις των δεικτών
i
και
ι
σε όλα τα θέματα. Στη συνέχεια παίρνουμε μια τιμή συσχέτισης για κάθε δείκτη
k
από το μέσο όρο των συντελεστών μεταξύ των γύρω δείκτες της από την Εξίσωση (2) [13] 🙁 2) όπου
w
είναι ένα προκαθορισμένο μέγεθος του παραθύρου γύρω δείκτη
k
. Το Σχήμα 1 (b) δείχνει την τιμή συσχέτισης για τα 1.000 δείκτες σε παραδειγματικές πληθυσμό. Να αξιοποιήσει τη χωρική συνοχή μεταξύ των γειτονικών δείκτες, υποθέτουμε ότι οι τιμές συσχέτισης στους κοντινούς δείκτες είναι στο ίδιο επίπεδο και απασχολούν CBS αλγόριθμο [10] για να στεγανοποιήσει το σύνολο του γονιδιώματος σε μπλοκ, όπου οι τιμές συσχέτισης εναλλαγή μεταξύ συνεχόμενα μπλοκ (Εικόνα 1 (c )). Σε κάθε μπλοκ, ένα δείκτη ετικέτα επιλέγεται από μεσαία περιοχή του. Έτσι, ο συνολικός αριθμός των δεικτών ετικέτα είναι ο αριθμός των μπλοκ προέκυψε από την κατάτμηση του γονιδιώματος. Μια νέα μήτρα δεδομένων T (
N × M
) παράγεται στη συνέχεια με βάση τους δείκτες ετικέτα (Σχήμα 1 (δ)), όπου το
M
είναι ο αριθμός των δεικτών ετικέτας.
Peel-off μεταθέσεων και την αξιολόγηση Στατιστική σημασία
με βάση το πίνακα δεδομένων
T
, TAGCNA εκτελεί φλούδα-off μετάθεση [3], [9] για να δημιουργήσει null διανομής με την υπόθεση ότι δεν υπάρχει ΕΣΕ, δηλαδή ότι όλοι οι δείκτες tag στο
T
είναι επιβάτες, και, στη συνέχεια αξιολογεί την στατιστικής σημαντικότητας των παρατηρούμενων δεικτών tag. Να αντανακλά αυτό, βαθμολογίες TAGCNA κάθε δείκτη tag
m
ενσωματώνοντας τη συχνότητα και το πλάτος του ΚΥΠΕ [3] 🙁 3) όπου
t
nm
είναι log
2-αναλογία του θέματος
ν
στο δείκτη tag
m
στη μήτρα
T
. Σημειώστε ότι η σημασία του δείκτη ετικέτα υποτίθεται ότι εκπροσωπεί τη σημασία του αντίστοιχου μπλοκ γονιδιώματος.
Ξεκινά από τη μήτρα δεδομένων δείκτη tag
T
(
Ν
×
Μ
), και παράγει μηδενική κατανομή
D
1 έως παραλλαγές στα δεδομένα. Βασισμένο σε
D
1, επίπεδο σημαντικότητας έχει εκχωρηθεί σε κάθε δείκτη ετικέτα. Εάν το επίπεδο σημαντικότητας είναι μικρότερη από μια οριακή τιμή (
π.χ.
0.05), οι αντίστοιχες δείκτες (
π.χ.
το
i
-ου δείκτη tag) θα αφαιρεθεί από τη μήτρα στην επόμενη επανάληψη του μεταλλαγή και δοκιμής σημασία. Αυτή η διαδικασία συνεχίζεται μέχρι να επιτευχθεί μια μηδενική κατανομή
D
H
, με βάση την οποία είναι Δεν υπάρχουν επιπλέον δείκτες tag εντοπίζονται σημαντικές. Σε αυτή τη διαδικασία, ο μέσος όρος των μηδενικές κινήσεις διανομής αριστερά σταδιακά,
π.χ.
στην δεύτερη επανάληψη,
D
2 μετακινείται προς τα αριστερά σε σύγκριση με το
D
1.
η
τώρα περιγράφουν τη διαδικασία της αποκόλλησης μετάθεση και δοκιμή σημασία στην λεπτομέρεια, η οποία απεικονίζεται επίσης στο Σχήμα 2. στην αρχή, μια μηδενική κατανομή
D
1 υπολογίζεται χρησιμοποιώντας μετάθεση στον πίνακα
T
1 (
T
1 =
T
). Βασισμένο σε
D
1, κάθε δείκτης ετικέτα έχει εκχωρηθεί μια τιμή p. Ο αλγόριθμος αυτός μπορεί να αναλυθεί στα παρακάτω βήματα:
Σε κάθε θέμα, να εκτελέσει μια μετάθεση των δεικτών tag, δηλαδή τυχαία τοποθετήστε τους δείκτες tag στις θέσεις ετικέτα του γονιδιώματος
Στην permuted σύνολο δεδομένων
δ
(
T
1), τον υπολογισμό της βαθμολογίας πάνω δείκτη tag
m
, συμβολίζεται με
S
m
(
δ
(
T
1)),
m
= 1, 2, …,
Μ
.
βήματα Επαναλάβετε (1) και (2)
E φορές
, δηλαδή εκτελούν
E
μεταθέσεις του συνόλου δεδομένων, και να αποκτήσει έτσι
E
Μετατεθειμένο σύνολα δεδομένων
δ
1 (
T
1),
δ
2 (
T
1), …,
δ
Ε
(
T
1), και οι αντίστοιχες βαθμολογίες
S
m
(
δ
1 (
Τ
1)),
S
m
(
δ
2 (
T
1)), … ,
S
m
(
δ
E
(
T
1)).
Ας
D
1 είναι η κατανομή της μέγιστης
m S
m
(
δ
(
T
1)) πάνω όλα τα
E
παραλλαγές, και να καθορίσει την τιμή p για δείκτη tag
m
0 (
m
0∈ {1 …
Μ
}) από την ακραία πιθανότητα δεξί χέρι [5], [9] 🙁 4), όπου Ι (·) είναι η συνάρτηση δείκτης.
η
Στη συνέχεια, σαρώνει TAGCNA οι ρ-τιμές σε όλες τις δείκτες ετικέτα. Εάν οποιαδήποτε μία ή περισσότερες από τις ρ-τιμές είναι λιγότερο από ένα σημασία αποκοπής (
π.χ.
0.05), οι αντίστοιχες δείκτες ετικέτα θα διαγραφεί (Σχήμα 2). Στη συνέχεια, μια νέα μήτρα δεδομένων
T
2 παράγεται χωρίς την ενσωμάτωση των σημαντικών δεικτών tag. Βασισμένο σε
T
2, η μηδενική κατανομή
D
2 μπορεί να δημιουργηθεί μέσω των παραπάνω τέσσερα βήματα και το επίπεδο σημαντικότητας των δεικτών υπόλοιπο ετικέτα μπορεί να εκτιμηθεί.
Η διαδικασία συνεχίζεται έως ότου επιτευχθεί μηδενική κατανομή
D
H
, με βάση την οποία υπάρχουν επιπλέον δείκτες tag μπορεί να προσδιοριστεί σημαντικές. Κατά τη διάρκεια της διαδικασίας, μια σειρά από πίνακες δεδομένων
T
1,
T
2, …,
Τ
H
και μια ακολουθία null διανομές
D
1,
D
2, …,
D
H
λαμβάνονται. Παρατηρούμε ότι ο αριθμός των στηλών στο μήτρες δεδομένων μειώνονται και τα μέσα των μηδενικών κατανομών κινείται αριστερά σταδιακά μαζί με την ακολουθία. Αυτό σημαίνει ότι
Τ
H
μπορεί να μην περιλαμβάνουν εξαιρετικά ακραίες δείκτες tag και το ποσοστό της αληθινής υποθέσεις null αυξάνεται σημαντικά, έτσι ώστε το οδήγησε μηδενική κατανομή
D
H
μπορούσε είναι εξαιρετικά κοντά στην μηδενική κατανομή αλήθεια. Τέλος, με βάση την
D
H
, TAGCNA αξιολογεί τα επίπεδα σημαντικότητας όλων των δεικτών παρατηρούμενη ετικέτα και πάλι. Αυτό μπορεί να βελτιώσει τη δύναμη για τον προσδιορισμό των λιγότερο ακραίες ΕΣΕ, αλλά και να διορθώσει τις τιμές p από την άποψη της στατιστικής σημαντικότητας.
Αποτελέσματα
Προσομοίωση Σπουδών
Ακίνητα σύνολα δεδομένων σπάνια έχουν απολύτως επιβεβαίωσε ΕΣΕ έδαφος αλήθεια, γι ‘αυτό είναι δύσκολο να εκτιμηθεί η απόδοση των στατιστικών μεθόδων σε πραγματικά δεδομένα. Στην ενότητα αυτή, σχεδιάζουμε μελέτες προσομοίωσης για να δοκιμαστεί η στατιστική ισχύς της προσέγγισής μας. Το μοντέλο προσομοίωσης που προτείνει Willenbrock και Fridlyand [18] έχει τροποποιηθεί για να δημιουργήσει σύνολα δεδομένων ΚΥΠΕ υπό διάφορες ρυθμίσεις παραμέτρων. Σε κάθε ρύθμιση, θα προσομοιώνουν 100 άτομα το καθένα με 10000 δείκτες. Σύνδεση
2-αναλογία για κάθε θέμα που δημιουργείται από την ανάμειξη φυσιολογικών και καρκινικών κυττάρων. Η αναλογία των φυσιολογικό κύτταρο για ένα συγκεκριμένο θέμα αναρροφάται από μία ομοιόμορφη κατανομή μεταξύ 0,3 και 0,7. Θόρυβο Gauss της μέσης μηδέν και μεταβάλλοντας διακύμανση προστίθεται σε κάθε υποκείμενο. Εδώ θεωρούμε τρία επίπεδα της διακύμανσης στην Gaussian κατανομή θορύβου, δηλαδή την τυπική απόκλιση της (SD) (σ) έλκεται ομοιόμορφα από [0.1, 0.2], [0.2, 0.4], ή [0.4, 0.6] [18] σε η προσομοίωση του κάθε θέματος. Για την περαιτέρω κάνουν την προσομοίωση πιο ρεαλιστική, έχουμε προσθέσει δύο μη SCE περιοχές με μήκος που κυμαίνεται από 50 έως 500 σε κάθε μάθημα. Οι θέσεις των μη SCE περιοχές επιλέγονται τυχαία στο τέντωμα του προσομοιωμένου γονιδιώματος, και το αρχείο καταγραφής
2 Οι αναλογίες των περιοχών που παράγονται ομοιόμορφα μεταξύ 0.585 (αντίγραφα 3) και 1.322 (αντίγραφα 5). Τρεις ΕΣ έδαφος αλήθεια ενσωματωμένα στα προσομοιωμένα σύνολα δεδομένων. Οι ημερολόγιο
2-αναλογίες και μήκη από αυτά που ορίζονται ως Λόγος = {0,585, 1, 1.322} και L = {200, 100, 50}, αντίστοιχα. Η συχνότητα των τριών ΕΣΕ σε όλη θέματα συμβολίζεται ως
στ
. Τα δύο επίπεδα συχνότητας, 0,15 και 0,20, θεωρούνται για την προσομοίωση διαφόρων συνόλων δεδομένων γονιδιώματος.
Έχουμε εφαρμόσει TAGCNA στα προσομοιωμένα σύνολα δεδομένων ορίζοντας τις παραμέτρους
θ
α
mp και
θ
del έως 0,1 και -0,1, καθώς και
w
έως 20, και να συγκρίνουν τις επιδόσεις της κατά CMDS [13] με βάση τις καμπύλες ROC, τα οποία παρουσιάζονται στο Σχήμα 3. κάθε καμπύλη ROC σχεδιάζεται για μία προσομοίωση ρύθμιση των παραμέτρων, στην οποία η TPR (πραγματικό θετικό ρυθμό) έναντι FPR (ποσοστό ψευδώς θετικών) υπολογίζεται σε διαφορετικά επίπεδα σημαντικότητας και, στη συνέχεια, κατά μέσο όρο πάνω από 100 προσομοίωση επαναλήψεις. Από το Σχήμα 3 μπορούμε να σημειώσουμε ότι στις περισσότερες περιπτώσεις, TAGCNA είναι πιο ισχυρή από ό, τι CMDS από την άποψη της μεγαλύτερες περιοχές κάτω από τις καμπύλες ROC. Ως εκ τούτου, TAGCNA είναι ένα πολύτιμο εργαλείο για τον εντοπισμό των SCE από το φόντο CNAs.
TPR και FPR είναι κατά μέσο όρο πάνω από 100 προσομοίωση επαναλήψεις σε κάθε ρύθμιση παραμέτρων. Χρησιμοποιούμε δύο επιλογές (δηλαδή β = 10 και b = 20) για τη μέθοδο CMDS στην ανάλυση των δεδομένων.
Η
Επιπλέον, για να μελετηθεί η συμπεριφορά των TAGCNA υπό την πραγματική μηδενική υπόθεση ότι δεν υπάρχουν ΕΣ , έχουμε υιοθετήσει τον αλγόριθμο που θεσπίστηκε με τον Walter et al. [9] για την προσομοίωση null σύνολα δεδομένων CNA και να εκτελέσει TAGCNA σε αυτά τα δεδομένα. Και πάλι, τα τρία επίπεδα θόρυβο Gauss θεωρείται στο σύστημα προσομοίωση σε μια προσπάθεια να δείξουν την ισχυρή συμπεριφορά του TAGCNA. Τα αποτελέσματα αυτών των πειραμάτων φαίνονται στον Πίνακα 1. Σε κάθε περίπτωση, το ποσοστό σφάλματος τύπου Ι προέκυψαν από TAGCNA υπολογίζεται σύμφωνα με τα ακόλουθα βήματα:
Προσομοίωση 600 επαναλήψεις χρησιμοποιώντας τον αλγόριθμο προσομοίωσης με προεπιλεγμένη ρύθμιση παραμέτρων στο Walter . εργασίες et al [9]
για κάθε αντιγραφή των δεδομένων, την εφαρμογή TAGCNA βασίζεται σε 1000 παραλλαγές, και να καθορίσει εάν υπάρχουν οποιεσδήποτε προσαρμογείς CNA είναι σημαντικό σε p-value & lt?. 0.05
Υπολογίστε το αριθμός των επαναλήψεων στις οποίες υπάρχουν σημαντικές προσαρμογείς CNA και ορίστε τον τύπο Ι ποσοστό σφάλματος ως το ποσοστό αυτών των επαναλήψεων στις 600 επαναλήψεις.
η
Οι τιμές του τύπου Ι ποσοστό σφάλματος που παρατίθενται στον πίνακα 1 είναι πολύ κοντά στο 0,05, υποδεικνύοντας ότι TAGCNA είναι ελαφρώς συντηρητική και η διαδικασία μετάθεσης στην ετικέτα δείκτες CNA είναι σχετικά λογικό.
η
εφαρμογή σε πραγματικά δεδομένα
Θα εφαρμοστεί TAGCNA σε δύο διαθέσιμων στο κοινό του καρκίνου σύνολα δεδομένων. Η πρώτη αποτελείται από 371 άτομα αδενοκαρκινώματος του πνεύμονα, το καθένα από τα οποία περιλαμβάνει 216.327 δείκτες. Αυτό το σύνολο δεδομένων λαμβάνεται από το έργο TSP (Tumor αλληλουχίας του έργου) και είναι διαθέσιμο σε https://www.broadinstitute.org/cancer/pub/tsp/[19]. Η δεύτερη σειρά δημιουργείται από 82 προστάτη θέματα αδενοκαρκίνωμα σε TCGA (The Cancer Genome Atlas) του έργου, κάθε υποκείμενο προφίλ χρησιμοποιώντας SNP6.0 σε 1.868.857 δείκτες, και τα δεδομένα είναι διαθέσιμα σε https://cancergenome.nih.gov/. Τα αρχικά δεδομένα ΚΥΠΕ διαστήματα μέσω μεμονωμένη ανάλυση δείγματος και μετατρέπονται σε μορφή εισόδου TAGCNA όπως περιγράφεται στο έγγραφο πακέτο λογισμικού. TAGCNA εφαρμόζεται σε κάθε χρωμόσωμα για την ανάλυση ενίσχυση και διαγραφή χωριστά. Θέτουμε το αρχείο καταγραφής
κατώφλια 2-αναλογία
θ
ενισχυτή και
θ
del στο 0,848 (3,6 αντίγραφα) και -0.737 (1,2 αντίγραφα), η οποία είναι η ρύθμιση της μεθόδου GISTIC στην ανάλυση του καρκίνου γονιδιώματα [19], καθώς και την παράμετρο
w
έως 20, και να εκτελέσει 1000 τυχαίες παραλλαγές για να αξιολογήσει τη σημασία των δεικτών tag. δείκτες ετικέτα με p-τιμές μικρότερες από 0,05 θεωρούνται σημαντικές, και συνεπώς οι σχετικές μπλοκ γονιδιώματος θεωρείται ως SCE.
Αποτέλεσμα για το σύνολο δεδομένων αδενοκαρκίνωμα του πνεύμονα.
Το σχήμα 4 δείχνει τη σημασία του τοπίου της ολόκληρο το γονιδίωμα προέκυψαν από την ανάλυση του συνόλου δεδομένων αδενοκαρκινώματος πνεύμονα. TAGCNA προσδιορίζει συνολικά 16 ενισχύσεις και 29 διαγραφές σε διαφορετικά χρωμοσώματα, όπως αναφέρονται στις δύο πλευρές του Σχήματος 4. Τα γονίδια που καλύπτονται από αυτές τις SCE που δίνονται στον Πίνακα S1. Πολλά γνωστά γονίδια του οδηγού του καρκίνου περιλαμβάνεται στο αποτέλεσμα. Για παράδειγμα, EGFR (υποδοχέας επιδερμικού αυξητικού παράγοντα) είναι ένα ογκογονίδιο που περιέχεται στο 7p11.2 (τιμή-ρ & lt? 0.001). πολλαπλασιασμοί του μπορεί να οδηγήσει σε πάνω από έκφραση και ανεξέλεγκτη κυτταρική διαίρεση, η οποία είναι μια προδιάθεση για καρκίνο [20]. Ο μέγιστος αριθμός αντιγράφων συναχθεί σε 7p11.2 είναι 9,1, ενώ υπάρχουν και 11 (3%) ασθενείς με αριθμό αντιγράφων άνω όριο 3,6 στην περιοχή και 50 (13,5%) άτομα άνω όριο 2,5.
-λογ10 ( οι τιμές ρ) που δίδεται για τις περιφέρειες ενίσχυση και διαγραφή αντίστοιχα. Η διακεκομμένη πράσινη γραμμή τοποθετείται στο 1,3 (αντίστοιχο p-value 0,05) ως αποκοπής για την κλήση σημαντική συναίνεση γεγονότα. Χρωμόσωμα 23 δείχνει το χρωμόσωμα φύλου.
Η
Χρησιμοποιούμε το διάγραμμα Venn για να συγκρίνετε ΕΣΕ προέκυψε από TAGCNA με ότι από GISTIC στο Σχήμα 5. TAGCNA παρέχει στατιστική υποστήριξη για το 80% των εκδηλώσεων ενίσχυσης και το 50% της διαγραφή γεγονότα που ανιχνεύονται GISTIC. Οι περισσότεροι από τους επικαλυπτόμενων SCE που περιλαμβάνουν ένα ή περισσότερα ογκογονίδια ή γονίδια καταστολής όγκου. Επιπλέον, ένα μέρος των μη επικαλυπτόμενων SCE που διαγραφή TAGCNA υποστηρίζεται από CMDS αποτέλεσμα [13] όπως 10q21.2 και 15q11.1. Επιπλέον, υποθέτουμε ότι οι υπάρχουσες προσεγγίσεις να χάσετε κάποια ΕΣ φαίνεται να είναι στατιστικά και βιολογική σημασία. Εδώ χαρακτηρίζουμε μία SCE (21q22.2) μονοσήμαντα από TAGCNA. Η διαγραφή στο 21q22.2 (τιμή-ρ & lt? 0.001) εμφανίζεται σε 11 (3%) ασθενείς με αριθμό αντιγράφων κάτω από 1,2 και εμφανίζεται σε 24 (6,5%) ασθενείς με αριθμό αντιγράφων κάτω από 1,5, και ο ελάχιστος αριθμός συναχθεί αντίγραφο είναι 0,3. Αυτή η SCE καλύπτει τρία γονίδια (PCP4, DSCAM, και TMPRSS3), στην οποία TMPRSS3 έχει επικυρωθεί κλινικά και βιολογικά που σχετίζονται με ανθρώπινες ασθένειες [21], [22].
Τα επικαλυπτόμενα γεγονότα ενίσχυση και τη διαγραφή είναι που παρατίθενται στο πάνω και κάτω μέρος του διαγράμματος Venn. Εδώ, χρησιμοποιούμε την κοινή αποκοπές Q & lt? 0,05 και p & lt?. 0.05 για GISTIC και TAGCNA, αντίστοιχα
Η
Στο Σχήμα 5, είναι εύκολο να σημειωθεί ότι ο αριθμός των νέων ΕΣΕ ανιχνεύεται από TAGCNA στη διαγραφή είναι μεγαλύτερη από ότι στην ενίσχυση. Η εξέταση των προφίλ αριθμού αντιγράφων στο σύνολο δεδομένων αδενοκαρκίνωμα του πνεύμονα και των ανιχνεύθηκε ΕΣΕ αποκαλύπτει δύο λόγους για αυτήν τη διαφορά. Η πιο συνηθισμένη εξήγηση είναι ότι η εκδήλωση διαγραφή είναι παρόν σε μεγαλύτερη συχνότητα από συμβάν ενίσχυση [19] και οι περισσότερες από τις διαγραφές είναι ετερογένεια (π.χ. απώλεια ενός αντιτύπου) [3], όπως φαίνεται στα δείγματα αδενοκαρκινώματος του πνεύμονα για διαγραφή 17ρ11.2 . Εδώ, το 6,8% των δειγμάτων εμφανίζουν διαγραφή μεγέθους μεταξύ 1 και 1,5, ενώ μόνο λίγες (1%) των δειγμάτων εμφανίζουν διαγραφή μεγέθους κάτω από 1. Ως εκ τούτου, 17ρ11.2 είναι μια λιγότερο ακραία περιοχή (δηλαδή η συχνότητα και το μέγεθος είναι σχετικά χαμηλή), η οποία δεν μπορεί να ανακαλυφθεί κάτω από την μηδενική κατανομή εισφέρει πολλές μεγάλες ΕΣΕ διαγραφή. Ωστόσο, τέτοιες περιοχές θα φτάσει σημασία αφαιρώντας τις SCE από το γονιδίωμα και τις νέες κατανομές null εκ νέου δημιουργία εκτελούνται από TAGCNA. Η δεύτερη εξήγηση είναι ότι ο συντελεστής συσχέτισης μεταξύ των ανιχνευτών διαγραφή στη συγκεκριμένη σύνολο δεδομένων είναι σχετικά υψηλότερη από ότι μεταξύ των ανιχνευτών ενίσχυσης, έτσι η ανίχνευση των επιμέρους παραγόντων επισημάνσεως χωρίς να ληφθεί υπόψη συσχετίσεις θα οδηγήσει σε υψηλότερο συντηρητικού. Για παράδειγμα, η διαγραφή σε 7q11.22 έχει εκχωρηθεί p-value μικρότερη από 0.001 από TAGCNA, αλλά έχει αναφερθεί από GISTIC με q-αξίας άνω των 0.025.
Αποτέλεσμα στο αδενοκαρκίνωμα του προστάτη σύνολο δεδομένων.
Η σημασία του τοπίου του συνόλου του γονιδιώματος αναλύεται από TAGCNA στο σύνολο δεδομένων αδενοκαρκίνωμα του προστάτη δίνεται στο Σχήμα 6. Ένα σύνολο 91 ΕΣΕ ενίσχυσης και 97 ΕΣΕ διαγραφή προσδιορίζονται στο σύνολο δεδομένων, και οι καλύπτεται γονίδια που παρατίθενται στον πίνακα S2. Οι περισσότερες από αυτές τις SCE φαίνονται να είναι βιολογικώς σχετικό και υποστηρίζονται από προηγουμένως αναφερθέντα αποτελέσματα. Για παράδειγμα, ενισχύσεις σε 1q21.1, 7p21.2, 7q36.1, 8q13.3, 8q23.1, 9p13.1, 14q24.2, 14q32.31 και 16p11.2 εισάγονται από Outi [23], όπου 7p21.2 περιέχει παράγοντα μεταγραφής ETV1, το οποίο βρέθηκε να είναι ουσιαστικά υπερ-εκφράζεται σε ένα υποσύνολο των καρκίνων του προστάτη, και 14q24.2 είναι πλησίον HIF1A, η πρωτεΐνη που κωδικοποιείται από αυτό το γονίδιο έχει δειχθεί ότι υπερ-εκφράζεται σε πολλούς καρκίνους του προστάτη? και οι ενισχύσεις σε 11p15.4, 3p12.3, 3p12.1, 13q13.3, 17q12, 7p15.3, 7p15.2, 7q34, 5q35.3 και 8p11.23 αναφερθεί από άλλους συγγραφείς [24], [25 ], [26], [27]. Διαγραφές στο 2q14.2, 4p16.1,4q26, 6q13, 9p13.1, 10q23.2, 16q23.1 και 17p13.3 εισάγονται από Outi [23], όπου and16q23.1 10q23.2 είναι εξαιρετικά κοντά σε σημαντικούς δυναμικό ογκοκατασταλτικά γονίδια PTEN και HSD17B2? και διαγραφές στο 8p12, 1q21.2, 5p15.2,5p14.3,5p12,14q12, 14q32.31, 6q14.1,13q13.3, 3q26.1, 11p15.4 και 20p13 παρουσιάζονται από άλλους συγγραφείς [25 ], [26], [27], [28]. Αυτά τα αποτελέσματα δείχνουν ότι TAGCNA ισχύει για την ανάλυση των πραγματικών συνόλων δεδομένων ΚΥΠΕ.
-λογ10 (p-τιμές) δίνονται για τις περιφέρειες ενίσχυση και διαγραφή αντίστοιχα. Η διακεκομμένη πράσινη γραμμή τοποθετείται στο 1,3 (αντίστοιχο p-value 0,05) ως αποκοπής για την κλήση σημαντική συναίνεση γεγονότα. Χρωμόσωμα 23 δείχνει το χρωμόσωμα φύλου. Πολλές σημαντικές SCE που αναφέρονται στις δύο πλευρές του σχήματος.
Η
Επιπλέον, πολλά πρόσθετα SCEs ενίσχυση και τη διαγραφή προσδιορίζονται από TAGCNA (Α μέρος από αυτά παρατίθενται στον Πίνακα 2), το οποίο μπορεί να χρησιμοποιηθεί για περαιτέρω έρευνα. Για παράδειγμα, 12p11.21 και 15q24.1 περιλαμβάνουν γονίδια FGD4 και HCN4 αντίστοιχα. Μεταλλάξεις σε αυτά τα γονίδια έχουν συνδεθεί με Charcot Marie 4Η τύπου Tooth νόσος [29] και άρρωστος syndrome2 κόλπων [30] αντίστοιχα. Σημειώνουμε ότι οι δύο SCE που δείχνουν στατιστική σημασία (ρ-τιμή & lt? 0.001) σε αμφότερες τις περιπτώσεις ενίσχυση και διαγραφής. Μια άλλη 10q23.1 διαγραφή SCE περιέχει GRID1, η οποία έχει αποδειχθεί ότι σχετίζεται με τον αυξημένο κίνδυνο ανάπτυξης σχιζοφρένειας [31].
Η
Συζήτηση
Γενική Σύνοψη
Αναγνώριση των SCE σε σωματικά δεδομένα αριθμός αντιγράφων έχει αποδειχθεί ότι είναι μια αποτελεσματική τεχνική για να ανακαλύψει γονίδια του οδηγού του καρκίνου. Σε αυτό το άρθρο προτείνουμε μια νέα προσέγγιση TAGCNA, με στόχο να αυξηθεί η στατιστική ισχύ για την ανίχνευση SCE. TAGCNA παρακινείται από προσεκτική εξέταση των βιολογικών και στατιστική σημαντικότητα. Για να διατηρήσετε τις εγγενείς συσχετίσεις στα δεδομένα CNA και να κάνει μια συνοχή μεταξύ των στατιστικών και μετάθεση διαδικασία, TAGCNA κατασκευάζει μπλοκ CNA και δοκιμάζει τη στατιστική σημαντικότητα των δεικτών tag που αντιπροσωπεύουν τα μπλοκ. Για να διορθώσετε τιμές p ανατεθεί ετικέτα δείκτες, TAGCNA υιοθετεί ένα σχήμα μετάθεση φλούδα-off για να δημιουργήσουν μια λογική κατανομή null.
Έχουμε εκτελέσει μελέτες προσομοίωσης για την εξέταση των επιδόσεων των TAGCNA σε σύγκριση με εκείνη της μεθόδου CMDS. Δεδομένου ότι οι δύο από τις μεθόδους που έχουν εξετάσει τους συσχετισμούς μεταξύ των γειτονικών δείκτες και έχουν ως πρότυπο τις μέσες συσχετίσεις χρησιμοποιώντας μέγεθος παραθύρου, για μια δίκαιη σύγκριση, επιλέξτε
w
= 20, ως την προεπιλεγμένη τιμή του αλγορίθμου CMDS [13 ], στις μελέτες προσομοίωσης. Το αποτέλεσμα δείχνει ότι TAGCNA παρουσιάζει υψηλότερη αλήθεια θετικό ρυθμό στο ίδιο ποσοστό ψευδώς θετικών σε διάφορα σύνολα δεδομένων προσομοίωσης από εκείνη της μεθόδου CMDS.
You must be logged into post a comment.