PLoS One: SomatiCA: ανίχνευση, το χαρακτηρισμό και την ποσοτικοποίηση σωματικά Copy Number Παρεκκλίσεις από καρκίνο του Γονιδιώματος αλληλουχίας Δεδομένων


Αφηρημένο

Σύνολο αλληλουχίας του γονιδιώματος του ζεύγη δειγμάτων όγκου-φυσιολογική γίνεται ρουτίνα στην έρευνα για τον καρκίνο. Ωστόσο, η ανάλυση των σωματικών αριθμό αντιγράφων αλλαγές από τα δεδομένα αλληλουχίας εξακολουθεί να είναι προκλητική, λόγω της ανεπαρκούς κάλυψης αλληλουχίας, άγνωστης καθαρότητας του δείγματος όγκου και subclonal ετερογένεια. Εδώ περιγράφουμε ένα υπολογιστικό πλαίσιο, που ονομάζεται SomatiCA, η οποία αντιπροσωπεύει ρητά για την καθαρότητα των όγκων και subclonality στην ανάλυση των σωματικών προφίλ αριθμό αντιγράφων. Λαμβάνοντας διαβάσετε βάθη (RD) και μικρότερο αλληλόμορφο συχνότητες (LAF) ως είσοδο, SomatiCA θα έξοδος 1) ποσοστό πρόσμιξη για κάθε δείγμα όγκου, 2) σωματικών αλληλομόρφων αριθμό αντιγράφων για κάθε τμήμα γονιδιώματος, 3) κλάσμα των καρκινικών κυττάρων με subclonal αλλαγή στην κάθε αριθμός σωματικών αντίγραφο εκτροπή (SCNA), και 4) τον κατάλογο των σημαντικών γονιδιωματικής γεγονότα εκτροπή συμπεριλαμβανομένων της αύξησης, της απώλειας και της ΑΕ. SomatiCA είναι διαθέσιμο ως πακέτο Bioconductor R σε https://www.bioconductor.org/packages/2.13/bioc/html/SomatiCA.html

Παράθεση:. Chen Μ, Γκουνέλ Μ, Zhao Η (2013) SomatiCA: ανίχνευση, το χαρακτηρισμό και την ποσοτικοποίηση σωματικά Copy Number Παρεκκλίσεις από καρκίνο του Γονιδιώματος αλληλουχίας δεδομένων. PLoS ONE 8 (11): e78143. doi: 10.1371 /journal.pone.0078143

Επιμέλεια: Jörg Δ Hoheisel, Deutsches Krebsforschungszentrum, Γερμανία

Ελήφθη: 31 Ιουλίου, 2013? Δεκτές: 7 του Σεπτεμβρίου 2013? Δημοσιεύθηκε: 12 του Νοεμβρίου του 2013

Copyright: © 2013 Chen et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτή η έρευνα υποστηρίχθηκε από το NIH επιχορήγησης R01 GM59507. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου. Καμία πρόσθετη εξωτερική χρηματοδότηση ελήφθη για τη μελέτη αυτή

Αντικρουόμενα συμφέροντα:. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Κατά τη διάρκεια της καρκινογένεσης, υπάρχουν συχνά αλλαγές της. η δοσολογία ή /και τη δομή των ογκοκατασταλτικών γονιδίων ή ογκογονιδίων σε καρκινικά κύτταρα μέσω σωματικών χρωμοσωμικές μεταβολές. Ο εντοπισμός περιοχές του γονιδιώματος με υποτροπιάζουσες αριθμό αντιγράφων αλλοιώσεις (κέρδη και ζημίες) σε γονιδιώματα του όγκου είναι ένας αποτελεσματικός τρόπος για να βρείτε τα γονίδια του καρκίνου του οδηγού [1]. Ιδανικά, ένας τέτοιος χαρακτηρισμός θα πρέπει να περιλαμβάνει τόσο την ακριβή ταυτοποίηση των χρωμοσωμικών σημείων διακοπής κάθε αλλοίωση και την απόλυτη εκτίμηση του αριθμού αντιγράφων σε κάθε χρωμοσωμική τμήμα. Προηγούμενες μελέτες χρησιμοποιούνται ολιγονουκλεοτιδίων μικροσυστοιχίες να συμπεράνει γονιδιώματος σε επίπεδο αριθμού αντιγράφων αλλαγές. Οι πρόσφατες εξελίξεις στην μαζικά παράλληλη αλληλουχίας παρέχει μια ισχυρή εναλλακτική λύση για μικροσυστοιχίες DNA για την ανίχνευση αριθμού αντιγράφων μεταβολές [2]. Τα πλεονεκτήματα των προσεγγίσεων αλληλουχίας που βασίζονται περιλαμβάνουν πλήρη και αμερόληπτη έρευνα της όλων των γονιδιωματικής παραλλαγές [3] και την ικανότητα να ανιχνεύει τον αριθμό αντιγράφων εκτροπές (προσαρμογείς CNA) και μόνο παραλλαγές νουκλεοτιδίου (SNVs) ταυτόχρονα σε κάθε δείγμα, το οποίο προσφέρει σημαντικές πληροφορίες για την κατανόηση μας της εξέλιξης του γονιδιώματος του καρκίνου

Πολλοί αλγόριθμοι έχουν αναπτυχθεί για την ανίχνευση μεταβολών αριθμό αντιγράφων (CNVs) από ολόκληρο το γονιδίωμα ή δεδομένα αλληλουχίας exome, όπως οι μέθοδοι που χρησιμοποιούν πρώτες ανάγνωσης βάθος [2] -. [5], ανάγνωσης ζεύγος ευθυγράμμιση [6], [7], χαρτογράφηση διάσπαση ανάγνωση [8], [9] και (AS) οι μέθοδοι συναρμολόγησης που βασίζεται [10], [11]. Ωστόσο, αυτές οι μέθοδοι δεν είναι κατάλληλοι για να συναχθεί απόλυτη σωματικών αριθμού αντιγράφων, διότι αναπτύσσονται για την ανάλυση των δεδομένων από την κανονική αντί των δειγμάτων του όγκου. Σε σύγκριση με φυσιολογικά δείγματα, δείγματα όγκων έχει ορισμένα μοναδικά χαρακτηριστικά, όπως: (i) ένα άγνωστο κλάσμα των φυσιολογικών κυττάρων (ρυθμός πρόσμιξη) που σχεδόν πάντοτε αναμειγμένα με καρκινικά κύτταρα? και (ii) η ετερογένεια του πληθυσμού των καρκινικών κυττάρων λόγω συνεχιζόμενης subclonal εξέλιξη. Παρά το γεγονός ότι έχουν αναπτυχθεί κάποιες μέθοδοι για σωματικά CNA (SCNA) προσδιορισμός σε όλη την αλληλούχιση του γονιδιώματος του καρκίνου, οι περισσότεροι από αυτούς δεν το μοντέλο ρητά καθαρότητα του όγκου [12], [13]. Για εκείνους που αντιπροσωπεύουν για την καθαρότητα των όγκων, ExomeCNV [14] εκτιμά ότι το ποσοστό πρόσμιξη με βάση το μεγαλύτερο απώλεια της ετεροζυγωτίας (ΑΕ) περιοχή σε ένα γονιδίωμα, το οποίο πιθανόν παράγει μια προκατειλημμένη εκτίμηση. Μια πιο συχνά χρησιμοποιούμενη επιλογή στο ExomeCNV είναι μια προεπιλεγμένη ρύθμιση 0.3 για το ποσοστό πρόσμιξη. Ελέγχου-FREEC [15] απαιτεί προηγούμενη προδιαγραφή του φυσιολογικού επιπέδου μόλυνσης ή ένα προκαθορισμένο πλοειδίας να εκτιμηθεί η κανονική μόλυνση από τη διάμεση μετατόπιση του αριθμού αντιγράφων και σε διαφορετική περιοχές προς την κανονική γραμμή βάσης. Και οι δύο μέθοδοι έχουν χαμηλή ανοχή στη μόλυνση. Αλγόριθμους που έχουν αναπτυχθεί για arrayCGH δεδομένων, όπως ASCAT [16] και απόλυτη [17], που ειδικεύεται στην εκτίμηση καθαρότητα των όγκων, αλλά δεν παρέχουν ένα ολοκληρωμένο πλαίσιο για την αναγνώριση subclonality ή τμήματος κλήση.

Εδώ παρουσιάζουμε SomatiCA, ένα μυθιστόρημα πλαίσιο που είναι ικανή να ταυτοποιήσει, το χαρακτηρισμό και την ποσοτικοποίηση SCNAs από αλληλουχίας του γονιδιώματος του καρκίνου (Σχήμα 1). Με απευθείας αντιπροσωπεύοντας για την καθαρότητα των όγκων και subclonality, SomatiCA αναπτύχθηκε ειδικά για την ανάλυση δειγμάτων όγκου με μόλυνση ή /και την ετερογένεια. Πρώτον, SomatiCA τμήματα του γονιδιώματος και προσδιορίζει τις υποψήφιες CNAs αξιοποιώντας τόσο διαβάσετε βάθη (RD) και μικρότερο αλληλόμορφο συχνότητες (LAF) από χαρτογραφηθεί διαβάζει. Δεύτερον, SomatiCA εκτιμά ότι το ποσοστό πρόσμιξη από τις σχετικές αναλογίες αριθμού αντιγράφων ενός ζεύγους όγκου-φυσιολογική από Bayesian πεπερασμένο μείγμα μοντέλο, το οποίο έχει υψηλή ανοχή στη μόλυνση από τα φυσιολογικά κύτταρα. Τέλος, SomatiCA ποσοτικοποιεί σωματικά αριθμό αντιγράφων και subclonality για κάθε τμήμα γονιδιώματος για να καθοδηγήσει τον χαρακτηρισμό της. Τα αποτελέσματα από SomatiCA μπορεί να είναι περισσότερο ολοκληρωμένη με SNVs από το ίδιο πείραμα αλληλουχίας για να αποκτήσουν μια καλύτερη κατανόηση της εξέλιξης του όγκου.

Κατ ‘αρχάς, SomatiCA τμήματα του γονιδιώματος και προσδιορίζει τις υποψήφιες CNAs αξιοποιώντας τόσο διαβάσετε βάθη (RD) και μικρότερο συχνότητες αλληλόμορφο (LAF) από χαρτογραφηθεί διαβάζει. Δεύτερον, SomatiCA εκτιμά ότι το ποσοστό πρόσμιξη από τις σχετικές αναλογίες αριθμού αντιγράφων ενός ζεύγους όγκου-φυσιολογική από Bayesian πεπερασμένο μείγμα μοντέλο, το οποίο έχει υψηλή ανοχή στη μόλυνση από τα φυσιολογικά κύτταρα. Τέλος, SomatiCA ποσοτικοποιεί σωματικά αριθμό αντιγράφων και subclonality για κάθε τμήμα γονιδιώματος για να καθοδηγήσει τον χαρακτηρισμό της.

Η

Αποτελέσματα

στρατηγική τμηματοποίησης στις SomatiCA

Αν και αλληλούχισης επόμενης γενιάς ( τεχνολογία NGS) παράγει δεδομένα με υψηλότερη ανάλυση από συστοιχίες SNP και σειρά συγκριτική γονιδιωματική υβριδισμού (aCGH), το σήμα περιπλέκεται από mappability, GC-περιεχομένου, προκατάληψη ευθυγράμμιση και άλλα θέματα [15]. Το γεγονός αυτό καθιστά την ανάλυση των δεδομένων NGS όχι μόνο μια άμεση προσαρμογή των υφιστάμενων μεθοδολογιών για aCGH αλλά μια επέκταση που απαιτούν ιδιαίτερη προσοχή από πολλούς παράγοντες που επηρεάζουν την ανάλυση δεδομένων και την ερμηνεία. Για παράδειγμα, μετά από έλεγχο της ποιότητας και de-noising, πολλές υπάρχουσες NGS CNV καλώντας εργαλεία εφαρμόσει άμεσα μεθόδους που έχουν αναπτυχθεί για τα δεδομένα aCGH [14]. Ωστόσο, όταν εφαρμόζονται CBS [18], μια ευρέως χρησιμοποιούμενη μέθοδος για τα δεδομένα aCGH, βρήκαμε ότι ήταν πολύ ευαίσθητα σε διακυμάνσεις στα σήματα NGS και ανέφερε τα σημεία αλλαγής ενδέχεται να είναι ψευδώς θετικά (βλέπε αποτελέσματα της προσομοίωσης).

Αντίθετα, SomatiCA εφαρμόζει εξομάλυνσης με βάση το de-noising βήμα για τη μείωση των επιπτώσεων των ακραίων τιμών από την είσοδο LAF (Σχήμα S1). Λαμβάνοντας υπόψη τα αρχικά σημεία αλλαγής ανιχνεύεται από το CBS, υλοποιήσαμε μια μεταβλητή διαδικασία επιλογής για να αφαιρέσετε τα σημεία αλλαγής που είναι πιθανό να είναι ψευδώς θετικά. Αυτό επιτυγχάνεται με SomatiCA χρησιμοποιώντας CBS ανιχνεύονται σημεία αλλαγής ως προγνωστικοί παράγοντες για την LAF εισόδου και, στη συνέχεια, την εκτέλεση μεταβλητή επιλογής μέσω Bayesian Criterion Πληροφοριών (BIC) βασίζεται σε μια LARS [19] μονοπάτι λύση. Για τα επιλεγμένα σημεία αλλαγής, SomatiCA αξιολογεί περαιτέρω αν συλλάβει τις αλλαγές στο σωματικό αντίγραφο-αριθμούς. Για την ποσοτικοποίηση αυτών των αλλαγών, ορίζουμε σωματικά αναλογία ως ο λόγος RD του όγκου στην αξιόπιστη φυσιολογικό σε ένα τμήμα (με ταυτόσημα κάλυψη στον όγκο και φυσιολογικό δείγμα υποτίθεται). SomatiCA αντλεί μια εκτιμήτρια μεγίστης πιθανοφάνειας (MLE) της σωματικής αναλογία για κάθε τμήμα χρησιμοποιώντας RD πληροφορίες από όλα τα ζεύγη SNPs σε αυτό το τμήμα. Δύο παρακείμενα τμήματα συγχωνεύονται εάν η διαφορά στα σωματικά αναλογίες είναι μικρότερο από Τ, η οποία είναι μια παράμετρος συντονισμού κατά την εφαρμογή με μια προκαθορισμένη τιμή των 0,05, που αντιστοιχεί σε 5% αλλαγή σε σωματικά αριθμού αντιγράφων χωρίς φυσιολογική μόλυνση. Οι MLEs της σωματικής λόγος για τις εκλεπτυσμένη τμήματα υπολογιστεί εκ νέου. Αυτή η διαδικασία βελτίωσης εφαρμόζεται κατ ‘επανάληψη μέχρι να υπάρχουν γειτονικά τμήματα έχουν σωματικά αναλογία διαφορά μικρότερη των Τ Σε SomatiCA, πληροφορίες και από τις δύο βλαστική ομόζυγα και ετερόζυγα SNPs χρησιμοποιούνται. LAF επί ετερόζυγη θέσεων χρησιμοποιούνται στην αρχική κατάτμηση. RD σε ομόζυγα και ετερόζυγα χώρους που χρησιμοποιούνται για τον υπολογισμό των σωματικών αναλογιών.

Στρατηγική Προσομοίωσης

Πραγματοποιούμε προσομοιώσεις για να αξιολογηθεί η στατιστική ισχύς των SomatiCA και για συγκρίσεις με άλλες μεθόδους. Σε περίπτωση απουσίας επικυρωμένων βιολογικών συνόλων δεδομένων, όπως μελέτες προσομοίωσης μπορεί να δώσει πληροφορίες σχετικά με τα πλεονεκτήματα και τα μειονεκτήματα των διαφορετικών μεθόδων. Εντούτοις, λόγω της πολυπλοκότητας του γονιδιώματος και τη διαδικασία προσδιορισμού αλληλουχίας, π.χ., η μη ομοιόμορφη κατανομή του RD απέναντι του γονιδιώματος σε NGS, είναι μη τετριμμένη για την προσομοίωση των δεδομένων αλληλούχισης καρκίνου που συλλαμβάνει την πολυπλοκότητα σε πραγματικά δεδομένα NGS. Εμπνευσμένο από Ivakhno et al [12], χρησιμοποιήσαμε ένα κανονικό δείγμα (δηλώνουν ως GLI-Ν1, αδημοσίευτα δεδομένα) για την προσομοίωση των δεδομένων αλληλουχίας του καρκίνου ως εξής (scripts στο Κείμενο S1):

Διπλότυπο το RD και λιγότερο αλληλόμορφο μετράει από το δείγμα GLI-Ν1.

Για κάθε γονιδιωματική παράθυρο 10 kb, εκτιμούν τη μέση και τυπική απόκλιση RD όλων των τόπων και λιγότερο μετράει αλληλόμορφο όλων των ετερόζυγη sites.

Σε προκαθορισμένα θέσεις, τοποθετήστε SCNA εκδηλώσεις που κυμαίνονται από 10 kb σε έναν ολόκληρο χρωμόσωμα, με διαφορετικά μεγέθη των μεταβολών όπως η διπλή διαγραφές, LOH, 1 και τα κέρδη αριθμός 2 αντιγράφων (όπως επίσης και διαφορετικές subclonalities συμπεριλαμβανομένων 20% και 40%). Κάθε εκτροπή περιέχει τουλάχιστον 5 τόπους ετερόζυγο.

Εξομοίωση γεγονότα SCNA μεταβάλλοντας τις διαμέσους σε αντιστοιχούσε παράθυρα.

Προσομοίωση RD και μικρότερο αλληλόμορφο μετράει στο SCNA εκδηλώσεις παράθυρα μέσα από κανονικές κατανομές με μέσο ίσο με το αλλοιωθεί διάμεσοι προέκυψαν από το βήμα 4) και τυπική απόκλιση ίση με τις εκτιμήσεις από το βήμα 2).

Admix μετράει καρκίνο ψευδο και φυσιολογικό αριθμό με μια κλίση του ρυθμού πρόσμιξη, 0.2, 0.4 και 0.6.

Εκτός από την πραγματική RD αναφερθεί σε GLI-Ν1 (-60 ×), προσομοίωση ανάγνωσης βάθη των 40 × 20 × με τυχαία αφαίρεση ενός ποσοστού των διαβάζει.

η

Συνολικά, θα προσομοιωθεί 90 καρκίνου γονιδιώματα (3 τιμές πρόσμιξη * 3 κάλυψη * 10) και το καθένα από αυτά περιείχε 40 SCNAs.

SomatiCA μειώνει αποτελεσματικά ποσοστό ψευδώς θετικών στην τμηματοποίηση

Θα εφαρμοστεί SomatiCA σε αυτά προσομοίωση των δεδομένων σε την αξιολόγηση της απόδοσης για την ανίχνευση SCNA υπό διαφορετικά σενάρια. Συγκρίναμε τις επιδόσεις του με το CBS και cumSeg [20], μια παρόμοια μέθοδο τμηματοποίησης, χρησιμοποιώντας την επιλογή μοντέλου για τον εντοπισμό σημείων αλλαγής με διαφορετικό αρχικό υπερ-ανίχνευση βήμα. Για δίκαιη συγκρίσεις, θα εφαρμοστεί η ίδια διαδικασία εξομάλυνσης και της βελτίωσης όπως εφαρμόζεται στην SomatiCA τόσο για CBS και cumSeg. Λαμβάνοντας υπόψη ότι η CBS και cumSeg δεν προσαρμοστεί για το ποσοστό πρόσμιξη, χρησιμοποιήσαμε μια επιεική κριτήριο για να καθοριστεί αν μια κλήση SCNA ήταν μια θετική ανακάλυψη. Αν η σωματική αναλογία ήταν μικρότερη από 0,8 ή μεγαλύτερο από 1,2, το αντίστοιχο τμήμα έχει αναφερθεί ως μια γονιδιακή περιοχή με σωματικά κέρδος ή ζημία. Για μια πραγματική θετική SCNA κλήση, θα απαιτούνται τα εντοπισμένα σημεία διακοπής σε απόσταση 100 kb της αληθινής αυτά.

Σε γενικές γραμμές, CBS και SomatiCA ξεπέρασε cumSeg στην ευαισθησία στην ανίχνευση SCNAs μεγαλύτερο από 1 Mb (Σχήμα 2). Ωστόσο, το CBS είχε 30% ψευδώς θετικά κλήσεις ενώ SomatiCA επιτευχθεί μεγαλύτερη ακρίβεια. Επιπλέον, CBS είχαν την τάση να υπερ-ανίχνευση σημεία διακοπής στην ίδια μεταβολή. Κατά μέσο όρο CBS ανέφερε 1.82 τμήματα για μια εκδήλωση ~ 1 Mb και 3.15 τμήματα για περίπου 10 εκδηλώσεις Mb. Σε αντίθεση, SomatiCA και cumSeg αναφερθεί 1.01 και 1.07 τμήματα για τις SCNAs μεγαλύτερο από 1 Mb. Η βελτίωση αυτή οφείλεται στο στάδιο επιλογής μοντέλου για τα σημεία αλλαγής που αφαιρεί αυτά τα δείχνει μικρές διακυμάνσεις, οι οποίες πιο πιθανό αποτέλεσμα από την ίδια ανωμαλία.

Σύνοψη της ακρίβειας και της ευαισθησίας πάνω από 90 προσομοίωση γονιδιωμάτων καρκίνο με διαφορετικούς ρυθμούς ανάμιξη και κάλυψη . CBS και SomatiCA ξεπέρασε cumSeg στην ευαισθησία στην ανίχνευση SCNAs μεγαλύτερο από 1% ψευδώς θετικά κλήσεις ενώ SomatiCA επιτευχθεί μεγαλύτερη ακρίβεια. Για SCNAs μικρότερα από 1 Mb, CBS διατηρείται ακόμα μια υψηλή ευαισθησία του 98% αλλά πάνω από το 60% του CBS κλήσεις ήταν ψευδώς θετικά. Τόσο SomatiCA και cumSeg χρησιμοποιείται το μοντέλο επιλογής για να μειώσει αποτελεσματικά το ποσοστό ψευδώς θετικών με κάποιο συμβιβασμό σχετικά με ευαισθησία.

Η

Για SCNAs μικρότερα από 1 Mb, CBS διατηρείται ακόμα μια υψηλή ευαισθησία του 98% αλλά πάνω από το 60% των CBS κλήσεις ήταν ψευδώς θετικά. Τόσο SomatiCA και cumSeg χρησιμοποιείται επιλογή μοντέλο για να μειώσει αποτελεσματικά το ποσοστό ψευδώς θετικών με κάποιο συμβιβασμό σχετικά με ευαισθησία. SomatiCA ανιχνεύεται το 83% προσομοίωση SCNAs ενώ cumSeg σταματούν μόνο το 10%. Σημειώνουμε ότι η ποινικοποίηση μέσα από την επιλογή του μοντέλου είναι μόνο ένας από τους πολλούς λόγους για τους οποίους η χαμηλότερη ευαισθησία σε μικρότερες ταυτοποίηση SCNAs. Επειδή SomatiCA τμήματα του γονιδιώματος βασίζονται μόνο σε λεβιέ από ετερόζυγο περιοχές, μπορεί να παραβλέψει τις εκτροπές με λιγότερες ετερόζυγο sites. Στις χρωμοσώματα 3 έως 15 στο δείγμα GLI-Ν1, το οποίο χρησιμοποιήθηκε ως μήτρα για την προσομοίωση, οι αποστάσεις μεταξύ των γειτονικών ετερόζυγο θέσεις κυμαινόταν από 5 bp (1% ποσοστημόριο) έως 17.036 bp (99% ποσοστημόριο) με ένα μέσο όρο 453 bp . Ο αριθμός των ετερόζυγο χώρων εντός των απαρατήρητα SCNAs κυμαίνονταν 6-76 με διάμεσο του 22. Ισχυρή εξάρτηση από τον αριθμό των ετερόζυγο sites είναι ένα σημαντικό μειονέκτημα όλων των προσεγγίσεων που χρησιμοποιούν λεβιέ (ή BAF) στο χρωμόσωμα κατάτμησης. Η ανομοιόμορφη κάλυψη και σφάλματα σήματος σε αλληλούχιση δεδομένων καθιστά δύσκολο να κάνει συμπέρασμα με λίγες μόνο δείκτες. Στην πράξη, σας προτείνουμε να χρησιμοποιήσετε τις μεθόδους που βασίζονται RD ως συμπληρωματικές προσεγγίσεις για να καλύψει ένα ευρύτερο φάσμα γεγονότων SCNA (όπως αυτή αναπτύχθηκε περισσότερο στη συζήτηση).

Όταν η μόλυνση από τα φυσιολογικά κύτταρα αυξήθηκαν πάνω από 50% (ποσοστό πρόσμιξη = 0.6), και οι τρεις μέθοδοι που υπέστη στην εξουσία και την ακρίβεια στην ανίχνευση της απώλειας αντίγραφο ή κέρδος. Για παράδειγμα, όταν το ποσοστό είναι 0,6 ανάμιξη, η αναμενόμενη αναλογία σωματικά για μία απώλεια αντίγραφο και ένα κέρδος αντίγραφο είναι 0,8 και 1,2. Έτσι, οι τιμές αποκοπής που χρησιμοποιούνται στις προηγούμενες συγκρίσεις μπορεί να είναι πολύ αυστηρές για να προσδιορίσει τα γεγονότα SCNA. Αυτό υποδηλώνει τη σημασία της ρύθμισης παραμέτρων για το ποσοστό πρόσμιξη σε SCNA κλήση.

Η ρητή μοντελοποίηση πρόσμιξη ποσοστό

Όπως αναφέραμε, ένας άγνωστος κλάσμα των φυσιολογικών κυττάρων και η ετερογένεια του πληθυσμού των καρκινικών κυττάρων είναι δύο παράγοντες που απαιτούν ιδιαίτερη προσοχή στις αναλύσεις των δειγμάτων όγκου. Ξεκινάμε εξηγώντας πώς ο ρυθμός πρόσμιξη θα επηρεάσει SCNAs καλώντας χρησιμοποιώντας ένα υποθετικό παράδειγμα. Για ένα δείγμα όγκου με 0, 1, 3 και 4 αντίγραφα σε διαφορετικά τμήματα χρωμοσωμικών είναι αναμειγμένα με 40% ενός ζεύγη κανονικού δείγματος με 2 αντίγραφα, τα αναμενόμενα σωματικών αναλογίες είναι 0.4, 0.7, 1.3, και 1.6, αντίστοιχα. Χωρίς προσαρμογή για το ρυθμό πρόσμιξη, οι συναχθεί copy-αριθμοί θα είναι 1, 2 (ή 1), 2 (ή 3), και 3, αντίστοιχα. Σε αυτή την περίπτωση, διπλή διαγραφές θα λανθασμένα ονομάζεται ως lohs, ενώ αληθινή lohs θα ήταν σχεδόν μη ανιχνεύσιμη με αποτέλεσμα ανακριβή συμπέρασμα σχετικά με τον αριθμό αντιγράφων. Ένα βασικό παρατήρηση εδώ είναι ότι υπάρχει μια συνολική μετατόπιση των αναμενόμενων σωματικών αναλογιών από αυτά χωρίς καμία μόλυνση, και αυτή η γενική μετατόπιση θα μπορούσε να χρησιμοποιηθεί για να συναχθεί το ποσοστό πρόσμειξης. Ωστόσο, υπάρχουν δύο επιπλοκές για να επωφεληθούμε από αυτή την παρατήρηση: πρώτον, οι τύποι των SCNAs είναι άγνωστη (π.χ. υπάρχουν 4 τύποι στο υποθετικό παράδειγμά μας)? Δεύτερον, η παρουσία του subclonal SCNAs μπορεί να περιπλέξει περαιτέρω το προφίλ σωματικά αναλογία και, κατά συνέπεια, να επηρεάσει τον αριθμό αντιγράφων. Για να αντιμετωπιστούν αυτά τα ζητήματα με συνεκτικό τρόπο, έχουμε αναπτύξει ένα μοντέλο πιθανοτήτων κάτω από ένα πλήρες Bayesian πλαίσιο όπως περιγράφεται κατωτέρω.

Η βασική ιδέα πίσω από την εκτίμηση ποσοστό πρόσμιξη σε SomatiCA είναι ότι οι σωματικές αναλογίες κλωνική τμήματα επικεντρώνεται γύρω από ένα ορισμένο διακριτό επίπεδο, ενώ εκείνες των subclonal τμήματα δεν έχουν περιορισμούς. Ως εκ τούτου, με βάση τα σωματικά λόγο της, κάθε τμήμα γονιδιώματος μπορεί είτε να ανατεθεί έναν ακέραιο αριθμό αντιγράφων ή ταξινομούνται ως subclonal εκδήλωση. Το ποσοστό των αναμειγμένα φυσιολογικά κύτταρα μπορεί να εκτιμηθεί από τη μετατόπιση των σωματικών αναλογιών κλωνική SCNAs από τις προσδοκίες τους σε ένα καθαρό και ομοιογενές δείγματα όγκων. Για να επιτευχθεί αυτό, θα υπολογίζεται πρώτα το πιο πιθανό αριθμό των εξαρτημάτων από την είσοδο της διανομής σωματικά αναλογία, στη συνέχεια, τοποθετείται ένα Bayesian μοντέλο πεπερασμένων μείγμα να ορίσετε τον αριθμό αντιγράφων για κάθε τμήμα με βάση την αντίστοιχη οπίσθια πιθανότητα, και τέλος υπολογίζεται το ποσοστό πρόσμιξη με ένα βέλτιστη λύση εισφέρει εξήγηση του αριθμού αντιγράφων μετατόπιση όλων των κλώνων τμήματα από ακέραιο επίπεδα.

το μοντέλο μας είναι παρόμοια με ΑΠΟΛΥΤΗ [17], ένα Gaussian μοντέλο μείγμα να προσδιορίσει την καθαρότητα των όγκων και πλοειδίας σε arrayCGH ή low-pass δεδομένα αλληλουχίας, με τις μεγάλες διαφορές στις παραδοχές είναι: 1) απόλυτη προϋποθέτει μια ομοιόμορφη κατανομή στο subclonal γεγονότα? σε SomatiCA, οι subclonal γεγονότα προσδιοριστούν με βάση τις οπίσθιες πιθανότητες, δηλαδή, η αναχώρηση από ακέραιο αριθμό αντιγράφων? 2) ΑΠΟΛΥΤΗ περιορίζει την γονιδιωματική μάζα κατανέμεται σε κάθε αντίγραφο κατάστασης, ενώ SomatiCA όχι. Επιπλέον, αυτές οι δύο μέθοδοι λαμβάνουν διαφορετικές ποσότητες ως είσοδο. ΑΠΟΛΥΤΗ παίρνει το αντίγραφο αναλογία ως είσοδο, μια ποσότητα που μετρά την τοπική κλιματισμού δοσολογία DNA στην ανευπλοειδία του όγκου, ενώ SomatiCA χρησιμοποιεί το σωματικό δείκτη, το οποίο είναι ένα απόλυτο μέτρο μεταξύ φυσιολογικών και καρκινικών δειγμάτων χωρίς κλιματισμό στο παγκόσμιο μέτρο της πλοειδίας όγκου (ταυτόσημη κάλυψη για δύο βιβλιοθήκες υποτίθεται). Η χρήση των σωματικών αναλογία ελευθερώνει SomatiCA από την εκτίμηση της πλοειδίας. Αντί να ψάχνουν όλα τα εφικτά συνδυασμούς πλοειδίας και ο ρυθμός πρόσμιξη, SomatiCA ψάχνει μόνο για μια λύση του ρυθμού πρόσμιξη με το σωματικό αναλογία 1 αντιστοιχεί στον αριθμό ακέραιο αντίγραφο 2.

Αξιολογήσαμε την απόδοση της μεθόδου μας χρησιμοποιώντας 90 προσομοίωση γονιδιωμάτων καρκίνο. SomatiCA δημιουργούνται ακριβής εκτίμηση του ποσοστού πρόσμιξη ακόμη και όταν η κάλυψη ήταν τόσο χαμηλά όσο 20 ×. Ως σύγκριση, υπολογίζεται επίσης το ποσοστό πρόσμιξη με απόλυτη και μια παραλλαγή του ASCAT. ASCAT χρησιμοποιεί BAF και αναλογία LOGR (κλιματισμού στο ανευπλοειδίας του όγκου) για την εκτίμηση πλοειδίας του όγκου και της καθαρότητας, η οποία δεν είναι άμεσα εφαρμόσιμο στα δεδομένα μας. Στις συγκρίσεις μας, χρησιμοποιήσαμε μία παραλλαγή του αλγορίθμου ASCAT που διατήρησε τα κύρια χαρακτηριστικά του: υπολογίσαμε την συνολική απόσταση σε αλληλομόρφων λύση ακέραιο αριθμό αντιγράφων για κάθε κατηγορία και αθροιστικά για όλα τα τμήματα? τότε ψάξαμε για λύση του ρυθμού πρόσμιξη που ελαχιστοποίησε τη συνολική απόσταση. Για την απόλυτη, μεταξύ των κορυφαίων πέντε πιθανούς συνδυασμούς του ρυθμού πρόσμιξη και πλοειδίας (κατά πιθανότητα), επιλέξαμε το ένα με αναλογία αντίγραφο του 1 αντιστοιχεί στον αριθμό αντιγράφων ακέραιος από 2 ως το τελικό διάλυμα. Τα αποτελέσματα συνοψίζονται στο Σχήμα 3 δείχνουν ότι SomatiCA έχει συγκρίσιμη απόδοση με απόλυτη και υπερτερεί ASCAT.

Τόσο SomatiCA και απόλυτη υπερτερεί ASCAT-παραλλαγή. SomatiCA επιτυγχάνει συγκρίσιμες επιδόσεις με ΑΠΟΛΥΤΗ με λίγους περιορισμούς και λιγότερο υπολογιστικό φόρτο.

Η

Πιστεύουμε ότι δύο λόγοι συνέβαλαν στην καλύτερη απόδοση των SomatiCA σε σύγκριση με ASCAT-παραλλαγή. Πρώτον, ASCAT υπολογίζει τον αριθμό αντιγράφων ακέραιο για κάθε τμήμα χρησιμοποιώντας τον ακέραιο που βρίσκεται πλησιέστερα προς την παρατηρούμενη σωματικών αλληλόμορφες αντίγραφο. Όταν ο ρυθμός πρόσμιξη είναι υψηλή, η προσέγγιση αυτή είναι προβληματική. Για παράδειγμα, όταν το ποσοστό είναι 0,6 ανάμιξη, το σωματικό αντίγραφο του διπλού διαγραφή είναι 1,2. Ο ακέραιος αριθμός αντιγράφων για αυτό το διπλό γεγονός διαγραφή αποδίδεται ως 1 αντί 0. Αντίθετα, SomatiCA προ-υπολογίζει τον αριθμό των πιθανών διακριτών επιπέδων από το ιστόγραμμα των σωματικών αναλογιών και εκχωρεί τη ακέραιο αριθμό αντιγράφων με βάση τη σειρά διακριτών του επίπεδο με τη χρήση του επιπέδου 2 αντιγράφου ως σημείο αναφοράς. Ως εκ τούτου, εξακολουθεί να είναι σε θέση να την εκτίμηση του απόλυτου αριθμού αντιγράφων καλά με υψηλή ακρίβεια όταν ο ρυθμός πρόσμιξη είναι υψηλό. Δεύτερον, ASCAT βελτιστοποιεί πάνω από όλα τα SNPs, ενώ SomatiCA λαμβάνει υπόψη την επίδραση των ενδο-όγκου subclonal ετερογένεια και βελτιστοποιεί μόνο πάνω από κλωνική γεγονότα. Η προσέγγιση αυτή αντισταθμίζει την υποτίμηση από τη βελτιστοποίηση με όλα τα τμήματα.

Επιπλέον, SomatiCA επιτυγχάνει συγκρίσιμες επιδόσεις με ΑΠΟΛΥΤΗ με λίγους περιορισμούς και λιγότερο υπολογιστικό φόρτο. SomatiCA δεν περιορίζει την γονιδιωματική μάζα κατανέμεται σε κάθε αντίγραφο-κράτος, ή τη σχετική αναλογία των υποκλώνων. Δυναμικό υποκλώνους, που προσδιορίζονται από χαμηλή οπίσθιο πιθανοτήτων, εξαιρούνται από την εκτίμηση πρόσμιξη ρυθμό. Με την παραδοχή του λόγου αντιγράφου 1 αντιστοιχεί στον αριθμό των αντιγράφων ακέραιος αριθμός 2, SomatiCA βελτιστοποιεί μόνο πάνω από μια παράμετρο – πρόσμιξη ποσοστό, το οποίο μειώνει το βάρος της ταυτόχρονης εκτίμησης του ρυθμού πρόσμιξη και πλοειδίας. Ο μέσος χρόνος της CPU λειτουργίας για την εκτίμηση ποσοστού πρόσμιξη σε SomatiCA είναι 27,5 δευτερόλεπτα (5000 MCMC βήματα), ενώ η απόλυτη (πλοειδία κυμαινόταν 0,95 – 4) ανέρχεται σε 450 δευτερόλεπτα. Σε SomatiCA, η πλοειδία μπορεί να εκτιμηθεί από το μέσο όρο αριθμού αντιγράφων πάνω από το γονιδίωμα μετά την προσαρμογή για το ποσοστό πρόσμειξης.

Εξετάσαμε περαιτέρω σε προσομοίωση γονιδιώματα με υψηλή φυσιολογική μολύνσεις όπου το ποσοστό πρόσμιξη ήταν 0,6. Εμείς συναχθεί τον αριθμό αντιγράφων για SCNAs ανιχνεύονται από αυτά προσομοίωση γονιδιώματα με ρύθμιση χρησιμοποιώντας εκτιμώμενο ποσοστό πρόσμιξη από SomatiCA, και συνέκριναν τα αποτελέσματα με τον αριθμό αντιγράφων συναχθεί χωρίς καμία προσαρμογή, και εκείνοι με ρύθμιση χρησιμοποιώντας ένα ποσοστό πρόσμιξη 0,2 και εκείνων που χρησιμοποιούν 0,4. Όπως φαίνεται στο σχήμα S2, η εκτίμηση από SomatiCA βοήθησε να αυξηθεί η ακρίβεια του τεκμαιρόμενη αντίγραφο αριθμό συμπερασματολογία για SCNAs σε σχέση με τον καθορισμό συντελεστή πρόσμιξη σε προκαθορισμένο (και λανθασμένη) επίπεδα.

χαρακτηρισμό Subclonality

Η παρουσία της γενετικής ποικιλομορφίας μέσα σε δείγματα όγκων, δηλαδή, subclonality, προσφέρει σημαντικές ενδείξεις για την εξέλιξη του όγκου. Ακριβής συμπέρασμα της κατάστασης αριθμού αντιγράφων μέσω της προσαρμογής των πρόσμιξη ρυθμού παρέχει ευκαιρίες για SomatiCA να εντοπίσει subclonal αλλαγές στο πλαίσιο των κυρίαρχων αυτά. SomatiCA χαρακτηρίζει την subclonality για κάθε τμήμα με την εκτέλεση δοκιμών υπόθεση. Υπολογίζει πρώτα τον αριθμό αντιγράφων για κάθε τμήμα στον έλεγχο φυσιολογικό δείγμα. Στη συνέχεια, ελέγχει αν μεταβολή αριθμού αντιγράφων στο αντίστοιχο δείγμα όγκου μπορεί να οδηγήσει σε αλλαγή του ακριβώς ένα αντίγραφο του ένα αλληλόμορφο. Στη μελέτη προσομοίωσης μας, έχουμε τοποθετήσει 4-5 SCNAs (μεγαλύτερη από 10 Mb, subclonal ποσοστό 0,2 ή 0,4) στο χρωμόσωμα 12 έως 15 σε κάθε γονιδιώματος του καρκίνου προσομοίωση. Συνολικά, για κάθε συνδυασμό ρυθμού πρόσμιξη και την κάλυψη, υπάρχουν 46 αληθώς θετικά subclonal εκδηλώσεις σε δέκα προσομοίωση γονιδιωμάτων καρκίνο. Οι subclonal κλήσεις από άλλα χρωμοσώματα είναι ψευδή θετικά, που προκύπτει είτε από την υποεκτίμηση των κλωνική γεγονότων ή εσφαλμένης ταξινόμησης αριθμού αντιγράφων ουδέτερη εκδήλωση. Όταν ο ρυθμός πρόσμιξη είναι 0,2 ή 0,4, SomatiCA ανακτηθεί το 87% της πραγματικής subclonal γεγονότα (40 από 46) και αναφέρθηκαν 8 ψευδώς θετικά κατά μέσο όρο. Όταν ο ρυθμός πρόσμιξη είναι 0.6, SomatiCA ήταν ακόμη σε θέση να ανακτήσει το 84% της πραγματικής subclonal γεγονότα αλλά αναφερθεί 20 ψευδώς θετικά. 95% των ψευδώς θετικών γεγονότων subclonal οι ταξινομείται εσφαλμένα από τον αριθμό αντιγράφων ουδέτερη γεγονότα. Αυτό το αποτέλεσμα δείχνει ότι SomatiCA επιτυγχάνει υψηλή ακρίβεια για την ανίχνευση των κλώνων γεγονότα. Ωστόσο, όταν το ποσοστό ανάμιξη γίνεται μεγαλύτερο, πιο ψευδώς θετικά κλήσεις θα προκύψουν από τον εσφαλμένο χαρακτηρισμό των αριθμού αντιγράφων ουδέτερη γεγονότα.

Αίτηση TCGA αναφοράς 4

δεδομένων

Χρησιμοποιήσαμε τη μετάλλαξη TCGA καλώντας αναφοράς 4 σύνολα δεδομένων για να αξιολογήσει την απόδοση των SomatiCA και άλλων σχετικά με τα πραγματικά δεδομένα. Όλη αυτή η δέσμη στοιχείων αναφοράς γονιδιώματος είναι ιδανικό για μια τέτοια αξιολόγηση, επειδή αποτελείται από τεχνητά μικτών δειγμάτων με το ποσοστό των δειγμάτων όγκου σε μια κλίση από 20% έως 95%. Εμείς επικέντρωσε την ανάλυσή μας στις 7 μικτά δείγματα HCC1143 αλληλουχία σε 30 × (Πίνακας 1). Για κάθε δείγμα, πραγματοποιήσαμε την πρώτη τμηματοποίηση εφαρμοστεί σε SomatiCA και υπολογίζονται τα σωματικών αναλογιών χρησιμοποιώντας HCC1143 30 × κανονικό δείγμα ως ζεύγος. Ρυθμίζουμε την διάμεσο της βιβλιοθήκης όγκου, έτσι ώστε οι διάμεσοι δύο ήταν τα ίδια. Τότε μπορούμε εισόδου σωματικές αναλογίες με SomatiCA, ASCAT-παραλλαγή και απόλυτη. Για κάθε δείγμα, ΑΠΟΛΥΤΗ εξόδου 19 εφικτό συνδυασμούς ποσοστό πρόσμιξη και πλοειδίας (το επιτρεπόμενο εύρος της πολλαπλότητας που να είναι 0,95 έως 4), η οποία καλύπτει ένα ευρύ φάσμα. Πάρτε δείγμα HCC1143.n60t40 ως παράδειγμα (60% φυσιολογικά κύτταρα αναμιγνύονται με κύτταρα όγκου 40%), το εκτιμώμενο ποσοστό πρόσμιξη κυμαίνονταν από 0,32 να 0,84. Για να ταιριάζει με τη βασική παραδοχή στην SomatiCA, είμαστε το χέρι που επιλέγεται ΑΠΟΛΥΤΗ λύσεις με την αναλογία αντίγραφο του 1 αντιστοιχεί στον ακέραιο αριθμό αντιγράφων των 2 (ή). Ωστόσο, οφείλουμε να παρατηρήσουμε ότι επιλέγονται ΑΠΟΛΥΤΗ λύσεις κάτω από τα εν λόγω κριτήρια είναι πιο ακριβή από ό, τι λύσεις με κορυφαία SCNA-fit βαθμολογία λογαριθμική πιθανοφάνεια. Συνοψίζουμε τις περιγράφονται εκτιμήσεις στον Πίνακα 1. Συνολικά, SomatiCA έχει συγκρίσιμη απόδοση με ΑΠΟΛΥΤΗ. Τόσο υψηλές επιδόσεις ASCAT-παραλλαγή. Σε τρία πανομοιότυπα δείγματα με τη μόλυνση 25% από τα φυσιολογικά κύτταρα (αν και διαφορετικές ακίδα-in SNVs εισήγαγε), SomatiCA παράγονται πιο ακριβείς και σταθερές εκτιμήσεις. Το αποτέλεσμα αυτό υποδεικνύει ότι η αλληλογραφία από 1 έως ακέραιο αριθμό αντιγράφων των 2 μπορεί να είναι μια δίκαιη υπόθεση για να κάνει στα δεδομένα αλληλουχίας του καρκίνου με ένα αντιστοιχισμένο κανονικό δείγμα αλληλουχία σε συγκρίσιμο βάθος.

Η

Μετά από προσαρμογή για την αναμενόμενη πρόσμιξη ρυθμός, χρησιμοποιήσαμε SomatiCA να καλέσετε SCNAs για αυτά τα δείγματα. Το Σχήμα 4 δείχνει τα σωματικά αριθμού αντιγράφων και subclonality χαρακτηριστεί για 7 δείγματα αναλύσαμε. Το αποτέλεσμα είναι συνεπής απέναντι δείγματα με διαφορετική αναλογία ανάμιξης των φυσιολογικών κυττάρων, γεγονός που καταδεικνύει την ευρωστία του SomatiCA σε διαφορετικές έκταση της μόλυνσης. Ωστόσο, λόγω του δυναμικού μοντέλου υπερπροσαρμογής και αναπόφευκτο θέμα αναγνωρισιμότητας, SomatiCA δεν αναφέρει κανένα ποσοστό πρόσμιξη πάνω από 80%. Για TCGA αναφοράς 4 HCC1143.n80t20 δείγματος και HCC1143.n95t5 (αναμιγνύεται με 80% και 95% των φυσιολογικών κυττάρων), SomatiCA αναφερθεί μόνο τα αποτελέσματα κατάτμησης χωρίς προσαρμογή για το ποσοστό πρόσμειξης.

Το αποτέλεσμα κλήση είναι συνεπής σε δείγματα με διαφορετικές ανάμειξη ποσοστό των φυσιολογικών κυττάρων, γεγονός που καταδεικνύει την ανθεκτικότητα του SomatiCA σε διαφορετικό βαθμό της μόλυνσης.

η

εφαρμογή SomatiCA σε ένα δείγμα GBM

Θα εφαρμοστεί SomatiCA με το σύνολο των δεδομένων γονιδιώματος σε η ολοκληρωμένη πλατφόρμα Γονιδιωματική ενός ασθενή με διάγνωση πρωτογενούς γλοιοβλάστωμα (GBM) (αδημοσίευτα δεδομένα). Στο Σχήμα S3 και S4, δείχνουμε την τμηματοποίηση από SomatiCA και η σύγκριση της με την CBS και cumSeg χρησιμοποιώντας χρωμοσωμάτων 7 και 10 αντίστοιχα. Το εκτιμώμενο ποσοστό πρόσμιξη για αυτό το δείγμα ήταν 37,1%. Μετά την προσαρμογή για το ρυθμό πρόσμιξη, εντοπίσαμε 121 SCNAs με μεγέθη που κυμαίνονται από 3428 bp σε ένα ολόκληρο χρωμόσωμα. Αυτά SCNAs περιλαμβάνεται ένα κέρδος αντίγραφο σε ολόκληρο το χρωμόσωμα 7, ένα κέρδος αντίγραφο για ολόκληρο το χρωμόσωμα 9, και τα δύο lohs και αντίγραφο ουδέτερη lohs στο χρωμόσωμα 10. Εμείς περαιτέρω σύγκριση αυτών των SCNAs με 20 γνωστούς οδηγούς GBM που αναφέρονται στο [21] και διαπίστωσε ότι αυτά SCNAs έδειξε επικάλυψη με 15 από τους 20 γνωστούς οδηγούς GBM. Μεταξύ αυτών, η ενίσχυση για CDK6, EGFR και ΚΟΑ, και η διαγραφή στο NF1 είναι κλωνική, ενώ άλλες εκδηλώσεις είναι subclonal.

Συζήτηση

Σε αυτό το άρθρο, έχουμε περιγράψει ένα νέο υπολογιστικό πλαίσιο, SomatiCA, για τον εντοπισμό SCNAs από τα δεδομένα αλληλουχίας του καρκίνου. Αναπτύχθηκε για την αντιμετώπιση της μόλυνσης και της ετερογένειας σε δείγματα όγκων, δύο μεγάλες προκλήσεις στην ανάλυση του γονιδιώματος του καρκίνου. Εκτεταμένες προσομοιώσεις έχουν δείξει την καλύτερη απόδοση των μεθόδων μας κατά τη διάρκεια των υφισταμένων

SomatiCA έχει υλοποιηθεί ως τέσσερις λειτουργικές ενότητες R:. Αρχική κατάτμηση, την εκτίμηση των σωματικών αναλογία με τον κατακερματισμό της φινέτσα, την προσαρμογή για το ποσοστό πρόσμιξη και το χαρακτηρισμό subclonality . Κάθε μονάδα στο SomatiCA μπορεί να κληθεί ανεξάρτητα. Είναι εύκολο να εφαρμόσει προσαρμοσμένες διαδικασία που ενσωματώνουν μία ή όλες τις ενότητες από SomatiCA. Αν και τα δεδομένα παρακίνηση της ανάπτυξης των SomatiCA παρήχθησαν από την πλήρη γονιδιωματική πλατφόρμα, η είσοδος να είναι SomatiCA το RD και LAF για όλα τα ζεύγη θέσεις SNP, καθιστώντας γενικά εφαρμόσιμη για την ανάλυση των δεδομένων από άλλες πλατφόρμες. SomatiCA είναι επίσης επεκτάσιμη, επειδή η κατάτμηση σε διαφορετικά χρωμοσώματα μπορεί να παραλληλιστεί (βλέπε κείμενο S2 για ένα εγχειρίδιο του πακέτου SomtiCA).

Παρά τα πολλά πλεονεκτήματα, μπορούμε να σημειωθεί ότι υπάρχουν αρκετές επιφυλάξεις για τη χρήση SomatiCA.

Πρώτα απ ‘όλα, SomatiCA απαιτεί χαρτογράφηση σε ένα γονιδίωμα αναφοράς και γονότυπο καλώντας ως βήματα προ-επεξεργασίας. Έχει αποδειχθεί ότι η mappability, GC-περιεχόμενο προκατάληψη και την ποιότητα μέτρο ελέγχου των διαβάζει όλα επηρεάζουν διαβάσετε βάθη έτσι CNV καλώντας [22]. Παρά το γεγονός ότι οι επιπτώσεις αυτών των ζητημάτων μπορεί να μειωθεί σε SCNA καλώντας με ζεύγη δειγμάτων φυσιολογικού όγκου σε κάποιο βαθμό, ειδικές προφυλάξεις απαιτούνται ακόμη όσον αφορά την επιλογή των νάρθηκες, φίλτρα ποιότητα χαρτογράφηση και καλούντες γονότυπο. βάθος αλληλουχίας μπορεί επίσης να επηρεάσει την απόδοση της SomatiCA. SomatiCA αναπτύχθηκε στα δεδομένα αλληλουχίας με μια αξιοπρεπή κάλυψη του 30 × ή υψηλότερη. Για δείγματα χαμηλή κάλυψη (για παράδειγμα, 0,01-0,5 ×), προτείνουμε εξειδικευμένες μεθόδους, όπως η BIC-seq [23] και CNAnorm [24].

Δεύτερον, η κατάτμηση σε SomatiCA βασίζεται στα σημεία αλλαγής ανιχνεύονται από το CBS. Σε μια πρόσφατη μελέτη, Cai et al [25] ανέφεραν ότι CBS είχε ανεπάρκεια στην ανίχνευση του αραιά και σύντομα τμήματα με διάστημα μήκη λιγότερο από 40 σημεία δεδομένων. Επίσης, έχει αποδειχθεί σε μελέτες προσομοίωσης μας ότι τμήματα με μόνο μερικές δείκτες τείνουν να αγνοηθεί από το CBS και συνεπώς από SomatiCA. Χαμηλή ευαισθησία σε μικρά τμήματα επιδεινώνεται περαιτέρω από τη χρήση του αραιωμένου σήματος από ετερόζυγο sites. Ως εκ τούτου, SomatiCA, όπως εφαρμόζεται σήμερα, μπορεί να μην είναι κατάλληλο για αραιή και μικρή ανακάλυψη τμήμα στα δεδομένα αλληλουχίας του καρκίνου. Αυτό είναι ένα κοινό πρόβλημα για τις μεθόδους που χρησιμοποιούν BAF (LAF). Σύμφωνα με μια έρευνα του 3131 δειγμάτων καρκίνου, η διάμεση διάρκεια της εστίασης SCNAs αναφέρθηκε να είναι 1,8 Mb (εύρος 0,5 kb-85 Mb). Να προσδιορίσει ένα ευρύ φάσμα SCNAs από μερικές εκατοντάδες ζεύγη βάσεων σε ακόμη ένα χρωμόσωμα, σας προτείνουμε να εξετάσει συμπληρωματικές προσεγγίσεις στην πράξη. Η μέθοδος κατάτμησης σε SomatiCA εμπίπτει στην κατηγορία των παγκόσμιων προσεγγίσεων, οι οποίες απαιτούν σημεία διάλειμμα μέσω δοκιμών στο πλαίσιο ενός ολόκληρου χρωμοσώματος. Τοπικές προσεγγίσεις, οι οποίες αναφέρονται σε εκείνες τις μεθόδους που στοχεύουν στον εντοπισμό SCNAs συγκρίνοντας την RD στο γονιδίωμα του όγκου με εκείνη της αντιστοιχισμένης κανονικής γονιδιώματος σε κάθε γονιδιωματική θέση (ή παράθυρο), όπως BIC-seq [23], CNVseg [12] ή SegSeq [2], μπορεί να βοηθήσει στον εντοπισμό μικρά τμήματα με σάρωση του γονιδιώματος με ένα μικρό μέγεθος του παραθύρου.

You must be logged into post a comment.