PLoS One: SurvExpress: Μια Online βιοδεικτών Validation Tool και βάση δεδομένων για Cancer Gene Expression Δεδομένων Χρήση Επιβίωση Analysis


Αφηρημένο

Επικύρωση των πολλαπλών γονιδίων βιοδεικτών για την κλινική έκβαση είναι ένα από τα πιο σημαντικά ζητήματα για την πρόγνωση του καρκίνου. Μια σημαντική πηγή πληροφοριών για την εικονική επικύρωση είναι ο μεγάλος αριθμός των διαθέσιμων συνόλων δεδομένων καρκίνου. Παρ ‘όλα αυτά, η αξιολόγηση της προγνωστικής απόδοση της υπογραφής της γονιδιακής έκφρασης μαζί σύνολα δεδομένων είναι ένα δύσκολο έργο για Βιολόγους και γιατροί, αλλά και χρονοβόρα για τους στατιστικολόγους και βιοπληροφορικής. Ως εκ τούτου, για να διευκολυνθούν οι συγκρίσεις των επιδόσεων και επικυρώσεις των βιοδεικτών επιβίωσης για τα αποτελέσματα του καρκίνου, αναπτύξαμε SurvExpress, μια βάση δεδομένων γονιδιακής έκφρασης του καρκίνου σε επίπεδο με τις κλινικές εκβάσεις και μια web-based εργαλείο που παρέχει ανάλυση επιβίωσης και την αξιολόγηση κινδύνου των συνόλων δεδομένων καρκίνου. Η κύρια είσοδος του SurvExpress είναι μόνο η λίστα γονίδιο βιοδεικτών. Έχουμε δημιουργήσει μια βάση δεδομένων του καρκίνου συλλογή πάνω από 20.000 δείγματα και 130 σύνολα δεδομένων με λογοκρίνονται κλινικές πληροφορίες που καλύπτουν όγκους πάνω από 20 ιστούς. Έχουμε εφαρμόσει μια διεπαφή web για να εκτελέσει την επικύρωση βιοδεικτών και συγκρίσεις σε αυτή τη βάση δεδομένων, όπου μια πολυπαραγοντική ανάλυση επιβίωσης μπορεί να επιτευχθεί σε περίπου ένα λεπτό. Έχουμε δείξει την χρησιμότητα και την απλότητα της SurvExpress σε δύο αιτήσεις βιοδείκτη για καρκίνο του μαστού και του πνεύμονα. Σε σύγκριση με άλλα εργαλεία, SurvExpress είναι το μεγαλύτερο, πιο ευέλικτο και πιο γρήγορος δωρεάν εργαλείο διαθέσιμο. SurvExpress web μπορεί να έχει πρόσβαση σε https://bioinformatica.mty.itesm.mx/SurvExpress (ένα φροντιστήριο περιλαμβάνεται). Η ιστοσελίδα υλοποιήθηκε σε JSP, JavaScript, MySQL, και R.

Παράθεση: Aguirre-Gamboa R, Gomez-Rueda H, Martínez-Λεντέσμα E, Martínez-Torteya Α, Chacolla-Huaringa R, Rodriguez-Barrientos Α, et al. (2013) SurvExpress: Μια Online βιοδεικτών Validation Tool και βάση δεδομένων για Cancer Gene Expression Δεδομένων Χρήση Ανάλυση Επιβίωσης. PLoS ONE 8 (9): e74250. doi: 10.1371 /journal.pone.0074250

Συντάκτης: William C. S. Cho, Queen Elizabeth Hospital, το Χονγκ Κονγκ

Ελήφθη: 21 Απρίλη του 2013? Αποδεκτές: 31 Ιουλίου, 2013? Δημοσιεύθηκε: 16 Σεπτέμβρη 2013

Copyright: © 2013 Aguirre-Gamboa et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Οι συγγραφείς είναι ευγνώμονες για την οικονομική στήριξη από Catedra de βιοπληροφορική CAT220 σε ITESM (Tecnológico de Monterrey) και CONACYT χορηγεί 83929 και 140601. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου.

Αντικρουόμενα συμφέροντα:. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Ο καρκίνος προκαλεί εκατομμύρια θανάτους σε όλο τον κόσμο. Να βελτιωθούν οι θεραπείες, έχουν πολλές βιοδείκτες έχουν προταθεί για την πρόγνωση του κινδύνου και της ανταπόκρισης στη θεραπεία. Πρόσφατα δημοσιεύθηκε βιοδείκτες σε πολλούς τύπους καρκίνου περιέχουν πολυάριθμα γονίδια και βασίζονται κυρίως επί της έκφρασης γονιδίου. Έχουν δημιουργηθεί χρησιμοποιώντας μικροσυστοιχίες προφίλ και τα τελευταία χρόνια με τεχνολογίες RNA-Seq. Συχνά, ταυτοποιούνται βιοδείκτες αναπτύσσονται σε ένα συγκεκριμένο ιστό του καρκίνου και υποτύπους. Στον καρκίνο του μαστού, για παράδειγμα, πάνω από 40 βιοδείκτες έχουν προταθεί περιέχει μεταξύ 3 και 512 γονιδίων και των οποίων η προγνωστική ή προγνωστική απόδοση εξαρτάται από τη θεραπεία, ορμονικών υποδοχέων, και ο αριθμός των γονιδίων [1], [2]. Από την άλλη πλευρά, την αξιολόγηση της απόδοσης των προτεινόμενων βιοδεικτών σε διαφορετικούς πληθυσμούς ή την αξιολόγηση ανταγωνιστικών βιοδείκτες είναι δύσκολα καθήκοντα παρόλο που εκατοντάδες δημόσια σύνολα δεδομένων είναι διαθέσιμα. Οι βασικοί περιορισμοί είναι ο χρόνος και οι πόροι που απαιτούνται για την απόκτηση, επεξεργασία, ομαλοποίηση, το φιλτράρισμα, και στατιστική μοντελοποίηση των μεγάλων συνόλων δεδομένων γονιδιακής έκφρασης. Αυτό είναι σημαντικό, δεδομένου ότι πολλά από τους λόγους που εμπλέκονται στην αποτυχία των βιοδεικτών σε κλινικές δοκιμές έχουν σχέση με την ανάλυση των δεδομένων [3]. Για την ανάλυση των βιοδεικτών, εργαλεία όπως ITTACA, KmPlot, RecurrenceOnline, BC-GeneExMiner, gobo και PrognoScan έχουν προταθεί [1], [4] – [9]. Ωστόσο, τα εργαλεία αυτά έχουν σοβαρούς περιορισμούς (Πίνακας 1), περιπλέκοντας και περιορίζοντας την αξιολόγηση των πολλαπλών γονιδίων βιοδείκτες στον καρκίνο. Μερικά από τα κύρια περιορισμοί περιλαμβάνουν την εξέταση μόνο ένα γονίδιο κατά τη στιγμή ή ένα συγκεκριμένο σύνολο των γονιδίων? εστιάζοντας σε καρκίνο του μαστού ή των ωοθηκών σύνολα δεδομένων ή σε μια συγκεκριμένη πλατφόρμα έκφρασης των γονιδίων Affymetrix? απαιτείται η αποστολή των δεδομένων γονιδιακής έκφρασης Affymetrix (αρχεία .CEL)? και χρησιμοποιώντας ένα ενιαίο ποσότητα ανά γονίδιο ακόμα κι αν μερικοί πλατφόρμες μικροσυστοιχιών παρέχει περισσότερες probesets.

Η

Για την επίλυση αυτών των ζητημάτων και να διευκολυνθούν οι συγκρίσεις των επιδόσεων και επικυρώσεις των προγνωστικών και προγνωστική βιολογικών δεικτών για τα αποτελέσματα του καρκίνου, έχουμε αναπτύξει SurvExpress. SurvExpress είναι ένα ολοκληρωμένο εργαλείο βάσης δεδομένων γονιδιακής έκφρασης και web-based παρέχει ανάλυση επιβίωσης και την εκτίμηση του κινδύνου σε σύνολα δεδομένων καρκίνου χρησιμοποιώντας μια λίστα γονίδιο βιοδείκτη ως είσοδο. Το εργαλείο είναι διαθέσιμο σε https://bioinformatica.mty.itesm.mx/SurvExpress. Το εργαλείο περιλαμβάνει ένα σεμινάριο που περιγράφει την ανάλυση επιλογών, οικόπεδα, πίνακες, βασικές έννοιες που σχετίζονται με την ανάλυση επιβίωσης, και αντιπροσωπευτικές μέθοδοι για τον εντοπισμό βιοδείκτες από τα δεδομένα γονιδιακής έκφρασης.

Υλικά και Μέθοδοι

Βάση Δεδομένων Απόκτηση

Σύνολα δεδομένων ελήφθησαν κυρίως από GEO (https://www.ncbi.nlm.nih.gov/geo/) και TCGA (https://tcga-data.nci.nih.gov) μετά την αναζήτηση για λέξεις-κλειδιά που σχετίζονται με τις τεχνολογίες του καρκίνου, την επιβίωση και την έκφραση του γονιδίου. Επιπλέον, μερικά ελήφθησαν από τις ιστοσελίδες του συγγραφέα και από ArrayExpress (https://www.ebi.ac.uk/arrayexpress/). Η πηγή δεδομένων που χρησιμοποιείται εμφανίζεται στη διεπαφή ιστού. Εμείς ευνοείται τύπους καρκίνου παραπάνω δόθηκαν δύο διαφορετικές ομάδες και σύνολα δεδομένων που περιέχουν δεδομένα επιβίωσης πάνω από 30 δείγματα στα οποία λογοκρισία δείκτη και το χρόνο μέχρι θανάτου, η επανάληψη, η υποτροπή ή μετάσταση. Κλινικών δεδομένων που παρέχονται από συγγραφείς σύνολο δεδομένων μέσω του προσωπικού ηλεκτρονικού ταχυδρομείου, όταν δεν είναι διαθέσιμα στο διαδίκτυο σε αντίστοιχες αποθετήρια. Σύνολα δεδομένων σχολιάστηκαν από τα αρχεία πάροχο όπως διαπιστώθηκε μέχρι τον Σεπτέμβριο του 2012, και ήταν ποσοστημόριο κανονικοποιημένη και log2 μεταμορφώνεται όταν χρειάζεται. Από TCGA, όλα τα σύνολα δεδομένων ελήφθησαν σε επίπεδο γονιδίου (επίπεδο 3). δεδομένων RNA-Seq μετρήσεις log2 μεταμορφωθεί. Σε ορισμένους τύπους καρκίνου, όπου πολλά σύνολα δεδομένων αποτελέσματα για την ίδια πλατφόρμα έκφρασης των γονιδίων, πρέπει επίσης να παρέχουν ένα συγχωνευθεί μετα-βάσης. Σε μετα-βάσεις, σύνολα δεδομένων ήταν ποσοστημόριο κανονικοποιημένη? probesets μέσα εξισώθηκαν διατήρηση της τυπικής απόκλισης από κάθε ομάδα? και σύνολα δεδομένων συγχωνεύθηκαν με probeset id. Αυτή τη στιγμή παρέχουμε μετα-βάσεις του μαστού, του πνεύμονα, και καρκίνου των ωοθηκών. Για να διευκολυνθεί η αναζήτηση των γονιδίων και τις μετατροπές μεταξύ του γονιδίου αναγνωριστικά, πληροφορίες ανθρώπινο γονίδιο που χρησιμοποιήθηκε και από την ιστοσελίδα NCBI FTP (ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz). Για την απλοποίηση της διεπαφής χρήστη, σύνολα δεδομένων ομαδοποιήθηκαν από σχετικό όργανο ή ιστό με τη χρήση οντολογιών νόσου [10].

Interface Web Εφαρμογή

Δύο απλό και ελαφρύ HTML διεπαφών χρήστη με βάση τις σελίδες διακομιστή Java, JavaScript , R, Ajax, Apache, MySQL και υλοποιήθηκαν (Εικόνα 1Α). Στο

Input

τη σελίδα, οι χρήστες εισάγουν τη λίστα γονίδιο με βάση τη συμβατή γονίδιο NCBI (επίσημο σύμβολο, Entrez, Ensembl, HGNC, ή άλλα) και επιλέξτε το σύνολο δεδομένων στόχου. Οι χρήστες μπορούν επίσης να επιλέξουν πώς να αντιμετωπίζουν τα γονίδια που έχουν περισσότερους από έναν ανιχνευτή. Η

Ανάλυση

σελίδα εξάγει τις γραμμές του συνόλου δεδομένων που σχετίζονται με τα γονίδια του βιοδείκτη και παρέχει μια διεπαφή Ιστού. Στη συνέχεια, οι χρήστες μπορούν να αξιολογήσουν την βιοδείκτη σε μια ποικιλία τρόπων, συμπεριλαμβανομένων ενεργοποίηση και απενεργοποίηση συγκεκριμένων γονιδίων, στρωματοποιητικό δείγματα από τα διαθέσιμα κλινικά δεδομένα (π.χ. στάδιο, βαθμός, ηλικία, βιοχημικά αποτελέσματα, και την κατάσταση μετάλλαξης), προσδιορίζοντας δείγματα εκπαίδευσης και δοκιμής, και σταθμίζοντας τα γονίδια αντί να χρησιμοποιήσετε την τοποθέτηση Cox. Τα αποτελέσματα εμφανίζονται στο κοινό και ευέλικτο οικόπεδα δημοσίευση-έτοιμο και τραπέζια στο εσωτερικό της

Ανάλυση

σελίδα. μπορούν επίσης να ληφθούν Μια έκδοση PDF των αποτελεσμάτων.

Πίνακας Α δείχνει ένα σχηματικό διάγραμμα της ροής εργασίας SurvExpress ενώ Πάνελ Β δείχνει στιγμιότυπα από τις διεπαφές tagging τα απαιτούμενα πεδία εισαγωγής. Στην πρώτη

Input

ιστοσελίδα, ο χρήστης μπορεί να επικολλήσετε τη λίστα των γονιδίων (ετικέτα με τον αριθμό 1, το οποίο μπορεί να είναι σύμβολα, αναγνωριστικό γονίδιο Εηίτεζ και άλλων στοιχείων) και να επιλέξετε το σύνολο δεδομένων από περίπου 140 διαθέσιμα σύνολα δεδομένων ( με ετικέτα 2 και 3). SurvExpress επικυρώνει και αναζητά τα γονίδια και το σύνολο δεδομένων για να δείξει το

Ανάλυση

ιστοσελίδα όπου ο χρήστης επιλέγει την λογοκρισία αποτελεσμάτων (ετικέτα 4) και οπτικοποιεί τα αποτελέσματα (κάτω δεξιά επεκτάθηκε στο Σχήμα 2). Η όλη διαδικασία μπορεί να επιτευχθεί σε λιγότερο από ένα λεπτό για ένα λογικό αριθμό γονιδίων.

Η

Προγνωστικοί Δείκτης Εκτίμηση

Η προγνωστική δείκτη (PI), επίσης γνωστό ως το σκορ του κινδύνου, χρησιμοποιείται συνήθως για να δημιουργήσουν ομάδες κινδύνου. Το PI είναι γνωστή ως η γραμμική συνιστώσα του μοντέλου Cox [11], PI =

β

1x

1+ β

2 φορές

2 + … + β

px

p

όπου

x

i

είναι η τιμή της έκφρασης και το

β

I

να ληφθούν από την τοποθέτηση Cox. Κάθε

β

I

μπορεί να ερμηνευθεί ως συντελεστής κινδύνου. SurvExpress υλοποιεί δύο διαδικασίες για την εκτίμηση των

β

συντελεστές. Η πρώτη διαδικασία είναι η κλασσική μοντέλο Cox όπου όλα τα γονίδια που περιλαμβάνονται σε ένα μοναδικό μοντέλο. Η τοποθέτηση γίνεται σε R (https://cran.r-project.org) χρησιμοποιώντας το

επιβίωση

πακέτο. Στη δεύτερη διαδικασία, ο χρήστης μπορεί να καθορίσει ένα βάρος για κάθε γονίδιο αντί του χρησιμοποιώντας τις τιμές από το εξάρτημα Cox. Μια τέτοια επιλογή είναι χρήσιμη για να κάνουν συγκρίσεις με βιοδείκτες υπολογίζεται με μαθηματικά μοντέλα, εκτός από Cox.

Εκτίμηση Κινδύνου

SurvExpress υλοποιεί δύο μεθόδους για να δημιουργήσει ομάδες υψηλού κινδύνου. Η πρώτη μέθοδος (προεπιλογή) δημιουργεί τις ομάδες κινδύνου διάσπαση του διέταξε PI (υψηλότερες τιμές για υψηλότερο κίνδυνο) από τον αριθμό των ομάδων υψηλού κινδύνου αφήνοντας ίσο αριθμό δειγμάτων σε κάθε ομάδα. Για δύο ομάδες κινδύνου, αυτό είναι ισοδύναμο με διάσπαση του PI από το διάμεσο. Η δεύτερη μέθοδος για την παραγωγή ομάδες κινδύνου χρησιμοποιεί έναν αλγόριθμο βελτιστοποίησης από τον διέταξε PI. Εν συντομία, για δύο ομάδες, μια δοκιμασία log-rank γίνεται κατά μήκος όλων των αξιών της τοποθετημένα PI. Στη συνέχεια, ο αλγόριθμος επιλέγει το σημείο διαχωρισμού, όπου το p-value είναι ελάχιστη. Η διαδικασία αυτή γενικεύεται για περισσότερες από δύο ομάδες επανειλημμένα τη βελτιστοποίηση μία ομάδα κινδύνου κατά το χρόνο έως ότου δεν παρατηρούνται αλλαγές. Οι λεπτομέρειες αυτής της διαδικασίας που περιγράφεται στο φροντιστήριο που παρέχονται στην ιστοσελίδα SurvExpress.

Έξοδοι

Τα αποτελέσματα περιλαμβάνονται αντιστοιχούν σε κοινές μετρήσεις και οικόπεδα που χρησιμοποιούνται για την αξιολόγηση της απόδοσης των στοιχείων επιβίωσης. Ένα παράδειγμα των αποτελεσμάτων που προκύπτουν από SurvExpress φαίνεται στο Σχήμα 2. Ο πίνακας Α δείχνει τα οικόπεδα Kaplan-Meier από την ομάδα κινδύνου, η δοκιμασία log-rank των διαφορών μεταξύ των ομάδων κινδύνου, την εκτίμηση κινδύνου-αναλογία, και τα ευρετήρια συμφωνία, η οποία εκτίμηση η πιθανότητα ότι τα άτομα με υψηλότερο κίνδυνο θα βιώσουν την εκδήλωση μετά από άτομα με χαμηλότερο κίνδυνο [12]. Πίνακας Β εμφανίζει μια οπτική σύνδεση των διαθέσιμων κλινικών πληροφοριών σε ομάδες υψηλού κινδύνου. Πάνελ C απεικονίζει ένα χάρτη θερμότητας αξιών γονιδιακής έκφρασης. Πάνελ Α δείχνει γραφικές παραστάσεις κουτί τιμών γονιδιακής έκφρασης σε όλες τις ομάδες γονίδιο μαζί με την ρ-τιμή της αντίστοιχης διαφοράς. Πίνακας Ε δείχνει το οικόπεδο βελτιστοποίησης ομάδα κινδύνου. Πίνακας ΣΤ παρουσιάζει θραύσματα τους πίνακες για τους συντελεστές βήτα, συμπεριλαμβανομένων αντίστοιχες τιμές p Cox, προγνωστική δείκτη ανά δείγμα, και Cox τοποθέτηση πληροφορίες από την επιβίωση

συσκευασία R. Άλλη προηγμένη οικόπεδα είναι επίσης διαθέσιμα στο φροντιστήριο που παρέχονται σε SurvExpress. Άλλες «προηγμένες οικόπεδα» περιλαμβάνουν SurvivalROC που υπολογίζει το χρόνο που εξαρτάται από τις ευαισθησίες και ιδιαιτερότητες για τις ομάδες κινδύνου επιβίωσης [13], αλλά χρειάζεται μερικά λεπτά για να υπολογίσει. Πρόσθετες οικόπεδα, τα στοιχεία και οι ερμηνείες των αποτελεσμάτων που περιγράφονται στο φροντιστήριο που παρέχονται στην ιστοσελίδα SurvExpress.

Αυτή η εικόνα δείχνει τα αποτελέσματα από καρκίνο του μαστού μετα-βάσης που περιλαμβάνονται στο SurvExpress. Ο πίνακας Α δείχνει την καμπύλη Kaplan-Meier για τις ομάδες κινδύνου, δείκτης συμφωνία, και p-τιμή του log-rank ισότητα δοκιμή των καμπυλών επιβίωσης. Πίνακας Β δείχνει κλινική διαθέσιμες πληροφορίες σχετικές με την ομάδα κινδύνου, προγνωστικές δείκτη, και τα δεδομένα αποτέλεσμα. Πίνακας Γ δείχνει μια αναπαράσταση χάρτη θερμότητας των τιμών γονιδιακής έκφρασης. Πίνακας Α παρουσιάζει ένα Θηκόγραμμα σε όλες τις ομάδες κινδύνου, συμπεριλαμβανομένης της δοκιμής p-value για τη διαφορά με τη χρήση t-test (ή f-test για περισσότερες από δύο ομάδες). Πίνακας Ε δείχνει τη σχέση μεταξύ των ομάδων κινδύνου και προγνωστικό δείκτη. Πίνακας ΣΤ παρουσιάζει θραύσματα των πινάκων με τη συνοπτική περιγραφή του εξαρτήματος Cox και των προγνωστικών δεικτών. Οι λεπτομέρειες παρέχονται στο SurvExpress Tutorial.

Η

Αποτελέσματα και εφαρμογές

Βάση δεδομένων

Αν και η συλλογή δεδομένων θα συνεχίσει, μέχρι σήμερα έχουμε συλλέξει γύρω από δείγματα 20.000 καρκίνο διανέμονται σε 140 σύνολα δεδομένων που καλύπτουν περισσότερο από το 20 ιστούς (Πίνακας 2). Ο κύριος περιορισμός για να συμπεριλάβει περισσότερα σύνολα δεδομένων ήταν ότι η απουσία λογοκρισία πληροφοριών σε αποθετήρια. Παρ ‘όλα αυτά, η συλλογή SurvExpress ξεπερνά εκείνη των παρόμοιων εργαλείων όσον αφορά την κάλυψη των ιστών, τον αριθμό των δειγμάτων, πολυπαραγοντική εκτίμηση προγνωστικό, και η λειτουργικότητα (Πίνακας 1). Από τους 20 τύπους καρκίνου, η πιο αντιπροσωπεύεται από τον αριθμό των συνόλων δεδομένων ήταν μαστού, αιματολογική, πνεύμονα, του εγκεφάλου, και των ωοθηκών, φθάνοντας περίπου το 70% της συλλογής δεδομένων. Είναι έκπληξη το γεγονός ότι τα περισσότερα από τα υπάρχοντα εργαλεία συγκεντρώνονται κυρίως στον καρκίνο του μαστού, ακόμη κι αν ένας παρόμοιος αριθμός των συνόλων δεδομένων είναι διαθέσιμος για άλλους τύπους καρκίνου. Κατά συνέπεια, ένα από τα άμεσα πλεονεκτήματα του SurvExpress είναι η διαθεσιμότητα να εκτελέσει ισχυρή ανάλυση για αυτά τα εξαιρετικά μελετηθεί τύπους καρκίνων. Επιπλέον, SurvExpress θα επιτρέψει την επικύρωση των βιοδεικτών σε τύπους καρκίνου που δεν έχουν εξεταστεί με άλλα εργαλεία, όπως νεφρού, ήπατος, του γαστρεντερικού, του παγκρέατος, των οστών, της κεφαλής και του λαιμού, και της μήτρας. Στο περιβάλλον web, μπορούμε επίσης να ενθαρρύνει τους χρήστες να προτείνουν ή να στείλετε τα στοιχεία για την αύξηση του καρκίνου και του συνόλου δεδομένων κάλυψης

Η

Web Interface

Οι δύο διεπαφές web περιλαμβάνει τρεις ενότητες:.

Είσοδος , Ανάλυση

και

Αποτελέσματα

(Εικόνα 1Β). Η

σελίδα εισόδου

εύκολα λειτουργεί πληκτρολόγηση ή την επικόλληση μια λίστα των γονιδίων και καθορίζοντας το σύνολο δεδομένων στόχου (αριθμοί 1 έως 3 στο Σχήμα 1Β). Περιλαμβάνει επίσης μια σύνδεση με το φροντιστήριο που περιγράφει όλες τις επιλογές και παρέχει ολοκληρωμένες ερμηνείες των αποτελεσμάτων. Η επακόλουθη

Ανάλυση

και

Αποτέλεσμα

σελίδα λαμβάνεται σε λίγα δευτερόλεπτα (περίπου 1 δευτερόλεπτο ανά γονίδιο και 200 ​​δείγματα). Στην

Ανάλυση

τμήμα, ο χρήστης καθορίζει την έκβαση του επιλεγμένου συνόλου δεδομένων στην οποία θα πραγματοποιηθεί η ανάλυση (αριθμός 4 στο σχήμα 1Β). Η

Αποτελέσματα

τμήμα (Σχήμα 2) λαμβάνεται λίγα δευτερόλεπτα μετά την υποβολή ανάλυσης. Αυτή η ενότητα περιλαμβάνει τις εξόδους, όπως καμπύλες Kaplan-Meier για τις ομάδες κινδύνου, οπτική σύγκριση των κλινικών πληροφοριών σε ομάδες κινδύνου, ένα χάρτη θερμότητας των τιμών γονιδιακής έκφρασης, οικόπεδα κουτί της γονιδιακής έκφρασης ανά ομάδα γονιδίων και του κινδύνου, σε οικόπεδο του κινδύνου διαδικασία βελτιστοποίησης της ομάδας, οι πίνακες των συντελεστών Cox, προγνωστικούς δείκτες, και Cox τοποθέτηση πληροφοριών, καθώς και ένα σύνδεσμο για να αποκτήσουν τα σενάρια R χρησιμοποιούνται.

Εκκαθάριση και Εφαρμογές

Λόγω των περιορισμών σε άλλα εργαλεία

, συγκρίσεις πολλαπλών γονιδίων σε όλη εργαλεία δεν ήταν δυνατό. Ακόμα, SurvExpress μπορεί να δώσει παρόμοια αποτελέσματα με άλλα εργαλεία, όταν χρησιμοποιείται ένα μόνο γονίδιο. Παρ ‘όλα αυτά, για να αξιολογηθεί η λειτουργικότητα και εκτιμήσεις των SurvExpress, πραγματοποιήσαμε δύο αναλύσεις αξιολόγηση της απόδοσης των γνωστών και πρότεινε προγνωστικούς βιοδείκτες. Χρησιμοποιήσαμε το βιοδείκτη OncotypeDX για υποτροπή στον καρκίνο του μαστού και των δύο δημοσιευθεί βιοδεικτών για την επιβίωση του καρκίνου του πνεύμονα.

OncotypeDX βιοδείκτη για τον καρκίνο του μαστού.

Ως παράδειγμα για τη δοκιμή ενός βιοδείκτη σε διάφορα σύνολα δεδομένων, χρησιμοποιήσαμε οι 16 OncotypeDX γονίδια [14]. OncotypeDX υπολογίζει ένα αποτέλεσμα επανάληψης που είναι κυρίως προσφέρονται σε πρώιμο στάδιο, τα οιστρογόνα θετικό, λεμφαδένων καρκίνου μαστού. Τα γονίδια που περιλαμβάνονται είναι

AURKA

,

BAG1

,

BCL2

,

BIRC5

,

CCNB1

,

CD68

,

CTSL2

,

ΕΚΒΒ2

,

ESR1

,

GRB7

,

GSTM1

,

MKI67

,

ΜΜΡ 11

,

MYBL2

,

PGR

, και

SCUBE2

(

ACTB

,

GAPDH

,

GUSB

,

RPLP0

, και

TFRC

γονίδια που χρησιμοποιούνται ως αναφορά στον προσδιορισμό RT-PCR δεν χρησιμοποιήθηκαν εδώ). Για την εκτίμηση της βαθμολογίας, OncotypeDX χρησιμοποιεί έναν αλγόριθμο στάθμιση ισοδυναμεί με βάρος πολλαπλασιαζόμενο με τους αντίστοιχους της γονιδιακής έκφρασης κανονικοποιούνται με αναφορά [14]. Σε SurvExpress χρησιμοποιήσαμε Cox εξάρτημα (ως προσέγγιση δεδομένου ότι τα στοιχεία έκφρασης του γονιδίου δεν είναι κανονικοποιημένη σε γονίδια αναφοράς) σε τέσσερα σύνολα δεδομένων του καρκίνου του μαστού (Πίνακας 3). Άλλες ρυθμίσεις ήταν η μέγιστη μέση γραμμή για τα γονίδια με πολλαπλά probesets, και δύο ομάδες κινδύνου χωρίζεται στο μέσο του προγνωστικού δείκτη. Για να ελέγξετε το βιοδείκτη σε διάφορες συνθήκες, τα σύνολα δεδομένων επελέγησαν ώστε να αντικατοπτρίσουν ασθενείς κατάλληλοι για τη δοκιμή (Wang [27] και Ivshina [26]), οι ασθενείς με μερικές πληροφορίες, εκτός από διαφορετική περίπτωση (TCGA [25]), και ασθενείς χωρίς κλινικές πληροφορίες (Kao [15]). Τα αποτελέσματα παρουσιάζονται στο Σχήμα 3 και συνοψίζονται στον Πίνακα 4 δείχνουν ότι, συνολικά, Oncotype DX μπορούν να διαχωρίσουν σημαντικά χαμηλού και υψηλού κινδύνου ομάδες στις τέσσερις σύνολα δεδομένων που δοκιμάστηκαν. Επιπλέον, ελήφθησαν ικανοποιητικά δείκτες της αντιστοιχίας και των περιοχών κάτω από την καμπύλη ROC. Αυτά τα αποτελέσματα μπορούν να ληφθούν χρησιμοποιώντας SurvExpress σε λίγα λεπτά. Να αποδείξει τα αναλυτικά χαρακτηριστικά του SurvExpress, πραγματοποιήσαμε επίσης την αξιολόγηση της επιβίωσης διαστρωμάτωσης των δειγμάτων χρησιμοποιώντας τους βαθμούς του όγκου που παρέχονται από συγγραφείς (AJCC Stage στο σύνολο δεδομένων TCGA και ποιότητας στο σύνολο δεδομένων Ivshina). Αντιπροσωπευτικά αποτελέσματα για το σύνολο δεδομένων Ivshina φαίνεται στο Σχήμα 4. Το σχήμα δείχνει ότι η απόδοση, δίνεται από τον δείκτη αντιστοιχίας και τεστ log-rank για τις ομάδες κινδύνου, μειώνεται κατά μήκος βαθμό. Τα αποτελέσματα για το σύνολο δεδομένων TCGA φαίνεται στο φροντιστήριο διαθέσιμη στην ιστοσελίδα SurvExpress.

Τα λογοκρισία δείγματα εμφανίζονται ως «+» σημάδια. Οριζόντιος άξονας αντιπροσωπεύει το χρόνο στο συμβάν. Σύνολο δεδομένων, γεγονός το αποτέλεσμα, την κλίμακα του χρόνου, ο δείκτης συμφωνία (CI), και τιμή p του τεστ log-rank φαίνονται. Κόκκινο και πράσινο καμπύλες δηλώνουν υψηλού και χαμηλού κινδύνου ομάδες, αντίστοιχα. Τα κόκκινα και πράσινα αριθμοί κάτω οριζόντιος άξονας αντιπροσωπεύει τον αριθμό των ατόμων που δεν παρουσιάζουν την εκδήλωση της αντίστοιχης ομάδας κινδύνου κατά μήκος του χρόνου. Ο αριθμός των ατόμων, ο αριθμός των λογοκρισία, και ο ΚΚΠ κάθε ομάδα κινδύνου εμφανίζονται στην κορυφή δεξιά ένθετα.

Η

Θρύλοι, όπως στο σχήμα 3.

Η

Σύγκριση των δύο βιοδείκτες του καρκίνου του πνεύμονα.

Για τον καρκίνο του πνεύμονα μη μικροκυτταρικό-κυττάρων (NSCLC), έχουν τουλάχιστον 16 βιοδείκτες έχουν προταθεί [16]. Εδώ σύγκριση δύο βιοδείκτες που προτείνονται για την επιβίωση των NSCLC που επιχειρούν να προβλέψουν το ίδιο γεγονός (επιβίωση) και να χρησιμοποιήσετε ένα παρόμοιο αριθμό γονιδίων? Ωστόσο, τα γονίδια είναι διαφορετικά. . Η πρώτη βιοδεικτών NSCLC προτάθηκε από Boutros

et al

[17] και περιλαμβάνει τα ακόλουθα γονίδια:

STX1A

,

HIF1A

,

CCT3

,

HLA-DPB1

,

RNF5

, και

MAFK

. Η δεύτερη βιοδεικτών NSCLC προτάθηκε από τον Chen

et al.

[18] και περιέχει τα γονίδια

DUSP6

,

MMD

,

STAT1

,

ErbB3

, και

LCK

. Ως εκ τούτου, είναι κλινικό ενδιαφέρον να συγκρίνουν τις επιδόσεις τους. Για το σκοπό αυτό, πραγματοποιήσαμε μια ανάλυση σε SurvExpress χρησιμοποιώντας τη μέγιστη μέση γραμμή για τα γονίδια με πολλαπλά probesets, δύο ομάδες κινδύνου από προγνωστικών μεσαίο δείκτη, και Cox τοποθέτηση. Χρησιμοποιήσαμε μια ειδική πνεύμονα μετα-βάσης συσσώρευση στην ερευνητική μας ομάδα, η οποία αποτελείται από περισσότερα από 1.000 δείγματα που λαμβάνονται από έξι συγγραφείς (Bild [19], Raponi [20], Zhu [21], Χου [22], NCI [23 ], Okayama [24]), που αντιστοιχεί πλατφόρμα γονιδιακή έκφραση Affymetrix, και που περιέχει όλα τα γονίδια βιοδείκτη.

Τα αποτελέσματα δείχνουν ότι και οι δύο βιοδείκτες είναι σε θέση να ξεχωριστές ομάδες κινδύνου χαρακτηρίζονται από διαφορές στην έκφραση των γονιδίων τους (βλέπε κατά Kaplan-Meier και οικόπεδα κουτί αντίστοιχα στο Σχήμα 5). Παρ ‘όλα αυτά, η p-τιμή του διαχωρισμού ομάδα κινδύνου, ο δείκτης συμφωνία, και τη σημασία των συντελεστών ήταν ελαφρώς καλύτερα στο βιοδείκτη Τσεν. Για να αναλυθούν οι βιοδείκτες πιο βαθιά, ελέγξαμε το βιοδείκτη ανά συγγραφέα βάσης δεδομένων χρησιμοποιώντας τη λειτουργία SurvExpress διαστρωμάτωσης (αυτό μπορεί επίσης να επιτευχθεί εκτέλεση μιας ανάλυσης SurvExpress ανά συγγραφέα σύνολο δεδομένων). Τα αποτελέσματα για τις έξι συγγραφείς συνοψίζονται στον Πίνακα 5. Τρία αντιπροσωπευτικά παραδείγματα δείχνονται στο Σχήμα 6. Τα αποτελέσματα δείχνουν ότι η βιοδείκτη Boutros αποτυγχάνει σε τέσσερα σύνολα δεδομένων (δοκιμασία log-rank της διαφοράς σε ομάδες κινδύνου δεν είναι σημαντική), ενώ η Chen βιοδείκτη λειτουργεί καλύτερα σε σχεδόν όλα τα σύνολα δεδομένων. Συνοπτικά, τα αποτελέσματα αυτά δείχνουν ότι η απόδοση των Chen βιοδείκτη είναι ανώτερη.

Kaplan-Meier καμπύλες όπως στο Σχήμα 3. Η θερμότητα χάρτης δείχνει την έκφραση κάθε γονιδίου (σειρές) κατά μήκος δείγματα (στήλες) σε ομάδες κινδύνου. Χαμηλή έκφραση εκπροσωπείται στο πράσινο βαθμούς και υψηλή έκφραση σε κόκκινο βαθμούς. Αντίστοιχους συντελεστές βήτα από την τοποθέτηση Cox εμφανίζεται. Δύο αστέρια (**) σηματοδοτεί γονίδια των οποίων η τοποθέτηση τιμή p & lt? 0,05, ένα αστέρι (*) για την οριακή σημαντική γονίδια που έχουν ρ-τιμή & lt? 0.10, και δεν αστέρια για γονίδια των οποίων η p-τιμή είναι & gt? 0.1. οικόπεδα κουτί συγκρίνετε τη διαφορά της έκφρασης των γονιδίων μεταξύ των ομάδων υψηλού κινδύνου χρησιμοποιώντας ένα t-test.

Η

Θρύλοι, όπως στο σχήμα 3.

Η

Συμπέρασμα

σε σύγκριση με άλλα εργαλεία, SurvExpress είναι το μεγαλύτερο και το πιο ευέλικτο δωρεάν εργαλείο για να εκτελέσει την επικύρωση της πολυ-γονιδιακής βιοδείκτες για γονιδιακή έκφραση σε ανθρώπινους καρκίνους. Η ανάλυση απαιτεί μόνο τη λίστα των γονιδίων και μπορεί να πραγματοποιηθεί σε περίπου ένα λεπτό ανά σύνολο δεδομένων. Κοινές εφαρμογές για τον έλεγχο της απόδοσης των βιοδεικτών περιλαμβάνουν την αξιολόγηση ενός βιοδείκτη σε άλλους πληθυσμούς ή την κλινική κατάσταση και τη σύγκριση των ανταγωνιστικών βιοδεικτών. Έχουμε δείξει αυτές τις δύο εφαρμογές της SurvExpress σύγκριση της απόδοσης ενός βιοδείκτη καρκίνου του μαστού σε αρκετές σύνολα δεδομένων, συμπεριλαμβανομένων των τάξεων του όγκου, και τον προσδιορισμό των βέλτιστων βιοδείκτη από δύο εναλλακτικών βιοδείκτες καρκίνου του πνεύμονα. Καταλήγουμε στο συμπέρασμα ότι SurvExpress είναι ένα πολύτιμο και ολοκληρωμένο εργαλείο στο διαδίκτυο και η βάση δεδομένων του καρκίνου με τις κλινικές εκβάσεις προσαρμοσμένες για να αξιολογήσει γρήγορα βιοδείκτες γονιδιακής έκφρασης.

You must be logged into post a comment.