PLoS One: Επιδράσεις Περιβάλλοντος, Γενετικής και παγίδες Ανάλυση Δεδομένων σε καρκίνο του οισοφάγου Γονιδιώματος-Wide Association Study


Αφηρημένο

Ιστορικό

Η ανάπτυξη νέων τεχνολογιών υψηλής απόδοσης του γονότυπου επέτρεψε γρήγορα αξιολόγηση των πολυμορφισμών μονού νουκλεοτιδίου (SNPs) σε κλίμακα γονιδιώματος-ευρεία. Αρκετές πρόσφατες μελέτες συσχέτισης γονιδιώματος-ευρεία χρησιμοποίηση των τεχνολογιών αυτών δείχνουν ότι πάνελ των SNPs μπορεί να είναι ένα χρήσιμο εργαλείο για την πρόβλεψη της ευαισθησίας στον καρκίνο και την ανακάλυψη δυνητικά σημαντικές νέες θέσεις της νόσου.

Μεθοδολογία /Κύρια Ευρήματα

το παρόν έγγραφο θα προβεί σε προσεκτική εξέταση της σχετικής σημασίας της γενετικής, περιβαλλοντικούς παράγοντες, και τις προκαταλήψεις του πρωτοκόλλου ανάλυσης δεδομένων που χρησιμοποιήθηκε σε μια προηγουμένως δημοσιευμένη μελέτη σύνδεσης του γονιδιώματος-ευρεία. Αυτό προηγούμενη μελέτη ανέφερε σχεδόν τέλεια διάκριση των ασθενών με καρκίνο του οισοφάγου και υγιείς μάρτυρες με βάση μόνον γενετικών πληροφοριών. Από την άλλη πλευρά, τα αποτελέσματα μας υποδεικνύουν έντονα ότι SNPs σε αυτό το σύνολο δεδομένων δεν είναι στατιστικά συνδέονται με το φαινότυπο, ενώ διάφοροι περιβαλλοντικοί παράγοντες και κυρίως το οικογενειακό ιστορικό καρκίνου του οισοφάγου (πληρεξουσίου για περιβαλλοντικούς και γενετικούς παράγοντες) έχουν μόνο μια μέτρια συσχέτιση με το ασθένεια.

Συμπεράσματα /Σημασία

το κύριο συστατικό του προηγουμένως υποστήριξε ισχυρό σήμα διακρίσεις οφείλεται σε διάφορους παγίδες ανάλυση των δεδομένων που σε συνδυασμό οδήγησε στα έντονα αισιόδοξα αποτελέσματα. Τέτοιες παγίδες μπορούν να προληφθούν και θα πρέπει να αποφεύγονται σε μελλοντικές μελέτες, δεδομένου ότι δημιουργούν παραπλανητικά συμπεράσματα και να δημιουργήσει πολλές ψευδείς οδηγεί για την μετέπειτα έρευνα

Παράθεση:. Statnikov Α, Li C, Αλιφέρης CF (2007) Επίδραση του Περιβάλλοντος, Γενετικής και Παγίδες Ανάλυσης δεδομένων σε καρκίνο του οισοφάγου Γονιδιώματος-Wide Μελέτη σύνδεσης. PLoS ONE 2 (9): E958. doi: 10.1371 /journal.pone.0000958

Ακαδημαϊκό Επιμέλεια: Enrico Scalas, University of East Πεδεμόντιο, Ιταλία

Ελήφθη: 30 Ιουλ 2007? Αποδεκτές: 30 Αυγ 2007? Δημοσιεύθηκε: 26 Σεπτεμβρίου, 2007

Copyright: © 2007 Statnikov et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Το έργο ήταν εν μέρει υποστηρίζεται από επιχορήγηση R01 LM007948-01. Οι οργανισμοί χρηματοδότησης είχαν κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Μία από τις πολλά υποσχόμενες μέθοδοι για την ανάλυση του ανθρώπινου γονιδιώματος και την ταυτοποίηση των γονιδίων και των γονιδιωματικών περιοχών που συμβάλλουν στην φαινοτύπους είναι η χρήση των πολυμορφισμών απλού νουκλεοτιδίου (SNPs). SNPs αποτελούν περισσότερο από το 90% όλης της ανθρώπινης γενετικής παραλλαγής και έχουν μελετηθεί εκτενώς για τις λειτουργικές σχέσεις μεταξύ γονοτύπου και φαινοτύπου. Η έλευση των τεχνολογιών του γονότυπου υψηλής απόδοσης επέτρεψε γρήγορη αξιολόγηση των SNPs σε κλίμακα γονιδιώματος-ευρεία σε σχετικά χαμηλό κόστος [1] – [3]

Κατά τη διάρκεια των δύο τελευταίων ετών αρκετές ομάδες ανέφεραν επιτυχία στη χρήση. SNP γονοτυποποίηση δοκιμασίες σε μελέτες συσχέτιση του καρκίνου [1], [4] – [8]. Ειδικότερα, η μελέτη από τον Hu et al. ανέφερε μια σχεδόν τέλεια ταξινόμηση των οισοφάγου περιπτώσεις και τους ελέγχους του καρκίνου με βάση μόνο SNP δεδομένα από μια μελέτη ένωση γονιδίωμα-ευρεία περίπτωση ελέγχου [8]. Λαμβάνονται στην ονομαστική τους αξία, το αποτέλεσμα αυτό υποδεικνύει ότι ο καρκίνος του οισοφάγου είναι μία μόνο γενετική ασθένεια. Αυτό έρχεται σε αντίθεση με άλλες βιβλιογραφία στον τομέα που τονίζει τη σημασία του περιβάλλοντος για την ευαισθησία του καρκίνου [9], [10]. Για να ρίξει φως σε αυτό το θέμα, έχουμε εκ νέου ανέλυσε τα δεδομένα της [8]

Εντοπίσαμε παγίδες ανάλυσης δύο στοιχείων στο [8] που προκάλεσε υπερβολικά αισιόδοξη συμπεράσματα στο αρχικό έγγραφο:. Πρώτον, η SNP μέθοδος επιλογής ήταν σοβαρά ωθείται προς διεκδίκηση σημασία για SNPs που δεν πραγματικά συνδέονται με την ασθένεια. Δεύτερον, τόσο η επιλογή SNP και την οικοδόμηση του μοντέλου ταξινομητή πραγματοποιήθηκαν στα ίδια θέματα όπως χρησιμοποιείται για την εκτίμηση της ακρίβειας ταξινόμησης. Δεδομένου ότι έγιναν ούτε διασταυρωμένης επικύρωσης, ούτε ανεξάρτητη επικύρωση του δείγματος, η προκύπτουσα εκτίμηση απόδοση ταξινόμησης ήταν υπεραισιόδοξες.

Πραγματοποιήσαμε μια εκ νέου ανάλυση του SNP και περιβαλλοντικά δεδομένα που διορθώνει τα παραπάνω προβλήματα και διαπίστωσε ότι η SNPs σε αυτό το σύνολο δεδομένων δεν είναι στατιστικά συνδέεται με τον καρκίνο του οισοφάγου, ενώ διάφορους περιβαλλοντικούς παράγοντες, ειδικά το οικογενειακό ιστορικό καρκίνου του οισοφάγου (που πιθανώς αντιπροσωπεύει για πολλούς περιβαλλοντικούς και γενετικούς παράγοντες), έχουν μια μέτρια συσχέτιση με την ασθένεια. Εμείς ποσοτικά τη συμβολή καθενός από τους παράγοντες για την κατάταξη του καρκίνου και με την προϋπόθεση αμερόληπτες εκτιμήσεις απόδοσης της κατάταξης σύμφωνα με καθιερωμένα πρωτόκολλα ανάλυσης αμερόληπτη δεδομένων. Λαμβάνοντας υπόψη την ασήμαντη συνεισφορά των SNPs με την ταξινόμηση του καρκίνου, τα ευρήματά μας υποδηλώνουν ότι οι SNPs που προσδιορίζονται στο [8] η έλλειψη στατιστικών στοιχείων για να συμμετέχουν σε καρκίνο του οισοφάγου.

Υλικά και Μέθοδοι

Σε όλες τις αναλύσεις δεδομένων εκτός από την αντιγραφή των μεθόδων της [8], χρησιμοποιήσαμε αμερόληπτη εναλλακτικών λύσεων έτσι ώστε οι επιδράσεις του πόλωσης (αν υπάρχουν) στην ανάλυση του [8] μπορεί να ποσοτικοποιηθεί. Η αιτιολόγηση της αμεροληψία των εναλλακτικών μεθόδων που προβλέπονται στα σχετικά υποτμήματα παρακάτω.

Μελέτη Σύνολα

Τα στοιχεία που χρησιμοποιήθηκαν στην παρούσα μελέτη είναι η ίδια που χρησιμοποιείται στο αρχικό έγγραφο [8]. Τα δεδομένα αποτελούνταν από 50 ασθενείς οισοφάγου πλακώδες καρκίνωμα και 50 ελέγχους. Οι ασθενείς διαγνώστηκαν με καρκίνο του οισοφάγου μεταξύ του 1998 και του 2000 σε Shanxi Αντικαρκινικό Νοσοκομείο σε Ταϊγιουάν, Λαϊκή Δημοκρατία της Κίνας. Είκοσι πέντε ασθενείς και εννέα μάρτυρες είχαν θετικό οικογενειακό ιστορικό της νόσου. Οι έλεγχοι συνδυάζεται με την ηλικία, το φύλο και τον τόπο κατοικίας

Η γονοτυπική των φλεβικών δειγμάτων αίματος για όλους τους συμμετέχοντες στη μελέτη διεξήχθη στο Εθνικό Ινστιτούτο Καρκίνου (Bethesda, Maryland) όπως συνοψίζονται παρακάτω:. Το μικρόβιο γραμμή DNA εκχυλίστηκε και καθαρίστηκε. Τα δείγματα DNA στη συνέχεια παρασκευάστηκαν και προσδιορίστηκαν σύμφωνα με το πρωτόκολλο Affymetrix GeneChip Mapping Δοκιμασία. Οι συστοιχίες 10K SNP με 11.555 SNPs που διανέμονται σε όλο το ανθρώπινο γονιδίωμα σαρώθηκαν και κλήσεις γονότυπο είχαν εκχωρηθεί αυτόματα από το λογισμικό Affymetrix GeneChip Ανάλυση DNA. Τέσσερις κλήσεις γονότυπο ορίστηκαν στα δεδομένα: ΑΑ, ΑΒ, ΒΒ, ή «δεν υπάρχει καμία κλήση». Περισσότερες λεπτομέρειες σχετικά με τη βιολογική συλλογή δειγμάτων και την επεξεργασία, την προετοιμασία στόχο, τη σάρωση και την παραγωγή γονότυπο που προβλέπονται στο [8]

Για κάθε θέμα, οι ακόλουθες πέντε μεταβλητές καταγράφηκαν επίσης:. ηλικία κατά τη συνέντευξη (έτη), του καπνού χρήση (ναι /όχι), κατανάλωση αλκοόλ (ναι /όχι), το οικογενειακό ιστορικό καρκίνου του οισοφάγου (ναι /όχι), και την κατανάλωση λαχανικά τουρσί (ναι /όχι).

SNP Array Προετοιμασία δεδομένων

Πριν αναλύει δεδομένα, μπορούμε προεπεξεργασμένα τα δεδομένα πίνακα SNP ακολουθώντας την προσέγγιση που περιγράφεται στο αρχικό έγγραφο [8]. Κατ ‘αρχάς, από 11.542 SNPs στο αρχικό σύνολο δεδομένων, 105 SNPs αφαιρέθηκαν επειδή δεν μπορούσε να χαρτογραφηθεί σε ανθρώπινο γονιδίωμα με NCBI χτίσει 36. Δεύτερον, για την ελαχιστοποίηση των πιθανών σφαλμάτων του γονότυπου, 946 SNPs είχαν αφαιρεθεί επειδή ήταν ομόζυγη είτε σε περιπτώσεις ή ελέγχους . Τρίτον, για τον ίδιο λόγο, 482 SNPs απομακρύνθηκαν διότι δεν ικανοποιούν Hardy-Weinberg ισορροπία στην ομάδα ελέγχου σε α = 0,01 επίπεδο [11]. Τέταρτον, «υποτελούς Α» κωδικοποίηση των SNPs (ΑΑ = 1, AB = 0, BB = 0) τέθηκε σε εφαρμογή. Μετά από αυτά τα βήματα, το σύνολο δεδομένων αποτελείται από 10.009 SNPs.

Δεδομένου ότι ορισμένες από τις μεθόδους ανάλυσης δεδομένων (π.χ., Ανάλυση σε Κύριες Συνιστώσες ή Support Vector Machines περιγράφεται παρακάτω) δεν απαιτούν δεδομένα που λείπουν, μπορούμε τεκμαρτά λείπει γονότυπους στο σύνολο δεδομένων SNP και χρησιμοποιείται κάθε φορά που χρησιμοποιήθηκαν αυτές οι μέθοδοι. Συγκεκριμένα, χρησιμοποιήσαμε την πολυμεταβλητή μη παραμετρική πλησιέστερο τεχνική γείτονα καταλογισμό της [12], [13]

SNP επιλογής

Κατ ‘αρχάς, θα χρησιμοποιηθεί η μέθοδος επιλογής SNP που περιγράφεται στο [8]:. Για κάθε SNP, μια γενικευμένη γραμμικό μοντέλο (GLM) της πιθανότητας καρκίνου ταιριάζει χρησιμοποιώντας ως μεταβλητές πρόβλεψης, το SNP και δύο άλλες μεταβλητές: το οικογενειακό ιστορικό καρκίνου του οισοφάγου και η κατανάλωση αλκοόλ. Το GLM ήταν κατάλληλα για όλα τα 100 άτομα, χωρίς να αφήνει απ ‘έξω ένα ανεξάρτητο δείγμα δοκιμής. Στη συνέχεια, μια τιμή p ελήφθη με βάση τη διαφορά μεταξύ της απόκλισης

D

0

της μηδενικής μοντέλο χωρίς μεταβλητές πρόβλεψης και της απόκλισης

D

1

του τοποθετηθεί μοντέλο. Η διαφορά

D

0-D

1

ακολουθεί μια κατανομή χι-τετράγωνο με 3 βαθμούς ελευθερίας. Δεδομένου ότι η παραπάνω διαδικασία εφαρμόζεται σε κάθε SNP στο σύνολο δεδομένων, είναι απαραίτητο να προσαρμοστεί για πολλαπλές συγκρίσεις για να εξασφαλιστεί ότι η επιθυμητή αναλογία ψευδών θετικών (0,05) διατηρείται. Για το σκοπό αυτό, η ρύθμιση Bonferroni διεξήχθη στο επίπεδο σημαντικότητας 0,05 της δοκιμής (δηλαδή, αντί να χρησιμοποιήσετε το επίπεδο σημαντικότητας 0,05, το επίπεδο 0,05 /αριθμός SNPs χρησιμοποιήθηκε αντί). Αναφερόμαστε με την ανωτέρω μέθοδο ως «GLM1». Τέλος, σημειώνουμε ότι η προσαρμογή κατά Bonferroni συχνά παρέχει μια συντηρητική εκτίμηση της στατιστικής σημασίας και προϋποθέτει ότι όλες οι SNPs είναι ανεξάρτητες, ενώ υπάρχουν μέθοδοι που είναι λιγότερο συντηρητικές και μπορεί να εφαρμοστεί όταν οι SNPs εξαρτώνται, π.χ. [14] – [16]

Επειδή η τιμή ρ GLM1 αντικατοπτρίζει την συνδυασμένη επίδραση των τριών μεταβλητών πρόβλεψης, τείνει να είναι μικρό, ακόμη και αν ο SNP δεν έχει καμία επίδραση στον καρκίνο του οισοφάγου σε όλα. . Για την αντιμετώπιση αυτού του προβλήματος από την αρχική ανάλυση, εφαρμόζονται επίσης τα ακόλουθα αμερόληπτη μέθοδο επιλογής SNP: προχωρούμε παρόμοια με το GLM1 εκτός από το ότι η p-τιμή βασίζεται στη διαφορά μεταξύ της απόκλισης

D

«

0

του μοντέλου συμπεριλαμβανομένου του οικογενειακού ιστορικού καρκίνου του οισοφάγου και της κατανάλωσης αλκοόλ και της απόκλισης

D

1

. Η προκύπτουσα στατιστική

D

«

0-D

1

ακολουθεί μια κατανομή χι-τετράγωνο με ένα βαθμό ελευθερίας, και αυτό αντανακλά την επίδραση του SNP που είναι αναλύθηκαν. Αναφερόμαστε σε αυτή τη μέθοδο ως «GLM2» και να αποδείξει ότι είναι πράγματι αμερόληπτη στην ενότητα Αποτελέσματα και Συζήτηση και στην Υποστήριξη S1 Πληροφορίες αρχείου.

Τέλος, κατά την τοποθέτηση μηχανών διανυσμάτων υποστήριξης (βλέπε επόμενη ενότητα) για τη δεδομένων, θα εφαρμοστεί επίσης την τεχνική Αναδρομικές Χαρακτηριστικό εξάλειψη (RFE) που είναι από τις καλύτερες επιδόσεις μεταβλητή μέθοδοι επιλογής για τα δεδομένα γονιδιακής έκφρασης μικροσυστοιχιών και άλλα μοριακά σύνολα δεδομένων υψηλής απόδοσης [17]. Εν συντομία, η μέθοδος αυτή περιλαμβάνει την επαναληπτική τοποθέτηση φορέα υποστήριξης μοντέλων ταξινόμησης του καρκίνου του μηχανήματος με την απόρριψη της SNPs με τη μικρότερη επίπτωση στην ταξινόμηση και την επιλογή των SNPs που συμμετέχουν στο καλύτερες επιδόσεις μοντέλο ταξινόμησης. Σε αντίθεση με τις παραπάνω μεθόδους GLM-βάση, εφαρμόσαμε RFE μόνο για το σύνολο εκπαίδευσης των ασθενών και των ελέγχων κατά τη διάρκεια της διασταυρούμενης επικύρωσης.

Η κατάταξη του καρκίνου Μοντέλα

Πρώτον, χρησιμοποιήσαμε τη διαδικασία ταξινόμησης περιγράφεται στο [ ,,,0],8]. Δηλαδή, ανάλυση κύριων συνιστωσών (PCA) πραγματοποιήθηκε στις επιλεγμένες SNPs, και στη συνέχεια η πρώτη κύρια συνιστώσα εκχυλίζεται και χρησιμοποιείται για να προβλέψει την κατάσταση του καρκίνου.

Ως ένα state-of-the-art εναλλακτική λύση για το PCA με έδρα διαδικασία ταξινόμησης, εφαρμόσαμε διανυσμάτων υποστήριξης (SVM) ταξινομητές [18]. Η βασική ιδέα της SVM ταξινομητές είναι να υπολογίσει ένα μέγιστο υπερεπίπεδο περιθώριο που χωρίζει τις περιπτώσεις και τους ελέγχους. Για την επίτευξη μη γραμμική διαχωρισμό, τα δεδομένα αντιστοιχίζονται έμμεσα σε ένα υψηλότερο διαστάσεων χώρο με τη βοήθεια μιας συνάρτησης πυρήνα, όπου βρίσκεται μια διαχωριστική υπερεπίπεδο. Θέματα ταξινομούνται ανάλογα με την πλευρά του υπερεπίπεδο που ανήκουν. Αυτές οι μέθοδοι ταξινόμησης που χρησιμοποιείται συνήθως για την ανάλυση των μοριακών δεδομένων υψηλής απόδοσης [4], [19] – [21] και έχουν πολλά ελκυστικά θεωρητικές και εμπειρικές ιδιότητες. Για παράδειγμα, συχνά ξεπερνούν άλλες μεθόδους ταξινόμησης σε αξιοσημείωτο βαθμό? είναι επίσης αρκετά ευαίσθητη στο μεγάλο αναλογία μεταβλητή-προς-δείγμα? και μπορούν να μάθουν πολύ περίπλοκες λειτουργίες ταξινόμησης [18], [22]. Χρησιμοποιήσαμε την εφαρμογή libSVM των γραμμικών ταξινομητές SVM (www.csie.ntu.edu.tw/~cjlin/libsvm/). Μπορούμε επίσης να πειραματιστεί με τις μη γραμμικές ταξινομητές SVM, αλλά οδήγησε σε πιο σύνθετα μοντέλα με παρόμοια απόδοση ταξινόμησης.

Για να αξιολογηθεί η συνδυασμένη απόδοση των SNPs και περιβαλλοντικών παραγόντων (ή /και οικογενειακό ιστορικό), χρησιμοποιήσαμε σύνολο μεθόδων ταξινόμησης που βασίζονται σε ταξινομητές SVM. Σας παρουσιάζουμε σε αυτό το έγγραφο προκύπτει μόνο για την καλύτερη τεχνική ensembling που μέσους προβλέψεις των δύο ταξινομητές SVM για κάθε θέμα: ένα με βάση το SNP δεδομένων και ένα άλλο που βασίζεται σε περιβαλλοντικούς παράγοντες (και /ή οικογενειακό ιστορικό). Η περιγραφή και τα αποτελέσματα για τις άλλες τεχνικές ensembling παρέχονται στο Στήριξη S2 Πληροφορίες αρχείου.

Αξιολόγηση Ταξινόμηση Απόδοση

Σε αντίθεση με την αρχική μελέτη [8] που χρησιμοποιούνται ποσοστό των σωστών ταξινομήσεων και την απόδοση μετρική, χρησιμοποιήσαμε περιοχή κάτω από την καμπύλη ROC (AUC) που έχει μεγαλύτερη δύναμη για την ανίχνευση προγνωστική σήμα SNPs [23] – [25]. Η καμπύλη ROC είναι η γραφική παράσταση της ευαισθησίας έναντι 1-ειδικότητα για ένα εύρος τιμών κατωφλίου κατάταξης. AUC σειρές 0-1, με μια AUC ίση με 0 δείχνει το χειρότερο δυνατό ταξινομητή, 0.5 αντιπροσωπεύει μια τυχαία (δηλαδή, uninformative) ταξινομητή, και 1 αντιπροσωπεύει τέλεια την ταξινόμηση. Μια άριστη εισαγωγή στην ανάλυση ROC για την ταξινόμηση παρέχεται στο [25].

Για την απόκτηση αμερόληπτη AUC εκτιμήσεις, τα μοντέλα ταξινόμησης του καρκίνου χτίστηκαν και αξιολογήθηκαν από επαναλαμβανόμενη διαδικασία διασταυρωμένης επικύρωσης 10 φορές [26]. Το επαναλαμβάνεται 10 φορές διασταυρωμένης επικύρωσης εκτιμητής της απόδοσης ταξινόμησης μπορεί να επιτευχθεί με την εκτέλεση τακτικών 10-φορές διαδικασία διασταυρωμένης επικύρωσης 100 φορές με διαφορετικές διασπάσεις των δεδομένων στην εκπαίδευση και σύνολα δοκιμών και την υποβολή εκθέσεων τη μέση εκτίμηση πάνω από 100 τρεξίματα. Αυτό εκτιμητής είναι ασυμπτωτικά αμερόληπτη, διότι τα δείγματα δοκιμής δεν έχει χρησιμοποιηθεί ποτέ για την εκπαίδευση του ταξινομητή. Επιπλέον, η επαναλαμβανόμενη 10 φορές διασταυρωμένης επικύρωσης έχει πολύ μικρότερη διακύμανση από τα κανονικά διασταυρωμένης επικύρωσης που ενδέχεται να επηρεαστούν από ένα μη-αντιπροσωπευτική διάσπαση των δεδομένων [26].

Αποτελέσματα και Συζήτηση

Ενώ η προηγούμενη εργασία αναφερόμενη 37 σημαντικές SNPs με εφαρμογή της μεθόδου GLM1 στην οισοφάγου σύνολο δεδομένων συστοιχίας καρκίνος SNP [8], η εκτέλεση μας το δημοσιευμένο πρωτόκολλο στο [8] οδηγεί σε 226 σημαντικές SNPs. Η διαφορά από την αναφερόμενη αριθμό των 37 SNPs οφείλεται στην επιπλέον στάδιο φιλτραρίσματος που διεξήχθη στο σύνολο των SNPs σημαντική στο Bonferroni ρυθμίστηκε 0,05 α επιπέδου που δεν αναφέρθηκε στην αρχική δημοσίευση (Δρ Maxwell Lee, προσωπική επικοινωνία). Δεδομένου ότι, όπως θα δείξουμε παρακάτω, μια αμερόληπτη μέθοδο για την αξιολόγηση της επίδρασης SNP (π.χ., GLM2) δίνει μηδενική σημαντική SNPs, οποιαδήποτε επιπλέον βήμα φιλτραρίσματος είναι περιττή, ως εκ τούτου, δεν θεωρούμε όπως το φιλτράρισμα στην παρούσα εργασία.

Παρ ‘όλα αυτά , η εφαρμογή της PCA που βασίζεται ταξινομητή με τα στοιχεία των 226 σημαντικών SNPs αναπαράγει την απόδοση ταξινόμησης της αρχικής μελέτης [8]. Συγκεκριμένα, η πρώτη κύρια συνιστώσα παρέχει μια σχεδόν τέλεια ταξινόμηση των ασθενών και των ελέγχων με 0,98 AUC και 0,93 ποσοστό των σωστών ταξινομήσεων (Σχήμα 1). Ωστόσο, το αποτέλεσμα αυτό είναι υπεραισιόδοξη οφείλεται κυρίως στους ακόλουθους λόγους.

Η πρώτη κύρια συνιστώσα παρέχει ένα σχεδόν τέλειο διαχωρισμό των περιπτώσεων από τους ελέγχους.

Η

Κατ ‘αρχάς, ο υπολογισμός του p -τιμή στην SNP μέθοδο επιλογής GLM1 δεν αντικατοπτρίζει τη σημασία του SNP υπό εξέταση, αλλά η σημασία των τριών μεταβλητών σε συνδυασμό (SNP, το οικογενειακό ιστορικό καρκίνου του οισοφάγου, και η κατανάλωση αλκοόλ). Επειδή το οικογενειακό ιστορικό και η κατανάλωση αλκοόλ αποτελούν ισχυρούς παράγοντες κινδύνου για καρκίνο του οισοφάγου, αυτή η τιμή p θα μεροληπτεί προς το μηδέν, ακόμα και όταν το SNP δεν έχει τίποτα να κάνει με τον καρκίνο του οισοφάγου. Αυτή η προκατάληψη μπορεί να αποδειχθεί ως εξής: Είναι λογικό να υποθέσουμε την πλειοψηφία του SNPs δεν έχουν καμία επίδραση επί του οισοφάγου κίνδυνο εμφάνισης καρκίνου. Για αυτά τα SNPs, οι p-τιμές θα πρέπει να ακολουθούν μια ομοιόμορφη κατανομή μεταξύ 0 και 1. Ωστόσο, η συντριπτική πλειοψηφία των p-τιμές τους ήταν & lt? 10

-3 (Σχήμα 2), το οποίο είναι σύμφωνο με το γεγονός ότι τους p-value αντανακλούσε το συνδυασμένο αποτέλεσμα των οικογενειακό ιστορικό καρκίνου του οισοφάγου, η κατανάλωση αλκοόλ, και το SNP αντί του ίδιου του SNP. Από την άλλη πλευρά, η διαδικασία GLM2 αντανακλά τις επιδράσεις των SNPs μόνο και δεν πάσχει από τα ανωτέρω μειονέκτημα (Σχήμα 2). Μια πιο εμπεριστατωμένη εμπειρική απόδειξη μετάθεση-based γιατί GLM1 είναι προκατειλημμένη, ενώ GLM2 δεν παρέχεται στην Υποστηρικτικά S1 Πληροφορίες αρχείου. Η εφαρμογή της διαδικασίας GLM2 δεν οδήγησε σε σημαντική SNPs μετά την προσαρμογή κατά Bonferroni (Σχήμα 2). Ως εκ τούτου, η SNPs που αναφέρθηκαν στο [8] ως στατιστικά σημαντική δεν είναι στατιστικά σημαντική στο Bonferroni ρυθμίστηκε 0,05 α-επίπεδο.

Η εικόνα εμφανίζεται σε λογαριθμική κλίμακα για λόγους ευκολίας. Η κάθετη γραμμή είναι η Bonferroni ρυθμίζεται α-επίπεδο (0,05 /10009). Ενώ υπάρχουν SNPs που είναι σημαντικές σύμφωνα με τη μέθοδο GLM1, δεν SNP είναι σημαντικές από GLM2. Η κατανομή του p-τιμές για GLM2 είναι ομοιόμορφη, ωστόσο η διανομή για GLM1 δεν είναι.

Η

Δεύτερον, οι δύο SNP επιλογή από GLM1 και την οικοδόμηση του μοντέλου ταξινομητή PCA-based πραγματοποιήθηκαν στο [8] για τα ίδια 100 θέματα όπως χρησιμοποιείται για την εκτίμηση της τελικής ακρίβεια ταξινόμησης. Δεδομένου ότι έγιναν ούτε διασταυρωμένης επικύρωσης, ούτε ανεξάρτητη επικύρωση του δείγματος, η προκύπτουσα εκτίμηση απόδοση ταξινόμησης είναι υπεραισιόδοξες, όπως εξηγείται στο [27], [28]. Για να ληφθεί μια αμερόληπτη εκτίμηση απόδοσης για τη μέθοδο επιλογής SNP και ταξινομητής του [8], οι παραπάνω μέθοδοι εφαρμόστηκαν με επαναλαμβανόμενες 10 φορές διασταυρούμενης επικύρωσης. Η προκύπτουσα εκτίμηση απόδοση ταξινόμησης ήταν 0,68 AUC, ενώ η αρχική διαδικασία [8] οδήγησε σε 0,98 AUC, υποδεικνύοντας 0,30 AUC υπερεκτίμηση.

Για να εκτιμηθεί η συμβολή των SNPs και άλλες μεταβλητές να οισοφάγου ταξινόμηση του καρκίνου, πραγματοποιήσαμε διάφορες αναλύσεις που συνοψίζονται στον πίνακα 1. Χρησιμοποιήσαμε το SNP τεχνική επιλογής RFE [17] και τα ταξινομητές SVM [18] περιγράφεται στο τμήμα Υλικά και Μέθοδοι. Όταν τα δεδομένα SNP χρησιμοποιείται μόνο του, η απόδοση είναι 0,51 AUC, η οποία είναι στατιστικά διακριθεί από την απόδοση ενός ταξινομητή uninformative (0,50 AUC). Από την άλλη πλευρά, τέσσερις περιβαλλοντικές μεταβλητές μόνο (ηλικία συνέντευξη, η χρήση του καπνού, η κατανάλωση αλκοόλ και η κατανάλωση λαχανικά τουρσί) μπορεί να χαρακτηρίσει τον καρκίνο με 0,60 AUC δείχνουν μια μέτρια συσχέτιση με τον καρκίνο. Όταν αυτές οι τέσσερις μεταβλητές περιβάλλοντος σε συνδυασμό με τα δεδομένα SNP, η προκύπτουσα απόδοση αυξάνει ελαφρώς σε 0,62 AUC. Ένα ακόμη πιο εκπληκτικό αποτέλεσμα ήταν ότι μια μόνο μεταβλητή (δηλαδή, το οικογενειακό ιστορικό καρκίνου του οισοφάγου) μπορεί να χαρακτηρίσει την ασθένεια με 0,66 AUC, η οποία είναι πιο ακριβή από τη χρήση των δεδομένων SNP και τις τέσσερις άλλες περιβαλλοντικές μεταβλητές. Υποθέτουμε ότι αυτό συμβαίνει επειδή το οικογενειακό ιστορικό περιέχει πληροφορίες σχετικά με άλλες περιβαλλοντικές και γενετικές μεταβλητές που δεν μετρήθηκαν στα δεδομένα μελέτης. Σαφώς, υπάρχουν πολύ περισσότερες από τέσσερις περιβαλλοντικές μεταβλητές που επηρεάζουν τον καρκίνο του οισοφάγου. Ομοίως, η Affymetrix 10k σειρά SNP είναι ένα πρώιμο τεχνολογία του γονότυπου που δεν παρέχουν τόσο πυκνός γονιδιωματική κάλυψη ως πιο πρόσφατη συστοιχίες με & gt? 500k SNPs [29], [30]. Όταν το οικογενειακό ιστορικό συνδυάζεται με άλλα τέσσερα περιβαλλοντικές μεταβλητές, ο καρκίνος μπορεί να ταξινομηθεί με 0,73 AUC που είναι πιο ακριβή από ό, τι με τη χρήση είτε σύνολο μεταβλητών μόνο. Από την άλλη πλευρά, όταν το οικογενειακό ιστορικό συνδυάζεται με SNP δεδομένα, η προκύπτουσα ταξινομητής με 0,64 AUC δεν είναι τόσο ακριβής όσο χρησιμοποίηση μόνο της πρώην μεταβλητή. Τέλος, όταν οι SNPs και όλες οι άλλες μεταβλητές σε συνδυασμό, ο καρκίνος μπορεί να ταξινομηθεί με 0,73 AUC.

Η

Τα πειράματα που παρουσιάζονται σε αυτό το χαρτί που εμπλέκονται ταξινομητές SVM. Όπως αναφέραμε, η επιλογή του ταξινομητή βασίστηκε σε εμπειρικά στοιχεία που δείχνουν ότι οι SVMs έχουν ανώτερη απόδοση σε διάφορες high-διαστάσεων «omics» σύνολα δεδομένων [19] – [21], καθώς και στο SNP δεδομένων [4] και σίγουρα ξεπερνούν μη επιβλεπόμενη ταξινόμηση μεθόδους όπως PCA [27], [28]. Ωστόσο, δεν μπορεί κανείς να αποκλείει ότι υπάρχει δεν υπάρχει κάποια μεθόδους ταξινόμησης που ξεπερνούν SVMs στο SNP σύνολα δεδομένων πίνακα. Η μελλοντική έρευνα θα απαντήσει σε αυτήν την ερώτηση.

Εν κατακλείδι, τα ευρήματά μας υποδηλώνουν ότι η ανάλυση πολλών δεδομένων παγίδες της [8] οδήγησε τους ερευνητές να προσδιορίσουν SNPs που δεν είναι στατιστικά σημαντική και για τη δημιουργία ενός σοβαρά προκατειλημμένη εκτίμηση της απόδοσης ταξινόμησης του οισοφάγου ασθενείς με καρκίνο και υγιείς ελέγχους βάσει αυτών των SNPs. Μπορούμε επίσης έδειξε ότι οι περιβαλλοντικοί παράγοντες και ιδιαίτερα οικογενειακό ιστορικό καρκίνου (η τελευταία μπορεί να χρησιμεύσει ως πληρεξούσιος για τις δύο γενετικούς και περιβαλλοντικούς παράγοντες) έχουν μέτρια συσχέτιση με την ασθένεια. Επομένως, είναι κατανοητό ότι άλλες SNPs, που δεν περιλαμβάνεται στη δοκιμασία που χρησιμοποιείται, μπορεί να εμπλέκεται στη νόσο. Αυτά τα αποτελέσματα είναι συνεπή με την προηγούμενη βιβλιογραφία που τονίζει τη σημασία των περιβαλλοντικών παραγόντων για την πρόκληση αυτής της πολύπλοκης νόσου [9], [10]. Τα αποτελέσματα υπογραμμίζουν επίσης τη σημασία της ανάλυσης του ήχου δεδομένων σε μελέτες συσχέτισης γονιδιώματος-ευρεία.

Υποστήριξη Πληροφορίες

αρχείου S1.

Επίδειξη Bias στον υπολογισμό του P-Αξίες

doi: 10.1371 /journal.pone.0000958.s001

(0,08 MB DOC)

αρχείου S2.

ολοκληρωμένη ανάλυση των πολλαπλών τύπων δεδομένων

doi: 10.1371 /journal.pone.0000958.s002

(0,09 MB DOC)

Ευχαριστίες

Οι συγγραφείς θα ήθελαν να αναγνωρίσουν ο Δρ Maxwell Λι και οι συνεργάτες του για την παροχή του συνόλου δεδομένων για την παρούσα μελέτη και για την εκτεταμένη σχόλια σχετικά με αυτό το χειρόγραφο.

You must be logged into post a comment.