You must be logged into post a comment.
Αφηρημένο
Ιστορικό
Ως δείκτη του
Helicobacter pylori
, κυτταροτοξίνης που σχετίζεται με το γονίδιο Α (CagA) έχει αποκαλυφθεί ότι είναι ο κύριος παράγοντας που προκαλεί μολυσματικότητα γαστροδωδεκαδακτυλικών ασθενειών. Πάντως, οι μοριακοί μηχανισμοί που αποτελούν τη βάση για την ανάπτυξη των διαφόρων γαστροδωδεκαδακτυλικών ασθενειών που προκαλούνται από CagA θετικά
H. pylori
λοίμωξη παραμένουν άγνωστα. Οι τρέχουσες μελέτες περιορίζεται στην αξιολόγηση του συσχετισμού μεταξύ ασθενειών και του αριθμού των Glu-Ile-Tyr-Ala-Pro (EPIYA) μοτίβα στο στέλεχος CagA. Για την περαιτέρω κατανόηση της σχέσης μεταξύ ακολουθία CagA και μολυσματικότητα του σε καρκίνο του στομάχου, προτείναμε μια συστηματική εντροπία προσέγγιση για τον εντοπισμό των καρκινικών που σχετίζονται με υπολείμματα στα ενδιάμεσα περιοχές του CagA και απασχολούσε μια επιβλεπόμενη μέθοδο μηχανικής μάθησης για τον καρκίνο και μη καρκινικές περιπτώσεις ταξινόμηση.
Μεθοδολογία
Ένα υπολογισμό εντροπία που βασίζεται χρησιμοποιήθηκε για την ανίχνευση υπολειμμάτων κλειδιών του CagA παρεμβαλλόμενες αλληλουχίες ως γαστρικό βιοδεικτών του καρκίνου. Για κάθε κατάλοιπο, αμφότερα συνδυαστική εντροπία και εντροπία φόντο υπολογίστηκαν, και η διαφορά εντροπία χρησιμοποιήθηκε ως κριτήριο για την επιλογή καταλοίπων χαρακτηριστικό. Οι τιμές χαρακτηριστικό στη συνέχεια τροφοδοτείται στο Support Vector Machines (SVM) με τον πυρήνα ακτινική συνάρτηση Βάση (RBF), και δύο παράμετροι συντονισμένοι για να ληφθεί η βέλτιστη τιμή F, χρησιμοποιώντας αναζήτηση δικτύου. Δύο άλλες δημοφιλείς μεθόδους ταξινόμησης ακολουθία, την έκρηξη και HMMER, επίσης εφαρμόζονται στα ίδια δεδομένα για σύγκριση.
Συμπέρασμα
Η μέθοδός μας πέτυχε 76% και 71% ακρίβεια ταξινόμησης από τη Δυτική και την Ανατολική Ασία υποτύπους, αντίστοιχα, τα οποία απέδωσαν σημαντικά καλύτερα από ό, τι BLAST και HMMER. Αυτή η έρευνα δείχνει ότι μικρές παραλλαγές των αμινοξέων σε αυτά τα σημαντικά υπολείμματα μπορεί να οδηγήσει στην μολυσματικότητα διακύμανση του CagA στελεχών που προκύπτουν σε διαφορετικές γαστροδωδεκαδακτυλικών παθήσεων. Αυτή η μελέτη δεν παρέχει μόνο ένα χρήσιμο εργαλείο για την πρόβλεψη της συσχέτισης μεταξύ του νέου στελέχους CagA και ασθενειών, αλλά και μια γενική νέο πλαίσιο για την ανίχνευση βιολογικών βιοδεικτών ακολουθία σε πληθυσμιακές μελέτες
Παράθεση:. Zhang C, Xu S, Xu D (2012) την αξιολόγηση του κινδύνου του καρκίνου του στομάχου που προκαλείται από το
Helicobacter pylori
Χρησιμοποιώντας CagA Ακολουθία Μαρκαδόροι. PLoS ONE 7 (5): e36844. doi: 10.1371 /journal.pone.0036844
Επιμέλεια: Niyaz Ahmed, του Πανεπιστημίου της Hyderabad, Ινδία
Ελήφθη: 13 Νοέμ 2011? Αποδεκτές: 11, Απριλίου του 2012? Δημοσιεύθηκε: May 15, 2012 |
Copyright: © 2012 Zhang et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται
Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε εν μέρει από το αμερικανικό Εθνικό Ινστιτούτο Υγείας [αριθμός επιχορήγηση R21 /R33 GM078601] και το Διεθνές Χρηματιστήριο και το Γραφείο συνεργασίας του Nanjing Ιατρικό Πανεπιστήμιο, Κίνα. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου
Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα
Εισαγωγή
ελικοβακτηρίδιο του πυλωρού (H. pylori)
είναι ένα Gram-αρνητικά έλικα σχήμα βακτήριο που κατοικούν στο ανθρώπινο στομάχι και μολύνουν περισσότερο από το ήμισυ του παγκόσμιου πληθυσμού [1], [2], [ ,,,0],3]. Πρόσφατες μελέτες έχουν δείξει ότι συνδέεται με γαστροδωδεκαδακτυλικών ασθενειών, συμπεριλαμβανομένων δωδεκαδακτυλικό έλκος [4], τα γαστρικά έλκη [5] και η χρόνια γαστρίτιδα. Το πιο σημαντικό, είναι ένας σημαντικός παράγοντας κινδύνου για την ανάπτυξη γαστρικού καρκίνου [6], [7], [8]. Έχει χαρακτηριστεί ως καρκινογόνο για τον άνθρωπο κατηγορίας 1 από την Παγκόσμια Οργάνωση Υγείας από το 1994 [1].
Ως δείκτη του
H. pylori
, η κυτταροτοξίνη σχετιζόμενη γονίδιο Α (CagA) έχει αποκαλυφθεί με περαιτέρω ανάλυση για να είναι ο βασικός παράγοντας λοιμοτοξικότητας.
Η. pylori
στελέχη που φέρουν το γονίδιο CagA αυξάνουν τον παράγοντα κινδύνου γαστροδωδεκαδακτυλικών ασθενειών με τρεις πτυχώσεις πάνω CagA αρνητικά στελέχη [6], [9], [10]. CagA, η οποία κωδικοποιείται από το γονίδιο CagA, είναι μια πρωτεΐνη 125-140 kDa. Περιέχει 1142-1320 αμινοξέα και έχει μία μεταβλητή περιοχή στο Ο-τερματική περιοχή στην οποία διάφορες σύντομες ακολουθίες (όπως EPIYA μοτίβο) επαναλάβετε 1-7 φορές. Μετά από
H. pylori
αποικισμού στην επιφάνεια του γαστρικού επιθηλίου, CagA μπορούν να μετατοπίζεται εντός του γαστρικού επιθηλιακού κυττάρου μέσω ενός συστήματος έκκρισης τύπου IV. Μόλις εγχέεται στο κύτταρο ξενιστή, CagA εντοπίζεται στη μεμβράνη του πλάσματος και μπορεί να φωσφορυλιώνεται από κινάσες τυροσίνης Src-οικογένειας σχετικά με τα ειδικά κατάλοιπα τυροσίνης ενός πέντε-αμινο-οξύ (EPIYA) μοτίβο [11], [12], [13] , [14]. Τυροσίνη-φωσφορυλιωμένη CagA τότε δεσμεύεται ειδικά σε SHP-2 φωσφατάσης της τυροσίνης 11,15 για την ενεργοποίηση ενός φωσφορυλάση, η οποία προκαλεί την επίδραση καταρράκτη που παρεμβαίνει με την οδό μεταγωγής σήματος του κυττάρου-ξενιστή, οδηγώντας σε μια αναδιάρθρωση του κυττάρου-ξενιστή κυτταροσκελετό και το σχηματισμό των κολιμπρί φαινότυπο [11], [16]. Ταυτόχρονα μέσω της ενεργοποίησης που ενεργοποιείται από μιτογόνο κινάσης πρωτεΐνης (ΜΑΡΚ), εξωκυτταρικό σήμα ρυθμιζόμενη κινάσης (ERK) [17] και κινάσης εστιακής προσκόλλησης (ΡΑΚ), CagA επίσης μπορεί να προκαλέσει διαχωρισμού κυττάρων και την ανάπτυξη διηθητική όγκου [18], [19 ], [20], [21]. Μια τέτοια διαδικασία κάνει CagA ένας πιο σημαντικός παράγοντας τοξικότητας στο
H. pylori
[22].
Εντός της μεταβλητής περιοχής του CagA, υπάρχουν μερικές διαφορετικές παρεμβαλλόμενες αλληλουχίες μεταξύ αυτών των μοτίβων EPIYA. Ένα αντίγραφο του EPIYA συν παρεμβαίνουν ακολουθία ταυτοποιείται ως τμήμα EPIYA. Τέσσερις μοναδικά είδη των τμημάτων EPIYA έχουν βρεθεί σε CagA, που ορίζεται ως EPIYA-Α, -Β, -C και -D [11]. Η CagA απομονωθεί από χώρες της Ανατολικής Ασίας, που ορίζεται ως Ανατολικής Ασίας CagA, περιέχει EPIYA-Α, EPIYA-Β και μοτίβα EPIYA-D. Η CagA από τις δυτικές χώρες, EPIYA-D, αντικαθίσταται από EPIYA-C. Ισχυρότερη δραστικότητα δέσμευσης φωσφορυλίωση μοτίβο του μοτίβου EPIYA-D οδηγεί σε μεγαλύτερη μορφολογικές αλλαγές από ό, τι το μοτίβο EPIYA-C μπορεί να προκαλέσει σε μολυσμένα κύτταρα [11]. Είναι αυξημένη δραστικότητα σύνδεσης αυτού του EPIYA-D μοτίβο και προκύπτουσες μορφολογικές αλλαγές που προσδιορίζει ως πιθανός παράγοντας για να εξηγήσει την υψηλότερη συχνότητα εμφάνισης καρκίνου του στομάχου σε χώρες της Ανατολικής Ασίας [23], [24].
Προηγούμενες μελέτες αποκάλυψαν μια παραλλαγή στον αριθμό των επαναλήψεων EPIYA μοτίβο τόσο της Ανατολικής Ασίας και της Δυτικής CagA, η οποία μπορεί να επηρεάσει βιολογικές δραστηριότητες. Yamaoka et al. [25] διαπίστωσε ότι στην Κολομβία και τις ΗΠΑ, την ικανότητα του CagA θετικών
H. pylori
να προκαλέσει γαστρική ατροφία του βλεννογόνου και εντερική μετάπλαση μπορεί να σχετίζεται με τον αριθμό των μοτίβων EPIYA στο στέλεχος CagA. Argent et al. [16] κατέληξε στο ίδιο συμπέρασμα αργότερα. Ωστόσο, σε αντίθεση με τις απόψεις δημοσιεύθηκαν από Lai et al. [26] με βάση τα ευρήματα της καμία σχέση μεταξύ του αριθμού των EPIYA μοτίβα στο στέλεχος CagA και κλινική νόσο μέσα σε 58 απομονώνει από την Ταϊβάν. Λαμβάνοντας υπόψη το μέγεθος και τη γεωγραφική περιορισμό αυτών των μελετών, η εγκυρότητα αυτού του συμπεράσματος είναι αμφισβητήσιμη. Εκτός από τον αριθμό των επαναλήψεων μοτίβο EPIYA, η διαφορά αλληλουχίας των στελεχών σε μεταβλητές περιοχές, επίσης, θα μπορούσε να προκαλέσει μια σημαντική διαφορά της παθογένειας, οι οποίες μπορεί να σχετίζονται με τις διαφορετικές ικανότητες των παθογόνων
H. pylori
[27].
Λόγω των πολύπλοκων και διαφορετικών αλυσίδων σε CagA, οι σχέσεις μεταξύ του πολυμορφισμού του CagA και κλινικές ασθένειες γίνει ένα πολύ ενδιαφέρον πρόβλημα της έρευνας. Πάντως, οι μοριακοί μηχανισμοί που αποτελούν τη βάση διαφορετικές γαστροδωδεκαδακτυλικών ασθενειών που προκαλούνται από CagA θετικά
H. pylori
λοίμωξη παραμένουν άγνωστα. Μέχρι τώρα οι περισσότερες μελέτες εξακολουθούν να περιορίζονται στην ανακάλυψη ή την αξιολόγηση της συσχέτισης μεταξύ του αριθμού των μοτίβων και των ασθενειών CagA EPIYA [28].
Στην εργασία αυτή, προτείνουμε μια συστηματική μέθοδο για την ανάλυση όχι μόνο τον αριθμό των EPIYA μοτίβα σε ακολουθίες CagA, αλλά και τα συγκεκριμένα μοτίβα ακολουθία παρεμβαίνουν περιοχές. Πρώτον, έχουμε εισαγάγει υπολογισμό εντροπία για τον εντοπισμό των καταλοίπων εντός της μεταβλητής περιοχής του CagA ως γαστρικών βιοδείκτες του καρκίνου. Στη συνέχεια, χρησιμοποιούμε μια εποπτευόμενη διαδικασία μάθησης για την ταξινόμηση του καρκίνου και μη καρκίνου από τη χρήση των πληροφοριών της ανιχνεύονται υπολείμματα στα CagA όπως τα χαρακτηριστικά. Επιλέγουμε την υποστήριξη μηχανημάτων φορέα (SVM) ως ένα δυαδικό ταξινομητή και να συγκρίνουν τη μέθοδο μας με τους άλλους. Η προσέγγισή μας αποδεικνύει όχι μόνο την υπόθεσή μας ότι η αλληλουχία μεταβλητής περιοχής του CagA περιέχει πληροφορίες για τη διάκριση διαφόρων ασθενειών, αλλά επίσης παρέχει ένα χρήσιμο εργαλείο για την πρόβλεψη της συσχέτισης μεταξύ των στελεχών νέα CagA και ασθενειών και για την ανίχνευση της βιοδείκτης επίσης.
η
Μέθοδοι
δεδομένα Προεπεξεργασία
με βάση την προηγούμενη περιγραφή στο Ref. [15], ονομάσαμε το μοτίβο EPIYA και τα ακόλουθα παρεμβαλλόμενες περιοχές R1, R2, R3, R3 ‘, R4 και R4’ (Σχήμα 1). Το Σχήμα 2 δείχνει τη σχέση θέσης μεταξύ του μοτίβου EPIYA (R1) και άλλες περιοχές ενδιαμέσως από τη χρήση των τύπων CagA Α-Β-D (Ανατολικής Ασίας υπότυπος) και Α-Β-C (Δυτική υπότυπος) ως παραδείγματα. R2 είναι σχετικά διατηρημένη και στα δύο υποτύπων, αλλά υπάρχουν σημαντικές διαφορές μεταξύ των περιφερειών παρεμβαλλόμενες R3 και R3 ‘, καθώς και μεταξύ των R4 και R4’. Ο υπότυπος της Ανατολικής Ασίας και της Δυτικής υποτύπου αντιμετωπίστηκαν ως δύο ανεξάρτητες ομάδες. Τα δεδομένα τους στην συνέχεια σε επεξεργασία και τα αποτελέσματα αναλύθηκαν μέσα σε κάθε ομάδα ξεχωριστά.
Όλα παρεμβαλλόμενες περιοχές εκχυλίστηκαν από τις αλληλουχίες CagA και να τεθεί στις αντίστοιχες ομάδες υποτύπου, και στη συνέχεια εφαρμόστηκαν οι πολλαπλές ευθυγραμμίσεις αλληλουχίας για κάθε ομάδα ξεχωριστά χρησιμοποιώντας Clustal X έκδοση 2.0.3 [29]. Τα προφίλ ακολουθίες (Εικόνα 1) κατασκευάστηκε χρησιμοποιώντας το Weblogo 3 [30].
Η
Καταλοίπων Ανίχνευση
Από CagA σχετίζεται με όλες σχεδόν τις γαστροδωδεκαδακτυλικών ασθενειών και απλή ανάλυση των EPIYA μοτίβο επαναλήψεις δεν αποφέρει κανένα στατιστικά σημαντικές διαφορές μεταξύ αυτών των ασθενειών, οι πληροφορίες που υποδεικνύει μια συγκεκριμένη ασθένεια μπορεί να κρύβεται στα ενδιάμεσα περιοχές. Αυτή η έρευνα υποθέτει ότι υπάρχει ένα σύνολο καταλοίπων ή συνδυασμών καταλοίπων που θα μπορούσε να είναι χρήσιμη ως ένας δείκτης μιας συγκεκριμένης ασθένειας. Αυτή η μελέτη επικεντρώνεται στην γαστρικού καρκίνου και χρησιμοποιεί τις ομάδες του καρκίνου /μη-καρκίνου ως παράδειγμα.
Η
Με βάση τις ευθυγραμμισμένες σειρές για κάθε περιοχή παρεμβαίνουν, συγκεκριμένα κατάλοιπα εντοπίστηκαν με τη σύγκριση της διαφοράς της συνδυαστικής εντροπίας [31] μεταξύ των καρκινικών και μη καρκινικών ομάδες. Αυτή η διαδικασία περιλαμβάνει τα ακόλουθα βήματα:
Πρώτα απ ‘όλα, διαιρούμε τις δεδομένες πολλαπλές ευθυγραμμίσεις για όλες τις παρεμβαλλόμενες περιοχές σε δύο ομάδες: γαστρικό ομάδα του καρκίνου και ομάδα μη-καρκίνου. Για κάθε στήλη πολλαπλών ευθυγραμμίσεων, υπολογίζουμε την εντροπία φόντο (. Eq 1) και της συνδυαστικής εντροπία (. Eq 2), που περιγράφεται ως εξής: (1) όπου το αντιπροσωπεύει τον αριθμό των ακολουθιών της ομάδας
k
. δείχνει τον αριθμό των υπολειμμάτων του τύπου στη στήλη
i
της ομάδας
k
. είναι ο αριθμός των καταλοίπων του τύπου στη στήλη
i
. αντιπροσωπεύει το συνολικό αριθμό των ακολουθιών σε ευθυγράμμιση (2) όπου
Στη συνέχεια, η διαφορά μεταξύ της εντροπίας συνδυαστική εντροπία και εντροπίας φόντο υπολογίζεται:. (3).
Σχήμα 3 απεικονίζει την έννοια εντροπίας χρησιμοποιώντας τρεις ακραίες περιπτώσεις. Στην περίπτωση P1, τα αμινοξέα είναι «τυχαία και ομοιόμορφα κατανεμημένα» πάνω σε όλες τις ομάδες και δεν υπάρχει καμία σημαντική διατηρημένο πρότυπο για τη θέση αυτή. Υπόθεση Ρ2 αντιπροσωπεύει μια «παγκόσμια διατηρημένη» μοτίβο και όλα τα αμινοξέα είναι τα ίδια και στις δύο ομάδες. Στην περίπτωση Ρ3, μερικά ειδικά αμινοξέα συντηρημένα μόνο σε συγκεκριμένες ομάδες και διαφορετικές ομάδες έχουν διαφορετικά αμινοξέα. Καλούμε αυτή την περίπτωση «τοπικά συντηρημένα».
Σύμφωνα με τα αποτελέσματα του υπολογισμού της διαφοράς εντροπίας για τις τρεις παραπάνω περιπτώσεις, η συνδυαστική εντροπία είναι και για τους δύο «παγκόσμιο συντηρημένα» και «τοπικά συντηρημένα» περιπτώσεις. Για «τυχαία και ομοιόμορφα κατανεμημένα» περίπτωση, παίρνει τη μέγιστη τιμή. Μπορούμε να διακρίνουμε τα «συντηρούνται» και «τυχαία και ομοιόμορφα κατανεμημένα» περιπτώσεις με βάση την συνδυαστική εντροπία, αλλά αυτό δεν βοηθά να πάρει «τοπικά συντηρημένο» υπόθεσης από όλους »συντηρημένες» περιπτώσεις. Όταν εξετάζουμε την εντροπία φόντο την ίδια στιγμή, παίρνει τη μέγιστη τιμή, 0 και μέση τιμή για την «τυχαία και ομοιόμορφα κατανεμημένη« υπόθεση », σε παγκόσμιο επίπεδο συντηρημένα« υπόθεση », τοπικά συντηρημένα» περίπτωση, αντίστοιχα. Τέλος, οι διαφορές για τις τρεις παραπάνω περιπτώσεις είναι :,, και παίρνει την ελάχιστη τιμή. Ως εκ τούτου, η διαφορά εντροπία είναι μια σωστή μέτρηση για την ανίχνευση μιας «τοπικά διατηρημένη» μοτίβο ακολουθίας.
Feature-εντροπία Υπολογισμός
Με βάση τον παραπάνω υπολογισμό, μπορεί να προσδιοριστεί ότι η σωστή ομαδοποίηση μπορεί να ελαχιστοποιήσει η διαφορά εντροπία για αυτά τα κατάλοιπα ανήκουν στην «τοπικά διατηρημένη« υπόθεση. Για την εκτέλεση μιας δοκιμής, μία αλληλουχία επιλέγεται, ενώ το υπόλοιπο των αλληλουχιών χωρίζονται σε γαστρικό καρκίνο ομάδα και μία ομάδα μη-καρκίνου. Για όλα τα επιλεγμένα υπολείμματα, η επιλεγμένη αλληλουχία τοποθετείται μέσα στο γαστρικό καρκίνο ομάδα να υπολογίσει τη διαφορά εντροπία, και στη συνέχεια τοποθετείται σε ομάδα μη καρκινικά για να πάρετε την αντίστοιχη διαφορά εντροπίας. Τέλος, επιτυγχάνεται για όλα τα επιλεγμένα υπολείμματα που χρησιμοποιούνται ως εντροπία λειτουργία.
Η κατάταξη του CagA Ακολουθίες
Σύνολο δεδομένων.
Ψάξαμε το National Center for Biotechnology Information (NCBI ), το Swiss-Prot /τρέμουν και DDBJ βάση δεδομένων πρωτεϊνών και έλαβε 535 στελέχη του
H. pylori
CagA πρωτεΐνη. Μεταξύ αυτών, υπάρχουν 287 East στελέχη Ασίας υποτύπου και 248 στελέχη της Δυτικής υποτύπου. Στην Ανατολή ασιατική ομάδα υπότυπο, 47 από 287 στελέχη προέρχονται από ασθενείς με καρκίνο του στομάχου και τα υπόλοιπα από άλλες ασθένειες. Στη Δυτική ομάδα υπότυπο, υπάρχουν 37 στελέχη από τους ασθενείς με γαστρικό καρκίνο, και τα υπόλοιπα είναι από άλλες ασθένειες ή τους συνήθεις ελέγχους, συμπεριλαμβανομένων των 24 στελεχών από εθελοντές των οποίων η υγεία (ασθένεια) κατάσταση ήταν άγνωστη.
Ροή εργασιών.
το σχήμα 4 δείχνει τη ροή εργασίας της διαδικασίας ταξινόμησης /πρόβλεψη:
Επιλέξτε ένα στέλεχος όπως το στέλεχος δοκιμή
Εφαρμόστε ένα bootstrap διαδικασία για τα υπόλοιπα στελέχη να πάρει. τα στελέχη εκπαίδευσης.
Υπολογίστε τη λειτουργία της εντροπίας για το στέλεχος τεστ βασίζεται σε στελέχη της κατάρτισης και να το αποθηκεύσετε ως τα δεδομένα δοκιμής.
Υπολογίστε τη λειτουργία της εντροπίας για κάθε στέλεχος στο σύνολο στέλεχος κατάρτισης με βάση εκπαίδευση στελεχών και να τις αποθηκεύσετε ως δεδομένα εκπαίδευσης.
Δημιουργία προτύπου ταξινόμησης με τη χρήση των δεδομένων εκπαίδευσης.
Ταξινομήστε τα δεδομένα δοκιμής σύμφωνα με το πρότυπο ταξινόμησης.
Επαναλάβετε αυτή τη διαδικασία πέντε φορές, και στη συνέχεια να υπολογίσει το μέσο όρο ως το τελικό αποτέλεσμα.
η
Bootstrapping.
ένα σημαντικό ζήτημα για την οικοδόμηση ενός μοντέλου ταξινόμησης σε αυτή την περίπτωση είναι η μεγάλη διαφορά από τα μεγέθη δείγματος μεταξύ καρκίνο και μη καρκινικές ομάδες, οι οποίες θα μπορούσαν να προκαλέσουν μεροληψία στα αποτελέσματα της κατάταξης. Μια διαδικασία bootstrapping εφαρμόστηκε για την αντιμετώπιση αυτού του ζητήματος. Σε κάθε ομάδα υπότυπο, για κάθε σετ δεδομένων /δοκιμή εκπαίδευση, όλα τα δείγματα μη καρκινικών συμπεριλήφθηκαν, και στη συνέχεια, τα στελέχη συνεχώς αντλούνται από την ομάδα του καρκίνου σε τυχαία βάση μέχρι την επίτευξη του ίδιου μεγέθους της ομάδας μη-καρκίνου. Σε αυτή την περίπτωση, χρησιμοποιήθηκαν όλα τα διαθέσιμα στοιχεία, αν και τα δείγματα καρκίνου του χρησιμοποιήθηκαν πολλαπλές φορές δίδεται μικρότερου μεγέθους τους σε σύγκριση με την ομάδα μη-καρκίνου. Αυτή η διαδικασία εφαρμόστηκε πέντε φορές για να δημιουργήσει πέντε ανεξάρτητες ομάδες κατάρτισης για κάθε ακολουθία της δοκιμής. Το αποτέλεσμα ταξινόμηση /πρόβλεψη είναι ο μέσος όρος αυτών των πέντε ανεξάρτητων αποτελέσματα.
Cross-επικύρωσης.
Επειδή το μέγεθος των δεδομένων είναι μικρό, μια άδεια-one-out (LOO) διαδικασία διασταυρωμένης επικύρωσης διεξήχθη. Αυτό δεν είναι μόνο μια εκτίμηση των επιδόσεων ταξινομητή σε δεδομένα εκπαίδευσης /δοκιμή, αλλά και μια εκτίμηση της δύναμης πρόβλεψη για νέες περιπτώσεις.
SVM.
Εμείς επιλέξαμε SVM ως δυαδικά ταξινομητής και να χρησιμοποιηθεί η φορείς γνώρισμα-εντροπία να εκπαιδεύσει και να δοκιμάσει το ταξινομητή. Στην περίπτωση των δύο κατηγοριών ταξινόμησης μαλακό περιθώριο, η συνάρτηση απόφαση είναι ένα σταθμισμένο γραμμικό συνδυασμό καθορίζονται ως εξής: (4) όπου το αντιπροσωπεύει μια λειτουργία πυρήνα ορίζονται από το χρήστη που μετρά τις ομοιότητες μεταξύ του διανύσματος χαρακτηριστικό εισόδου και των διανυσμάτων χαρακτηριστικών στην εκπαίδευση σύνολο δεδομένων. είναι το βάρος ανατεθεί στο χαρακτηριστικό διάνυσμα εκπαίδευση και δείχνει αν ένα στέλεχος CagA έχει σημανθεί με το θετικό κατηγορία (1) ή αρνητικά κατηγορία (-1). Η αρχέγονη πρόβλημα βελτιστοποίησης λαμβάνει τη μορφή: ελαχιστοποίηση της (5) με την επιφύλαξη (6), όπου. m είναι ο συνολικός αριθμός των στελεχών. είναι ένα χαλαρό μεταβλητή που μετρά το βαθμό της εσφαλμένης ταξινόμησης της αναφοράς. είναι μια παράμετρος του κόστους που επιτρέπει την διαπραγμάτευση off λάθος κατάρτισης κατά την πολυπλοκότητα του μοντέλου. w είναι η κανονική φορέα και β είναι η απόκλιση.
Μετά την σύγκριση των αποτελεσμάτων του πολυωνύμου, tanh και Gaussian πυρήνες ακτινική βάση, το αποτέλεσμα που προκύπτει με την RBF πυρήνα λειτούργησε το καλύτερο, όπου οι Gaussian πυρήνες ακτινικής βάσης (RBF 🙂 είναι για την εκμάθηση γενικού σκοπού, όταν δεν υπάρχει προηγούμενη γνώση σχετικά με τα δεδομένα. Το πακέτο SVM
Light (https://svmlight.joachims.org/) [32] χρησιμοποιήθηκε για την κατασκευή της εφαρμογής μας. Οι παράμετροι και ρυθμίστηκαν ώστε να πάρει το καλύτερο μοντέλο για τα δεδομένα εκπαίδευσης, όπως φαίνεται στα ακόλουθα. Όλες οι άλλες παράμετροι SVM τέθηκαν στις προεπιλεγμένες τιμές τους αξιολόγηση
Η
Απόδοση
Για την αξιολόγηση της απόδοσης του ταξινομητή, μια ποικιλία των μέτρων απόδοσης εφαρμόζονται:.. Η ακρίβεια, ευαισθησία και ειδικότητα. Ένα αληθώς θετικό (ΤΡ) είναι μία αλληλουχία σχετιζόμενη με τον καρκίνο ταξινομείται ως τέτοια, ενώ ένα ψευδώς θετικό (FP) είναι ένας μη-καρκινικές σχετίζονται αλληλουχία ταξινομηθεί ως σχετίζονται με τον καρκίνο, ένας ψευδώς αρνητικό (FN) είναι μια ακολουθία σχετίζονται με τον καρκίνο έχουν ταξινομηθεί ως μη -cancer σχετίζονται και μια αληθινή αρνητικό (ΤΝ) είναι ένας που δεν σχετίζονται με τον καρκίνο ακολουθία ταξινομούνται ως μη σχετίζεται με καρκίνο. Η ακρίβεια, η ευαισθησία (Sn), ειδικότητα (Sp) και συντελεστής συσχέτισης Matthews (MCC) της ταξινόμησης ορίζεται ως εξής: (7) (8) (9) (10) Δεδομένου ότι υπάρχουν μόνο δύο παραμέτρους για τον πυρήνα RBF και είναι ανεξάρτητες, εφαρμόσαμε ένα πλέγμα-αναζήτησης για τον προσδιορισμό των βέλτιστων παραμέτρων της ταξινομητή. Χρησιμοποιήσαμε ένα αρμονικό μέσο ευαισθησία και ειδικότητα, όπως η αντικειμενική συνάρτηση για τη βελτιστοποίηση της απόδοσης του μοντέλου για το σύνολο εκπαίδευσης, η οποία ορίζεται ως εξής:
(11)
Αποτελέσματα
ανίχνευσης καταλοίπων και χαρακτηριστικό Υπολογισμός
ο Πίνακας 1 παραθέτει όλα ανιχνεύονται υπολείμματα κλειδιά υπολογίζοντας τη διαφορά εντροπίας σε κάθε περιοχή παρεμβαίνει για τις δύο Δυτικής και της Ανατολικής Ασίας υποτύπους. Αν και υπάρχουν ορισμένες γεωγραφικές διακυμάνσεις της CagA αλληλουχιών μεταξύ της Δυτικής και της Ασίας υποτύπους Ανατολή, μερικά κοινά κατάλοιπα θα μπορούσε ακόμα να βρεθεί για να διακρίνουν τα καρκινικά και μη καρκινικά ομάδες. Προτείνει ότι αυτά τα υπολείμματα μπορεί να είναι πολύ σημαντική για τον καθορισμό της μολυσματικότητα του CagA και τη σχέση μεταξύ CagA και κάποιες συγκεκριμένες ασθένειες.
Η
Το υπόλειμμα οι θέσεις φαίνεται στο Σχήμα 5. Μια προηγούμενη μελέτη [27] αποκαλύπτει ότι τα διάφορα τμήματα EPIYA μπορεί να συνδεθεί με τις διάφορες κινάσες, π.χ., EPIYA-R2 και EPIYA-R3 /R3 ‘συνδέονται προς τον κινάσης ο-τερματικού Src (Csk), ενώ EPIYA-R4 και EPIYA-R4’ συνδέονται προς τον SHP-2 κινάσης να προκαλούν το φαινότυπο κολιμπρί. Η αλληλεπίδραση CagA-Csk ρυθμίζει προς τα κάτω CagA-SHP-2 σηματοδότηση που διαταράσσει κυτταρικές λειτουργίες για τον έλεγχο της μολυσματικότητα του CagA. Έχει βρεθεί ότι οι περισσότεροι ανιχνεύονται υπολείμματα ανήκουν σε R2 και «περιοχές και λίγα υπολείμματα σε R4 /R4 ‘R3 /R3 περιοχές έχουν εντοπιστεί. Αυτό μπορεί να οφείλεται R4 /R4 ‘έχει περισσότερο συντηρημένη αλληλουχία από τα R2, και R4 /R4’ είναι κοντύτερο από τα R3 /R3 ‘. Προτείνουμε ότι τα διαφορετικά μοτίβα καταλοίπων στα R2 ή περιοχές R3 /R3 ‘μπορεί να αλλάξει την ικανότητα να ρυθμίζει σηματοδότηση CagA-SHP-2, αλλάζοντας έτσι την μολυσματικότητα του CagA.
Ren et al. διαπίστωσαν ότι multimerizes CagA σε κύτταρα θηλαστικών [33]. Αυτό πολυμερισμού είναι ανεξάρτητη με την φωσφορυλίωση της τυροσίνης, αλλά σχετίζεται με το μοτίβο «FPLxRxxxVxDLSKVG», το οποίο ονομάζεται CM μοτίβο στην παρεμβαλλόμενη περιοχή της R3 ‘. Δεδομένου ότι το πολυμερισμό αποτελεί προϋπόθεση για την CagA-SHP-2 σύμπλεγμα σηματοδότησης και την επακόλουθη απελευθέρωση του SHP-2, το μοτίβο CM διαδραματίζει σημαντικό ρόλο στην CagA θετικά
H. pylori
τη μεσολάβηση του γαστρικού παθογένεια. Με πολλαπλά μοτίβα CM
H. pylori
στελέχη είναι πολύ πιθανόν σχετίζονται με σοβαρή γαστροδωδεκαδακτυλικών ασθενειών [33], [34], αλλά αυτή η παρατήρηση δεν μπορεί να εξηγήσει γιατί μπορεί να αναπτυχθεί διαφορετικά γαστροδωδεκαδακτυλικών ασθενειών με τον ίδιο ακριβή αριθμό των μοτίβων CM. Η μελέτη μας ανιχνεύθηκαν δύο κατάλοιπα στο μοτίβο CM της παρεμβαλλόμενη περιοχή R3 », η οποία θα μπορούσε να οδηγήσει στην αλλαγή του πολυμερισμού, αλλάζοντας έτσι τη μολυσματικότητα του CagA. Αυτό είναι σε συμφωνία με προηγούμενη ανακάλυψη [35] ότι η διαφορά αλληλουχίας μεταξύ της Ανατολικής Ασίας ΚΕ και της Δυτικής CM καθορίζει την συγγένεια πρόσδεσης μεταξύ CagA και SHP-2.
Αν και τα βασικά κατάλοιπα ανιχνεύθηκαν μπορεί να αποκαλύψει κάποια διαφορά μεταξύ του καρκίνου και μη καρκίνου του ομάδες, κανένα μεμονωμένο υπόλειμμα μπορεί να είναι ένας δείκτης για τον καρκίνο, όπως φαίνεται στο Σχήμα 5. Αυτή η έρευνα προβλέπει ότι ένας ειδικός συνδυασμός όλων ή μερικών ανιχνεύονται υπολείμματα θα μπορούσαν να έχουν υψηλή συσχέτιση με μία συγκεκριμένη νόσο. Για να επιβεβαιώσετε, διάφορα γραμμικά στατιστικά μοντέλα, π.χ. γραμμική παλινδρόμηση και λογιστικής παλινδρόμησης, εφαρμόστηκαν στους ανιχνεύονται χαρακτηριστικά για να αξιολογήσει τη σημασία της κάθε κατάλοιπο και τη συσχέτιση μεταξύ επιλεγμένων υπολειμμάτων και τον καρκίνο. Ωστόσο, κανένα από τα προαναφερόμενα μοντέλα ήταν σε θέση να παράγει ένα στατιστικά σημαντικό αποτέλεσμα. Δεδομένου ότι τα χαρακτηριστικά αυτά δεν μπορεί να τοποθετηθεί με απλό γραμμικά μοντέλα για την πρόβλεψη του καρκίνου, εφαρμόζοντας μια μέθοδο μηχανικής μάθησης για την ανάλυση και ταξινόμηση των στοιχείων αυτών καθίσταται αναγκαία.
Παράμετρος Κατάρτιση για την ταξινόμηση
Χρησιμοποιώντας τη δυτική ομάδα υποτύπος το παράδειγμα, ένα χαλαρό δίκτυο αναζήτησης παρουσιάστηκε για πρώτη φορά σε λειτουργία και (Σχήμα 6Α) και διαπίστωσε ότι το καλύτερο είναι γύρω για να πάρει την υψηλότερη τιμή F με το ποσοστό LOO διασταυρούμενης επικύρωσης 76%. Στη συνέχεια, μια λεπτότερη αναζήτηση πλέγμα διεξήχθη στην γειτονιά και μια καλύτερη τιμή F ελήφθη με 79,7% LOO διασταυρωμένης επικύρωσης σε. Η ίδια διαδικασία χρησιμοποιήθηκε για την Ανατολική Ασία ομάδα υποτύπου και το καλύτερο LOO ποσοστό διασταυρωμένης επικύρωσης 72,6% επιτεύχθηκε σε.
(Α) Το οικόπεδο περίγραμμα τιμή F που προκύπτει από ένα χαλαρό δίκτυο αναζήτησης σε μια υπερ φάσμα παραμέτρων για τη Δυτική ομάδα υπότυπο. (Β) Το οικόπεδο περίγραμμα τιμή F που προκύπτει από ένα χαλαρό δίκτυο αναζήτησης σε μια υπερ σειρά παραμέτρων για μια τυχαία ανακατεμένη Δυτικής ομάδα υπότυπο με την υψηλότερη τιμή F.
Η
Δεδομένου ότι δεν υπάρχουν προηγούμενες μελέτες ή υπολογιστικών μεθόδων για το ίδιο θέμα, την αξιολόγηση της απόδοσης της νέας μεθόδου αυτής της έρευνας είναι δύσκολη. Για να εκτιμηθεί το περιεχόμενο των πληροφοριών των ακολουθιών από την άποψη των απαιτητικών δύναμή τους να προβλέψουν καρκίνο, μια τυχαία διαδικασία ανακατέματος χρησιμοποιήθηκε για την κατασκευή του ομάδα ελέγχου. Πρώτον, όλες οι αλληλουχίες από την Δυτική υποτύπου τοποθετήθηκαν μαζί για να οικοδομήσουμε μια πισίνα ακολουθία. Δεύτερον, επιλέγεται τυχαία τον ίδιο αριθμό αλληλουχιών ως ομάδα καρκίνου από την πισίνα αλληλουχία και υποβάλλεται σε επεξεργασία το υπόλοιπο των αλληλουχιών ως η ομάδα μη-καρκίνου. Στη συνέχεια, η όλη διαδικασία κατάρτισης εφαρμόστηκε σε πρόσφατα ανακατεύονται τα δεδομένα για να βρει το καλύτερο. Τα παραπάνω στάδια επαναλήφθηκαν πέντε φορές για να δημιουργήσει πέντε ανεξάρτητες ανακατεύονται σύνολα δεδομένων. Το ένα με την υψηλότερη
F
αξία, που ισούται με 46,6% επελέγη και πλοκή περιγράμματος του δείχνεται στο Σχήμα 6Β. Αυτή η τυχαία ανακάτεμα αξιολόγηση εφαρμόστηκε επίσης στα Ανατολικής Ασίας δεδομένων υποτύπου και το καλύτερο
F
τιμή ήταν στο 54,3%. Συγκρίνοντας τα δύο οικόπεδα δείχνει τη σημαντική διαφορά των
F
τιμές μεταξύ των δεδομένων με τη σωστή ομαδοποίηση του καρκίνου και μη καρκίνου υποθέσεις στην κατάρτιση και τα καλύτερα τυχαία ανακατεύονται δεδομένων. Το αποτέλεσμα δείχνει ότι οι παρεμβαίνοντες περιοχές είναι κατατοπιστική να γίνει διάκριση μεταξύ των καρκινικών και μη καρκινικών ομάδες και η μέθοδός μας μπορεί να χρησιμοποιήσει τις πληροφορίες αποτελεσματικά.
Η κατάταξη Απόδοση
Υπάρχουν κυρίως τρεις κατηγορίες ταξινόμησης ακολουθίας μεθόδους: χαρακτηριστικό που βασίζεται, εξ αποστάσεως σειρά που βασίζεται και το μοντέλο που βασίζεται. Η μέθοδος που περιγράφεται σε αυτό το άρθρο ανήκει στην κατηγορία χαρακτηριστικό που βασίζεται. Έχουμε επιλέξει δύο από τα πιο δημοφιλή εργαλεία ταξινόμηση ακολουθία με τις αντιπροσωπευτικές μεθόδους άλλες δύο κατηγορίες για σύγκριση. BLAST [36] επιλέχθηκε για την κατηγορία με βάση απόσταση αλληλουχία, αφού είναι το πιο ευρέως χρησιμοποιούμενο εργαλείο σύγκρισης αλληλουχίας. Για την κατηγορία βάσει μοντέλου, το κρυμμένο μοντέλο Markov είναι η τυπική μέθοδος για την ανάλυση της αλληλουχίας και ευρέως χρησιμοποιούμενο εργαλείο του, HMMER [37], επιλέχθηκε. Για τη διαδικασία κατάταξης των δύο BLAST και HMMER, χρησιμοποιήσαμε τις προεπιλεγμένες παραμέτρους των εργαλείων, εφάρμοσε την ίδια LOO διασταυρωμένης επικύρωσης ως τη μέθοδό μας, και να χρησιμοποιηθούν τα ίδια τύπους αξιολόγησης που αναφέρονται στην ενότητα Μέθοδος.
Πίνακας 2 παραθέτει τα αποτελέσματα της ταξινόμησης για όλες τις τρεις μεθόδους. Η μέθοδος SVM εκτελεί σημαντικά καλύτερα από τις άλλες δύο προσεγγίσεις. BLAST επιτευχθεί κοντά ακρίβειας με τη μέθοδο Εντροπία-SVM, αλλά προέβλεψε πολλά ψευδώς αρνητικά με χαμηλή ευαισθησία. HAMMER επιτευχθεί υψηλή ευαισθησία, αλλά με μικρή ειδικότητα. Λαμβάνοντας υπόψη
F
αξίες και
MCC
αξίες, τα πρόβλεψη αποτελέσματα από BLAST και HAMMER είναι σχεδόν τυχαία.
Η
Το αποτέλεσμα ταξινόμηση και το οικόπεδο περίγραμμα (Εικόνα 6) υποστηρίζουν σθεναρά την υπόθεση μας, δηλαδή, οι πληροφορίες των επιλεγμένων υπολειμμάτων σε παρεμβαλλόμενες περιοχές μπορούν να χρησιμοποιηθούν για την ταξινόμηση της σχέσης μεταξύ των αλληλουχιών CagA και γαστρικό καρκίνο, αν και η διαφορά μεταξύ των προφίλ του καρκίνου και μη καρκίνου ομάδες δεν είναι πολύ ισχυρή.
Σύγκριση μεταξύ των διαφόρων ασθενειών
H. pylori
μόλυνση σχετίζεται με τις περισσότερες γαστροδωδεκαδακτυλικών παθήσεων, μεταξύ των οποίων και γαστρικό καρκίνο είναι η πιο σοβαρή μία προκαλώντας περισσότερους από 700.000 θανάτους κάθε χρόνο παγκοσμίως [38]. Δεδομένου ότι
H. pylori
είναι ένας κύριος παράγοντας κινδύνου του γαστρικού καρκίνου (GC), η ανακάλυψη του μηχανισμού του
H. pylori
διαμεσολάβηση GC γίνεται μια κορυφαία καθήκον προτεραιότητας στον τομέα αυτό. Συγκρίνοντας με άλλες ασθένειες, οι πληροφορίες διάγνωση του GC από δημόσια δεδομένα είναι σχετικά ακριβή, και είναι ένας άλλος σημαντικός λόγος για να επικεντρωθεί σε GC στο παρόν έγγραφο. Οι μελέτες μας δεν περιορίζονται σε GC, όμως. Έχουμε επίσης προσπαθήσει να αξιολογήσει τις σχέσεις μεταξύ της διακύμανσης των αλληλουχιών CagA και διαφορετικές ασθένειες.
Δεδομένου ότι τα περισσότερα στοιχεία που συλλέχθηκαν από τις δημόσιες βάσεις δεδομένων, χωρίς ακριβείς πληροφορίες διάγνωση, πριν από την εφαρμογή μεθόδου μας σε δεδομένα CagA, θα επιμεληθεί το χέρι τους σχολιασμούς νόσο για όλα τα στελέχη με την αναθεώρηση της βιβλιογραφίας. Πίνακας S1 απαριθμεί τις κατανομές των σοβαρών ασθενειών τόσο για τη Δυτική και τις ομάδες υποτύπου Ανατολή Asain. Λόγω του περιορισμού του αριθμού στελέχους ορισμένων ασθενειών, όπως η ατροφική γαστρίτιδα (AG) και γαστρικό έλκος (GU), μπορούμε τελικά πήρε χρόνια γαστρίτιδα (CG) και δωδεκαδακτυλικό έλκος (DU), όπως τις ομάδες ελέγχου για την αξιολόγηση. Η ομάδα DU στον υπότυπο της Ανατολικής Ασίας περιέχει 79 στελέχη, καθώς και μια διαδικασία bootstrapping εφαρμόστηκε σε όλες τις άλλες ομάδες για να κάνουν τον ίδιο αριθμό στελεχών με την ομάδα της Ανατολικής Ασίας DU. Αυτό το βήμα εγγυάται όλες οι συγκρίσεις στην ίδια κλίμακα, δεδομένου ότι η αξία της συνδυαστικής εντροπία εξαρτάται από τον αριθμό των αλληλουχιών. Χρησιμοποιήσαμε Τύπου (3) για να υπολογίσει τη διαφορά εντροπία κάθε θέση μεταξύ GC και ομάδες CG /DU, και στη συνέχεια προστίθενται όλα εντροπία διαφορές ως η συνολική διαφορά μεταξύ GC και ομάδες CG /DU, όπως φαίνεται στον Πίνακα S2. Με τη σύγκριση των αποτελεσμάτων μεταξύ των δύο ομάδων μέσα στην ίδια γεωγραφική υποτύπου (Ανατολικής Ασίας ή της Δυτικής υπότυπο), είναι σύμφωνη με την κλινική άποψη ότι η γαστρίτιδα έχει ισχυρότερη σχέσεις με τον καρκίνο από ό, τι στο DU [39] (γενικά, περιπτώσεις γαστρίτιδας μπορεί να περιέχει κάποια λαθραία ή αδιάγνωστες χρόνια ατροφική γαστρίτιδα και εντερική μεταπλασία περιπτώσεις, με την οποία οι ασθενείς έχουν υψηλό κίνδυνο να αναπτύξουν GC). Με την εξέταση την ίδια ασθένεια ζεύγους μεταξύ δύο γεωγραφικών υποτύπων, εξήγησε επίσης το λοιμογόνο διαφορά μεταξύ της Ανατολικής Ασίας και τα Δυτικά υποτύπους. Επιπλέον, λόγω της μεγάλης ομοιότητας μεταξύ των διαφόρων ομάδων της νόσου του υποτύπου της Ανατολικής Ασίας, ακόμη και με περισσότερα στοιχεία, δεν μπορούμε ακόμη να φτάσουν την ίδια ακρίβεια ταξινόμησης ως την Δυτική ομάδα υπότυπο.
Με βάση τα παραπάνω αποτελέσματα, CagA ακολουθίες δείχνουν δυνατότητα να διακρίνει πολλαπλά γαστροδωδεκαδακτυλικών ασθενειών. Προκειμένου να αξιολογηθεί η απόδοση ταξινόμησης, χρησιμοποιήσαμε ομάδα DU να αντικαταστήσει ομάδα μη-Cancer, και στη συνέχεια να εφαρμοστεί η όλη διαδικασία ταξινόμησης και πάλι χωρίς bootstrapping, δεδομένου ότι οι δύο αυτές ασθένειες ομάδες έχουν συγκρίσιμα μεγέθη. Πίνακας S3 δείχνει τα αποτελέσματα της κατάταξης. Παρά το γεγονός ότι από την κλινική άποψη, DU έχει την negtive συσχέτιση με GC μεταξύ όλων των γαστροδωδεκαδακτυλικών ασθενειών [40], η απόδοση κατάταξη των δύο ομάδων υποτύπου ήταν μόνο ελαφρώς βελτιωθεί. Έτσι στελέχη CagA σχετίζονται με τον καρκίνο μπορεί να έχει ορισμένα μοναδικά μοτίβα ακολουθία σε σύγκριση με όλες τις άλλες γαστροδωδεκαδακτυλικών ασθενειών. Ως εκ τούτου, συντονίζοντας ένα υποσύνολο της ομάδας ελέγχου μπορεί να μην είναι σε θέση να βελτιώσει την ακρίβεια ταξινόμησης.
Συζήτηση
Παρά το γεγονός ότι η έρευνα δείχνει ότι υπάρχουν δείκτες ακολουθία να γίνει διάκριση μεταξύ της ομάδας του καρκίνου και ομάδα μη-καρκίνου , οι μεγάλες προφίλ των δύο αυτών ομάδων είναι πολύ παρόμοια με διάκριση από τη χρήση παραδοσιακών μεθόδων, δεδομένου ότι οι ακολουθίες CagA είναι συνολικά πολύ συντηρημένες. Ως εκ τούτου, έχουμε επικεντρωθεί στον προσδιορισμό των ενημερωτικών υπολείμματα, με ποσοτικοποίηση των πληροφοριών αυτών επιλεγμένα υπολείμματα, και στη συνέχεια να το χρησιμοποιεί για να σχεδιάσουμε ένα ταξινομητή που μπορεί να προβλέψει αν μια νέα ακολουθία ανήκει στην ομάδα του καρκίνου ή της ομάδας μη-καρκίνου. Η μέθοδος αυτή ρίχνει φως όχι μόνο στις σχέσεις μεταξύ των αλληλουχιών CagA και καρκίνου του στομάχου, αλλά επίσης μπορεί να αποτελέσει ένα χρήσιμο εργαλείο για τη διάγνωση του καρκίνου του γαστρικού ή την πρόγνωση.
Οι μηχανισμοί του
H. pylori
προκαλώντας τα διαφορετικά γαστροδωδεκαδακτυλικών ασθένειες είναι ακόμα ασαφής, ωστόσο, είναι πιθανό ότι διάφοροι γαστροδωδεκαδακτυλικών ασθένειες που προκαλούνται από
H. pylori
μερίδιο λοίμωξη κάποια μοτίβα ακολουθία στα ενδιάμεσα περιοχές. Μικρές μεταβολές των αμινοξέων σε αυτά τα σημαντικά υπολείμματα μπορεί να οδηγήσει στην μολυσματικότητα διακύμανση του CagA στελεχών που προκύπτουν σε διαφορετικές γαστροδωδεκαδακτυλικών παθήσεων. Ενώ CagA θα μπορούσε να είναι ένας δείκτης για την ανίχνευση πιθανού κινδύνου του καρκίνου, χρησιμοποιώντας CagA και μόνο για να διακρίνει όλες τις γαστροδωδεκαδακτυλικών ασθένειες δεν είναι ρεαλιστική. Ως μια μελλοντική μελέτη, θα αναπτύξουμε τα νέα μοντέλα που διαφοροποιούν διάφορες γαστροδωδεκαδακτυλικών ασθενειών από CagA και άλλα γονίδια.
Υποστήριξη Πληροφορίες
Πίνακα S1. .
Αριθμός στελεχών σε κάθε ασθένεια
doi: 10.1371 /journal.pone.0036844.s001
(DOC)
Πίνακας S2. .
Συνολική διαφορά εντροπία μεταξύ καρκίνο του στομάχου και δύο άλλες ασθένειες ομάδες
doi: 10.1371 /journal.pone.0036844.s002
(DOC)
Πίνακα S3. απόδοση
κατάταξη μεταξύ καρκίνο του στομάχου και του δωδεκαδακτύλου ομάδες έλκος τόσο για την Δυτική και ασιατικών υποτύπους Ανατολή
doi:. 10.1371 /journal.pone.0036844.s003
(DOC)
You must be logged into post a comment.