PLoS One: Βελτιωμένη ταξινόμηση του καρκίνου του πνεύμονα Χρησιμοποιώντας Radial Basis Function Νευρωνικών Δικτύων με Affine Μετασχηματισμοί του Voss Representation


Αφηρημένο

Ο καρκίνος του πνεύμονα είναι μία από τις ασθένειες που ευθύνεται για ένα μεγάλο αριθμό περιπτώσεων θανάτου που σχετίζονται με τον καρκίνο σε όλο τον κόσμο. Η συνιστώμενη πρότυπο για τον προσυμπτωματικό έλεγχο και την έγκαιρη διάγνωση του καρκίνου του πνεύμονα είναι η χαμηλή δόση αξονική τομογραφία. Ωστόσο, πολλοί ασθενείς διαγιγνώσκονται πεθαίνουν μέσα σε ένα χρόνο, γεγονός που καθιστά αναγκαία την εξεύρεση εναλλακτικών προσεγγίσεων για τον προσυμπτωματικό έλεγχο και την έγκαιρη διάγνωση του καρκίνου του πνεύμονα. Παρουσιάζουμε υπολογιστικές μεθόδους που μπορούν να εφαρμοστούν σε ένα λειτουργικό πολλαπλών-γονιδιωματικής σύστημα ταξινόμησης, διαλογή και την έγκαιρη ανίχνευση του καρκίνου του πνεύμονα των θυμάτων. Δείγματα από τα κορυφαία δέκα γονίδια βιοδείκτη που έχουν αναφερθεί προηγουμένως να έχουν την υψηλότερη συχνότητα του πνεύμονα μεταλλάξεις και οι ακολουθίες των φυσιολογικών γονιδίων βιοδεικτών του καρκίνου συλλέχθηκαν αντίστοιχα από την κοσμική και NCBI βάσεων δεδομένων για την επικύρωση των υπολογιστικών μεθόδων. Τα πειράματα έγιναν με βάση τους συνδυασμούς των Z-καμπύλης και τετράεδρο affine μετασχηματισμών, Ιστόγραμμα της Oriented Gradient (HOG), πολυστρωματικές perceptron και Λειτουργία Βάση Gaussian Radial (RBF) νευρωνικά δίκτυα για να αποκτήσει ένα κατάλληλο συνδυασμό των υπολογιστικών μεθόδων για την επίτευξη βελτιωμένης ταξινόμηση των πνευμόνων γονίδια του καρκίνου του βιοδείκτη. Τα αποτελέσματα δείχνουν ότι ο συνδυασμός των affine μετασχηματισμών του Voss εκπροσώπησης, HOG γονιδιωματική χαρακτηριστικά και Gaussian RBF νευρωνικό δίκτυο βελτιώνει αισθητά την ακρίβεια ταξινόμησης, η ειδικότητα και η ευαισθησία των γονιδίων βιοδεικτών του καρκίνου του πνεύμονα, καθώς και την επίτευξη χαμηλό μέσο τετραγωνικό σφάλμα

Αιτιολογική αναφορά.: Adetiba Ε, Olugbara OO (2015) Βελτιωμένη ταξινόμηση του καρκίνου του πνεύμονα Χρησιμοποιώντας Radial Basis Function Νευρωνικών Δικτύων με Affine Μετασχηματισμοί του Voss Αντιπροσωπείας. PLoS ONE 10 (12): e0143542. doi: 10.1371 /journal.pone.0143542

Επιμέλεια: Xia Li, Χαρμπίν Ιατρικό Πανεπιστήμιο, ΚΙΝΑ

Ελήφθη: 17 Αυγούστου του 2015? Αποδεκτές: 5, Νοέμβρη του 2015? Δημοσιεύθηκε: 1 του Δεκεμβρίου του 2015

Copyright: © 2015 Adetiba, Olugbara. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Δεδομένα Διαθεσιμότητα: Για τη μελέτη αυτή , ο κατάλογος των σωματικών μεταλλάξεων στον καρκίνο (COSMIC) είναι μια βάση δεδομένων των σωματικών μεταλλάξεων στον καρκίνο του ανθρώπου που χρησιμοποιούνται οι συγγραφείς. Οι δέκα γονίδια με τη μεγαλύτερη συχνότητα των μεταλλάξεων στον πνεύμονα έχουν τα ακόλουθα σύμβολα: TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 και SMARCA4. Αυτά τα σύμβολα ελήφθησαν από τη βάση δεδομένων HUGO Gene επιτροπή ονοματολογίας (HGNC)

Χρηματοδότηση:.. Χρηματοδοτείται από το Durban University of Technology Διεύθυνση Έρευνας και Υποστήριξης Μεταπτυχιακών

Αντικρουόμενα συμφέροντα: Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα.

Εισαγωγή

Ο καρκίνος του πνεύμονα είναι ένας κακοήθης όγκος στον ιστό των πνευμόνων του ανθρώπου που παραμένει μία από τις πιο κορυφαίες αιτίες των περιπτώσεων θανάτου που σχετίζονται με τον καρκίνο σε όλο τον κόσμο [1]. Χαμηλή δόση Αξονική Τομογραφία (CT) είναι η συνιστώμενη πρότυπο για τη διαλογή και την έγκαιρη διάγνωση του καρκίνου του πνεύμονα [2]. Ωστόσο, το ποσοστό επιβίωσης του καρκίνου του πνεύμονα είναι πολύ χαμηλή και περισσότερο από το ήμισυ των ασθενών που διαγιγνώσκονται με τη νόσο πεθαίνουν εντός ενός έτους [3]. Ο καρκίνος του πνεύμονα αναπτύσσεται λόγω της παρατεταμένης γενετική βλάβη στα φυσιολογικά κύτταρα πνεύμονα με καρκινογόνες ουσίες από τον καπνό του τσιγάρου και άλλες πηγές. Περισσότερα από 50 αναδρομικές μελέτες του καρκίνου του καπνίσματος και του πνεύμονα έχουν αναφερθεί να επιδείξουν μια εντυπωσιακή πρόοδο των κινδύνων του καρκίνου του πνεύμονα για τους καπνιστές ή παθητικούς καπνιστές σε σύγκριση με τους μη καπνιστές [4]. Στην πραγματικότητα, πρόσφατες μελέτες [5,6] έχουν πιστοποιείται με το κάπνισμα ως αδιαμφισβήτητα μία από τις κύριες αιτίες του καρκίνου του πνεύμονα, παρόλο που το 10% περίπου των περιπτώσεων καρκίνου του πνεύμονα αποδίδονται στις καρκινογόνες επιδράσεις του φυσικού αερίου ραδονίου, το αρσενικό, το νικέλιο, τον αμίαντο, χρώμιο και γενετική προδιάθεση. Η καύση του καπνού στα αποτελέσματα τσιγάρο σε χημικές διεργασίες όπως η πυρόλυση, η οξείδωση, υδρογόνωση, αποκαρβοξυλίωση και αφυδάτωση των συστατικών. Ως εκ τούτου, είναι πάνω από 3000 χημικές ουσίες που παράγονται από τα οποία καρκινογόνοι υπεύθυνη για τα καρκίνους σταδιακά μέσα στις φάσεις των σωματιδίων και των ατμών. Οι καρκινογόνες ουσίες στη σωματιδιακή φάση περιλαμβάνει το βενζο (α) πυρένιο, διβενζο (a) ανθρακενίου, 5-methylchrysene, benzofluoranthenes, νικοτίνη, Ν-nitrosonornicotene, κατεχίνης, το νικέλιο, το κάδμιο και το πολώνιο. Ομοίως, οι καρκινογόνες ουσίες στην αέρια φάση είναι υδραζίνη, χλωριούχο βινύλιο, ουρεθάνη, φορμαλδεΰδη, οξείδια του αζώτου και nitrosodiethylamme. Αυτές οι γκάμες των χημικών ουσιών είναι είτε εμπνευστές του καρκίνου, πλήρη καρκινογόνες ουσίες, υποστηρικτές του όγκου ή συν-καρκινογόνες ουσίες. Κατά συνέπεια, χημικά ενεργοποιούν τα ογκογονίδια και απενεργοποίηση των ογκοκατασταλτικών γονιδίων στην κανονική του πνεύμονα για να παράγουν μεταλλάξεις που οδηγούν σε όγκους [7,8].

Η διαθεσιμότητα των τεράστιων όγκων δεδομένων μετάλλαξης του καρκίνου του πνεύμονα έχει γίνει η θεραπεία της νόσου γρήγορα προχωρεί πέρα ​​από τις παραδοσιακές προσεγγίσεις, όπως η χειρουργική επέμβαση, ακτινοθεραπεία και χημειοθεραπεία. Για μια σύγχρονη θεραπεία της νόσου, οι ποικιλίες των φαρμάκων για την ενίσχυση της «εξατομικευμένη ιατρική» έχουν αναπτυχθεί για να στοχεύσουν τις διάφορες γενετικές μεταλλάξεις προς τη διακοπή της ανάπτυξης του καρκίνου, προτού τεθεί σε προχωρημένο και μεταστατικό. Αυτά τα φάρμακα έχουν αποδειχθεί ιδιαίτερα αποτελεσματική με λιγότερες παρενέργειες σε σύγκριση με τις παραδοσιακές χημειοθεραπείες. Παραδείγματα στοχευμένων θεραπειών που έχουν εγκριθεί για τη θεραπεία του καρκίνου του πνεύμονα περιλαμβάνουν gefitinib, erlotinib, bevacizumab, sorafenib και πεπτίδιο 28-αμινοξέων (Ρ28). Αυτές οι θεραπείες στοχεύουν μεταλλάξεις στο EGFR και TP53 [9-11]. Ωστόσο, η ανάγκη για την ανάπτυξη γονιδιωματικής υπολογιστικών μεθόδων που βασίζονται για την ταξινόμηση, διαλογή και την έγκαιρη διάγνωση του καρκίνου του πνεύμονα είναι ιδιαίτερα καθοριστική. Αυτό συμβαίνει επειδή η συνιστώμενη χαμηλής CT δόση είναι μια απεικόνιση με βάση την τεχνολογία που δεν μπορεί να χρησιμοποιηθεί για ανίχνευση μετάλλαξης [2,4,7,11]. Αυτόματη γονιδιωματικής με βάση την ταξινόμηση, διαλογή και την έγκαιρη διάγνωση του καρκίνου του πνεύμονα θα πάει μαζί τρόπος για να βοηθήσει στο να προτείνουμε τα θύματα των γνωστών γενετικών μεταλλάξεων στον πνεύμονα για να επωφεληθούν από τις διαθέσιμες στοχευμένες θεραπείες ή να συμμετέχουν σε κλινικές δοκιμές για τα νέα ναρκωτικά.

στο [12], οι δείκτες της μεθυλίωσης του DNA και τα νευρωνικά δίκτυα έχουν αναφερθεί ως πιθανώς βιώσιμα εργαλεία για την αυτόματη ταξινόμηση του καρκίνου του πνεύμονα σε μικροκυτταρικό καρκίνο του πνεύμονα (SCLC) και μη μικροκυτταρικό καρκίνο του πνεύμονα (NSCLC). Markey et al. [13] ανέπτυξε ένα Κατηγοριοποίηση και Παλινδρόμηση Δέντρο (CART) εκπαιδεύονται με 26 χαρακτηριστικά για να ταξινομήσει 41 κλινικά δείγματα όπως η νόσος ή μη της νόσου. Τα χαρακτηριστικά υπολογίστηκαν από φασματοσκοπία μάζας των δειγμάτων ορού αίματος του καρκίνου του πνεύμονα και μη-καρκινικές υποκείμενα χρησιμοποιώντας τον λόγο και τα ύψη των κορυφών των πρωτεϊνών μάζας προς φορτίο. Ramani και ο Ιακώβ [14] σχεδίασαν μια υπολογιστική μέθοδος με τη χρήση των διαρθρωτικών και φυσικοχημικές ιδιότητες των πρωτεϊνικών αλληλουχιών. Χρησιμοποίησαν την Bayesian δίκτυο στη μέθοδο τους για την ταξινόμηση των όγκων του καρκίνου του πνεύμονα σε SCLC, NSCLC και κοινά μαθήματα. Guan et al. [15] χρησιμοποιείται Support Vector Machine (SVM), πριν από τη βιολογική γνώση και Πρόβλεψη Ανάλυση για μικροσυστοιχιών (PAM) για την ταξινόμηση του καρκίνου του πνεύμονα αδενοκαρκίνωμα. Οι προαναφερθείσες μελέτες είναι απαραίτητες βήματα προς τη σωστή κατεύθυνση, αλλά η διαλεύκανση των μεταλλάξεων περιεχόμενο των όγκων του πνεύμονα δεν έχει πλήρως αντιμετωπιστεί στη βιβλιογραφία. Αυτό σημαίνει ότι οι υποσχέσεις των στοχευμένων θεραπειών για να συλλάβουν αμέσως μεταλλάξεις στον πνεύμονα μπορεί να είναι φευγαλέα, ελλείψει σχετικών μεθόδων για τον έλεγχο και την έγκαιρη ανίχνευση των μεταλλάξεων του καρκίνου του πνεύμονα. Οι ερευνητές έχουν δείξει ότι συχνά μεταλλαγμένα γονίδια βιοδείκτη μπορεί να αξιοποιηθεί από το σχεδιασμό κιτ για τον έλεγχο και την έγκαιρη διάγνωση του καρκίνου του πνεύμονα [16]. Σύμφωνα με αυτή την πρόταση, μια μέθοδος πρόβλεψης του καρκίνου του πνεύμονα αναπτύχθηκε στο [17]. Η μέθοδος επικυρώθηκε με σύνολα δεδομένων του EGFR, KRAS και TP53, που είναι οι τρεις πρώτες συχνά μεταλλαγμένα γονίδια βιοδείκτη για την πρόβλεψη μεταλλάξεων στον καρκίνο του πνεύμονα [16]. Ensemble και μη σύνολο παραλλαγές των απανωτών Perceptron (MLP) νευρωνικό δίκτυο και SVM συγκρίθηκαν να προβλέψει έξι κατηγορίες γονιδίων βιοδεικτών και την καλύτερη ακρίβεια πρόβλεψης του 95,90% λήφθηκαν χρησιμοποιώντας το MLP νευρωνικό σύνολο του δικτύου [17].

Η πρώτη πρωταρχικός στόχος αυτής της μελέτης είναι να επεκταθεί η γονιδιωματική κάλυψη του μέθοδο που αναφέρεται στο [17] για δεκατέσσερις τάξεις των κορυφαίων δέκα συχνά μεταλλαγμένα γονίδια του καρκίνου του πνεύμονα βιοδείκτη. Τονίστηκε στη βιβλιογραφία ότι η απόδοση των αλγορίθμων ταξινόμησης μπορεί να επηρεαστεί για ένα μεγάλο αριθμό των τάξεων [18]. Κατά συνέπεια, ο δεύτερος στόχος της μελέτης αυτής είναι να ανακαλύψει μια σειρά από affine αμετάβλητες γονιδιωματικής χαρακτηριστικά για τη βελτίωση της κατάταξης των γονιδίων καρκίνου του πνεύμονα βιοδείκτη, παρά την αύξηση του αριθμού των κατηγοριών. Η συγκεκριμένη στόχος αυτός επιτυγχάνεται με την εξερεύνηση των Z-καμπύλης και τετράεδρο affine μετασχηματισμοί της Voss εκπροσώπηση, καθώς και το ιστόγραμμα της Oriented Gradient (HOG). Τα Z-καμπύλη και τετράεδρο affine μετασχηματισμών που χρησιμοποιούνται ως μέθοδοι νουκλεοτίδια μετασχηματισμού επειδή εγγενώς παράγουν διαστάσεις μειωμένη εκπροσώπηση του μετασχηματισμού Voss με μικρότερο υπολογιστικό κόστος [19,20]. Επιπλέον, οι συσχετισμένος μετασχηματισμένα νουκλεοτίδια είναι ανάλογες με τα σήματα εικόνας χρώμα, το οποίο το καθιστά εύκολο στη χρήση της μεθόδου HOG του τομέα επεξεργασίας εικόνας για την εξαγωγή ενός συνόλου χαρακτηριστικών γονιδιωματικών για βελτιωμένη ταξινόμηση των γονιδίων βιοδεικτών του καρκίνου του πνεύμονα. Ο τρίτος στόχος της μελέτης αυτής είναι να αποκτήσει ένα κατάλληλο συνδυασμό των υπολογιστικών μεθόδων για τη βελτίωση της κατάταξης των γονιδίων βιοδεικτών του καρκίνου του πνεύμονα. Συνδυασμοί των μετασχηματισμών affine του Voss εκπροσώπηση, η μέθοδος HOG, MLP νευρωνικό δίκτυο και Λειτουργία Βάση Gaussian Radial (RBF) νευρωνικό δίκτυο που πειραματικά διερευνηθούν για την επίτευξη αυτού του στόχου.

Υλικά και Μέθοδοι

Σύνολο δεδομένων

Κανονική (μη-μεταλλαγμένο) αλληλουχίες νουκλεοτιδίων των δέκα διαφορετικών γονιδίων βιοδείκτη ελήφθησαν από το Εθνικό Κέντρο για Βιοτεχνολογικές πληροφοριών (NCBI) βάση δεδομένων. Ο λόγος για την επιλογή του NCBI είναι ότι είναι ένα από τα πιο ευρέως χρησιμοποιούμενα βάσεων δεδομένων στον Συναίνεση Συνεργατική αλληλουχία κωδικοποίησης (CCDS) κοινοπραξίας. Οι άλλες βάσεις δεδομένων CCDS είναι Ensembl Γονιδίωμα Browser, το Πανεπιστήμιο της Καλιφόρνιας Σάντα Κρουζ Γονιδίωμα Browser και Wellcome Trust Sanger Institute (WTSI) Γονιδίωμα Browser. Οι βάσεις δεδομένων CCDS παρέχουν εύκολη πρόσβαση προς την ίδια αλληλουχία DNA αναφοράς για κάθε γονίδιο βιοδείκτη, ανεξάρτητα από τις διαφορές στα δεδομένα και τις μεθόδους που χρησιμοποιούνται για την ανάλυση της αλληλουχίας. Η κοινοπραξία CCDS κομμάτια υψηλής ποιότητας πανομοιότυπα σχολιασμούς πρωτεΐνης στο ποντίκι αναφοράς και τα ανθρώπινα γονιδιώματα με ένα σταθερό αριθμό αναγνώρισης που ονομάζεται CCDS ID. Η σταθερότητα της ταυτότητας CCDS είναι επειδή η κοινοπραξία κάνει συνεχώς προσπάθειες για να εξασφαλιστεί ότι οι υπάρχουσες CCDS ενημερώνεται συνεχώς από οποιοδήποτε μέλος που συνεργάζονται [21]. Το σύμβολο, περιγραφή, ID CCDS και τον αριθμό των νουκλεοτιδίων από τα κορυφαία δέκα πνεύμονα γονίδια του καρκίνου του βιοδείκτη που χρησιμοποιούνται για την παρούσα μελέτη παρουσιάζονται στον Πίνακα 1.

Η

δεδομένα μετάλλαξη για την παρούσα μελέτη αποκτήθηκαν από τον Κατάλογο Σωματικών μεταλλάξεις στον καρκίνο (COSMIC) της βάσης δεδομένων και αποτελούνται από τα κορυφαία δέκα γονίδια βιοδείκτη στον καρκίνο του πνεύμονα. Η κοσμική βάση δεδομένων που αναπτύχθηκε και φιλοξενείται από την WTSI περιέχει περιπτώσεις επιμελημένες και αρχειοθετημένα σωματικές μεταλλάξεις στα βασικά γονίδια του καρκίνου του βιοδείκτη σε πολλά δείγματα καρκίνου [22]. Οι δέκα γονίδια βιοδεικτών στην κοσμική βάση δεδομένων με την υψηλότερη συχνότητα των μεταλλάξεων στον πνεύμονα κατά τη στιγμή αυτή η μελέτη διεξήχθη έχουν τα σύμβολα TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 και SMARCA4 [23 ]. Τα σύμβολα ελήφθησαν από τη βάση δεδομένων HUGO Gene επιτροπή ονοματολογίας (HGNC) και τα περισσότερα από αυτά τα γονίδια βιοδεικτών ήταν ειδικά αναφέρθηκαν ως συχνά μεταλλαγμένα γονίδια βιοδείκτη σε καρκίνο του πνεύμονα [24-29]. Συνολικά, εξάγαμε δείγματα 10784 μεταλλάξεις του καρκίνου του πνεύμονα και το σύνολο των δεδομένων που χρησιμοποιούνται για τον πειραματισμό μας περιλαμβάνει δεκατέσσερις διαφορετικές κατηγορίες, οι οποίες είναι

Κανονική

,

EGFR διαγραφή

,

EGFR Υποκατάσταση

,

KRAS Αντικατάσταση

,

TP53 διαγραφή

,

TP53 Αντικατάσταση

,

NF1 Αντικατάσταση

,

KMT2C Αντικατάσταση

,

CDKN2A Υποκατάσταση

,

STK11 διαγραφή

,

STK11 Αντικατάσταση

,

KMT2D Αντικατάσταση

,

ZNF521 Υποκατάσταση

και

SMARCA4 Υποκατάσταση

.

τα συνολικά στατιστικά στοιχεία των επιμελήθηκε και μοναδικά δείγματα της κανονικής και οι μεταλλάξεις δεδομένα παρουσιάζονται στον πίνακα 2. τα δεδομένα μετάλλαξη διαγραφής για τα γονίδια βιοδεικτών όπως KRAS, NF1, KMT2C, CDKN2A, KMT2D, ZNF521 και SMARCA στο COSMIC βάση δεδομένων είναι είτε ανύπαρκτη ή εξαιρετικά λίγες, η οποία ενημέρωσε την απόφασή μας να τους αποκλείσει από τα δείγματα δεδομένων μας.

Η

Μετασχηματισμός Γονιδιωματική νουκλεοτίδια σε έγχρωμων εικόνων

Το γονίδιο ως βασική μονάδα της κληρονομικότητας αποτελείται από μια ειδική αλληλουχία του δεοξυριβονουκλεϊκού οξέος (DNA) ή ριβονουκλεϊκό οξύ (RNA). Ένα DNA είναι ένα πολυμερές που αποτελείται από μικρά μόρια που ονομάζονται νουκλεοτίδια τα οποία μπορούν να διακριθούν από τέσσερις βάσεις. Αυτές οι βάσεις είναι αδενίνη (Α) = C

5, κυτοσίνη (C) = C

3Ο, γουανίνη (G) = C

5Ο και θυμίνη (Τ) = C

2O

2. Κατά συνέπεια, ένα DNA μπορεί να καθοριστεί πλήρως από μία αλληλουχία που αποτελείται από τα τέσσερα αλφάβητα {A, C, G, Τ}. Το πρώτο ουσιαστικό βήμα στην επεξεργασία μιας αλληλουχίας DNA απαιτεί τη μετατροπή της από μια σειρά από αλφάβητα στο αριθμητικό ισοδύναμο [30-32]. Αριθμητική χαρακτηρισμό αλληλουχιών DNA μπορεί να βοηθήσει στην επινόηση κατάλληλων γονιδιωματική χαρακτηριστικά που συλλαμβάνει την ουσία της σύνθεσης βάσης και διανομής με ποσοτικό τρόπο. Αυτό θα μπορούσε να βοηθήσει στην ταυτοποίηση DNA αλληλουχία και η σύγκριση για την ανίχνευση της έκτασης της γενετικής ομοιότητας ή ανομοιότητας. Η σύνθεση βάσης παρέχει το συνολικό περιεχόμενο της κάθε βάσης σε μια ακολουθία DNA και προσδιορίζεται εύκολα. Ωστόσο, η κατανομή βάση, η οποία είναι πιο δύσκολο να προσδιοριστεί είναι πιο κατατοπιστική και δίνει μια καλύτερη διάκριση μεταξύ των διαφόρων γονιδίων ακόμη και εάν οι αριθμοί βάσεως σύνθεση είναι το ίδιο [31]. Κατά συνέπεια, και οι δύο σύνθεση βάσης και τη διανομή μιας αλληλουχίας DNA μπορεί να διερευνηθεί για να χαρακτηρίσει αριθμητικά γονιδιωματικές αλληλουχίες.

Η συγκεκριμένη μέθοδος αριθμητική κωδικοποίηση που χρησιμοποιείται, καθορίζει το πόσο καλά συλλαμβάνεται η σύνθεση βάσης και διανομή μιας αλληλουχίας DNA. Πολλές αριθμητικές μεθόδους κωδικοποίησης έχουν αναφερθεί στην βιβλιογραφία με το καθένα έχει πλεονεκτήματα και τις αδυναμίες [33] της. Ο μετασχηματισμός Voss είναι ένα από τα πιο συχνά χρησιμοποιούμενες μέθοδοι για αριθμητική κωδικοποίηση των νουκλεοτιδίων [34,35]. Είναι ένα αποτελεσματικό φασματικό ανιχνευτή της κατανομής βάσης και τα χαρακτηριστικά περιοδικότητας [33] και αντιπροσωπεύει αλληλουχίες DNA με τέσσερεις αλληλουχίες δυαδικό δείκτη όπως: (1) όπου 1 υποδηλώνει την παρουσία της βάσης b, στη θέση Ν, 0 σημαίνει απουσία του κατά την ότι η τοποθεσία και Ν είναι το μήκος της αλληλουχίας DNA που κωδικοποιείται. Ωστόσο, η αναπαράσταση Voss είναι ιδιαίτερα περιττές [33]. Κάποιες άλλες υφιστάμενες μέθοδοι, όπως η Ζ-καμπύλης και τετράεδρο μετασχηματισμοί affine μπορεί να χρησιμοποιηθεί για την αντιμετώπιση του πλεονασμού στην παράσταση Voss [36]. Τα Z-καμπύλης και τετράεδρο παραστάσεις μειώσει το υπολογιστικό κόστος στα μεταγενέστερα στάδια επεξεργασίας του DNA αλληλουχιών.

Ο μετασχηματισμός Ζ-καμπύλη αναπτύχθηκε για να κωδικοποιήσει ακολουθίες DNA με περισσότερες βιολογικές σημασιολογία [37]. Χρησιμοποιεί ένα κατάλληλο γεωμετρική αναπαράσταση να μειώσει τον αριθμό των Voss παραστάσεις από τέσσερις σε τρεις σε μια συμπαγή τρόπο που να είναι συμμετρική προς όλες τις τέσσερις βάσεις. Το Z-καμπύλη περιέχει όλες τις πληροφορίες που μεταφέρονται από τις αντίστοιχες αλληλουχίες του DNA και επομένως, η ανάλυση αλληλουχίας DNA μπορεί να πραγματοποιηθεί με τη μελέτη το αντίστοιχο Ζ-καμπύλη [20]. Τα 3-διάστατα διανύσματα Ζ-καμπύλη εκφράζεται ως [20,36] 🙁 2)

Ο μετασχηματισμός τετράεδρο είναι παρόμοιο με το μετασχηματισμό Ζ-καμπύλη, όπου οι τέσσερεις νουκλεοτιδικές βάσεις μετατρέπονται σε 3-διάστατα διανύσματα ότι το σημείο από το κέντρο ενός τετράεδρο στις κορυφές του. Αυτά τα 3-διάστατα διανύσματα που ορίζεται ως [36-37] 🙁 3) όπου

r

,

g

και

β

στο δείκτη των φορέων είναι κόκκινα, πράσινο και μπλε δείκτες. Στην πραγματικότητα, ο μετασχηματισμός τετράεδρο έχει αναφερθεί στη βιβλιογραφία ως «RGB» μεταμόρφωση μιας αλληλουχίας DNA [33].

Για να επεξεργαστεί αποτελεσματικά τα διανύσματα rgb (Εξ 2 και 3) για να ληφθεί η αντίστοιχη RGB εικόνες, ένας κατάλληλος αριθμός παράθυρα που αντιστοιχεί στο ύψος της εικόνας (η), ένα κατάλληλο μέγεθος παραθύρου που αντιστοιχεί στο πλάτος της εικόνας (W) και την επικάλυψη επιλέγονται να διακριθούν τρία HxW διαστάσεων μήτρες. Σε αυτή τη μελέτη, ο αριθμός των παραθύρων προσδιορίστηκε με βάση το μήκος αλληλουχία DNA (Ν) στο γονίδιο βιοδείκτη. Το μέγεθος του παραθύρου 200 και μία επικάλυψη από 50 νουκλεοτίδια χρησιμοποιήθηκαν [38,39]. Οι μήτρες ομαλοποιήθηκαν εντός της περιοχής από 0-255 να απεικονίσουν το καθένα από αυτά ως κλίμακα του γκρι της εικόνας. Αυτές οι τρεις αποχρώσεις του γκρι εικόνες που παρέχονται ως έγχρωμη εικόνα στο χρώμα RGB χώρο.

Μοτίβο Ταξινόμηση και Feature Extraction

Το έργο της ταξινόμησης μοτίβο να εκτελούνται από έναν ταξινομητή σχέδιο περιλαμβάνει ουσιαστικά την καταλογογράφηση των ακατέργαστα δεδομένα σε επιθυμητά κατηγορίες με βάση τις εγγενείς μοτίβα στα δεδομένα. Αυτόματη ταξινόμηση μοτίβο έχει ακρίβεια που εκτελούνται σε διάφορους τομείς εφαρμογής, χρησιμοποιώντας μηχανήματα [40]. Η πολυπλοκότητα ενός ταξινομητή πρότυπο εξαρτάται σε μεγάλο βαθμό από την διάσταση του διανύσματος χαρακτηριστικού και τον αριθμό των δειγμάτων δεδομένων εκπαίδευσης. Ένα συμπαγές ή χαμηλή διαστάσεων αναπαράσταση χαρακτηριστικό που διατηρεί τα περιγραφικά περιεχόμενο του αρχικού συνόλου δεδομένων είναι ιδιαίτερα επιθυμητή για την αποτελεσματική απαίτηση μνήμη, την επιτάχυνση του χρόνου επεξεργασίας και την ελαχιστοποίηση υπολογιστική πολυπλοκότητα ενός ταξινομητή μοτίβο. Μερικές από τις υπάρχουσες μεθόδους εξαγωγής χαρακτηριστικών και μείωσης διάστασης στις στατιστικές είναι Factor Analysis (FA), Ανάλυση Ανεξάρτητων Συνιστωσών (ICA) και Principal Component Analysis (PCA).

Στο σήμα και τον τομέα επεξεργασίας εικόνας, πολλές άλλες μέθοδοι έχουν έχουν αναπτυχθεί για να εξαγάγετε αντιπροσωπευτικά χαρακτηριστικά ενός αρχικού συνόλου δεδομένων που οδηγούν σε μείωση της διάσταση. Αυτές οι μέθοδοι περιλαμβάνουν διανυσματικής κβάντισης (VQ), Κλίμακα Αμετάβλητα Feature Transform (SIFT), επιτάχυνε ισχυρά χαρακτηριστικά (SURF), Ανάλυση Κύριων Συνιστωσών SIFT (PCA-SIFT), Τοπική Binary Μοτίβα (LBP) και ιστόγραμμα των Oriented Gradient (HOG) [ ,,,0],41-44]. Το HOG ιδιαίτερα περιγραφεί στη βιβλιογραφία ως ισχυρός μέθοδο εκχύλισης σχήμα, εμφάνιση και υφή [43-45]. Έχουμε επιλέξει μέθοδος HOG για χρήση σε αυτή τη μελέτη λόγω των ελκυστικών ιδιοτήτων του όπως καλύτερη αναλλοίωτο για φωτισμό. Επιπλέον, μια προηγούμενη μελέτη έχει δείξει ότι η μέθοδος HOG ξεπέρασε τη μέθοδο LBP για την εξόρυξη των συμπαγών γονιδιωματικής χαρακτηριστικά [17]. Στην αρχική εφαρμογή της μεθόδου HOG, ένα μπλοκ 3×3 κυττάρων και 9 κάδοι χρησιμοποιήθηκαν για να δημιουργήσουν ένα φορέα χαρακτηριστικό του 81 στοιχεία από μια εικόνα κλίμακας του γκρι και δοκιμαστεί για να είναι ιδανικό για την ανίχνευση των πεζών [44]. Ωστόσο, λόγω των χαμηλών διαστάσεων μερικών γενωμικού εικόνων, εφαρμόσαμε ελάχιστες διαστάσεις του μπλοκ 2×2 κυττάρων και 9 κάδους για τη δημιουργία ενός συμπαγούς HOG γονιδιωματική διάνυσμα χαρακτηριστικών του 36 στοιχεία από μια κλίμακα του γκρι της εικόνας. Η κλίμακα του γκρι εικόνα ελήφθη από έγχρωμη εικόνα αλληλουχίας DNA με τη χρήση του MATLAB. Τα εξαγόμενα HOG γονιδιωματικής χαρακτηριστικά στη συνέχεια διοχετεύονταν σε ένα ταξινομητή πρότυπο για την ταξινόμηση των γονιδίων βιοδεικτών του καρκίνου του πνεύμονα.

Σε αυτή τη μελέτη, δύο αντίπαλες state-of-the-art ταξινομητές μοτίβο διερευνηθούν για την ταξινόμηση των γονιδίων βιοδεικτών του καρκίνου του πνεύμονα είναι οι πολυστρωματικές Perceptron (MLP) νευρωνικό δίκτυο και ακτινική συνάρτηση Βάση (RBF) νευρωνικό δίκτυο. Χρησιμοποιούνται ευρέως για να λύσει τα προβλήματα της ταξινόμησης μοτίβο και λειτουργία προσέγγιση [46-58]. Ωστόσο, οι ταξινομητές προτύπων έχουν εγγενή πλεονεκτήματα και τις αδυναμίες, λόγω των διακριτικών τους ιδιότητες. MLP νευρωνικά δίκτυα έχουν την ικανότητα να ανιχνεύουν έμμεσα πολύπλοκες μη γραμμικές συσχετίσεις μεταξύ ανεξάρτητων και εξαρτημένων μεταβλητών. Ωστόσο, απαιτούν μεγαλύτερη υπολογιστικούς πόρους και είναι επιρρεπείς στο πρόβλημα της υπερπροσαρμογής. Από την άλλη πλευρά, RBF νευρωνικά δίκτυα έχουν ένα ισχυρό πλεονέκτημα ότι είναι απλό να σχεδιάσει, να έχουν μια καλή ικανότητα γενίκευσης, που εκτελούν δυναμικά και είναι ανεκτική του θορύβου εισόδου [59]. Παρ ‘όλα αυτά, δεν μπορούν να αποδώσουν καλύτερα από ό, τι MLP νευρωνικών δικτύων σε όλες τις περιστάσεις. Η απόδοση κάθε ταξινομητή μοτίβο θα εξαρτάται προφανώς από τη φύση του προβλήματος που εξετάζεται. MLP νευρωνικά δίκτυα μπορεί να παράγει μια πιο τοποθετηθεί εξόδου για να διασχίσουν τα δεδομένα επικύρωσης που από RBF νευρωνικά δίκτυα, αλλά RBF νευρωνικά δίκτυα απαιτούν λιγότερο δοκιμών και λάθους από MLP νευρωνικά δίκτυα. Επιπλέον, κάθε ταξινομητή μοτίβο μπορεί να εκτελεί διαφορετικά για διαφορετικές λειτουργίες προσέγγιση. Από την υποκείμενη λειτουργία που προσεγγίζει τα πειραματικά δεδομένα μας ήταν άγνωστη πριν, βρήκαμε ότι είναι φρόνιμο να πειραματιστείτε με τα δύο ταξινομητές μοτίβο για να ανακαλύψει αυτό που λειτουργεί καλά για την εργασία ταξινόμησης σε αυτή τη μελέτη.

Πειραματική Μοντέλα και Αξιολόγησης της Απόδοσης

Τέσσερα πειραματικά μοντέλα που εξετάζονται στην παρούσα μελέτη για να ανακαλύψει μια σειρά από affine αμετάβλητες γονιδιωματικής χαρακτηριστικά και να προσδιορίσει ένα κατάλληλο συνδυασμό των υπολογιστικών μεθόδων για τη βελτίωση της κατάταξης των γονιδίων βιοδεικτών του καρκίνου του πνεύμονα. Το σχήμα 1 δείχνει το σχέδιο μιας γενικής αρχιτεκτονικής για τα τέσσερα πειραματικά μοντέλα. Τα πειραματικά μοντέλα υλοποιήθηκαν χρησιμοποιώντας το περιβάλλον προγραμματισμού MATLAB R2012a. Με βάση τα πειραματικά μοντέλα, τα πειράματα πραγματοποιήθηκαν σε έναν υπολογιστή που περιέχει έναν επεξεργαστή Intel Core i5-3210M, η οποία λειτουργεί με ταχύτητα 2.50GHz, 6.00GB μνήμης RAM, 500 GB σκληρό δίσκο και τρέχει 64-bit των Windows 8 λειτουργικό σύστημα. Σε όλες τις τέσσερις πειραματικά μοντέλα, το σύνολο δεδομένων κατανεμήθηκε σε 70% κατάρτιση, 15% δοκιμή και 15% επικύρωσης. Στο πρώτο πειραματικό μοντέλο, η αναπαράσταση Z-καμπύλη χρησιμοποιήθηκε για να ληφθεί μια έγχρωμη εικόνα από την παράσταση Voss, μέθοδος HOG χρησιμοποιήθηκε για τη δημιουργία μιας γονιδιακής διάνυσμα χαρακτηριστικών του 36 στοιχεία από την εικόνα χρώμα και MLP νευρωνικό δίκτυο χρησιμοποιήθηκε για να χαρακτηρίσει την χαρακτηριστικό διάνυσμα. Στο δεύτερο πειραματικό μοντέλο, η αναπαράσταση τετράεδρο χρησιμοποιήθηκε αντί της αναπαράστασης Ζ-καμπύλη που χρησιμοποιείται στο πρώτο πειραματικό μοντέλο. Συνεπώς, η αλλαγή του μέθοδο κωδικοποίησης από την Z-καμπύλη στο τετράεδρο είναι η διαφορά μεταξύ της πρώτης και της δεύτερης πειραματικά μοντέλα. Στο τρίτο πειραματικό μοντέλο, η αναπαράσταση Z-καμπύλη χρησιμοποιήθηκε για να ληφθεί μια έγχρωμη εικόνα από την παράσταση Voss, μέθοδος HOG χρησιμοποιήθηκε για τη δημιουργία μιας γονιδιακής διάνυσμα χαρακτηριστικών του 36 στοιχεία από την εικόνα χρώμα και Gaussian RBF νευρωνικό δίκτυο χρησιμοποιήθηκε για να χαρακτηρίσει το διάνυσμα χαρακτηριστικών. Το τέταρτο πειραματικό μοντέλο σχεδιάστηκε για να χρησιμοποιήσετε την εκπροσώπηση τετράεδρο, αντί της αναπαράστασης Ζ-καμπύλη, η οποία είναι η μόνη διαφορά μεταξύ αυτού τέταρτο πειραματικό μοντέλο και το τρίτο πειραματικό μοντέλο.

Η

Οι διαμορφώσεις του νευρικού MLP δικτύων για την πρώτη και την δεύτερη πειραματικά μοντέλα είναι τα ίδια. Υπάρχουν 36 νευρώνες στο στρώμα εισόδου, επειδή η HOG γονιδιωματική χαρακτηριστικό διάνυσμα έχει 36 στοιχεία. Το στρώμα εξόδου των νευρωνικών δικτύων MLP περιέχει 14 νευρώνες, επειδή υπάρχουν 14 τάξεις στο γονιδιακό σύνολο δεδομένων. Έχει προταθεί ότι περισσότερα κρυμμένα στρώματα με υψηλό αριθμό των νευρώνων που συνήθως οδηγούν σε λιγότερες τοπικά ελάχιστα [60]. Ως εκ τούτου, δύο κρυμμένα στρώματα εξετάστηκαν και το νευρωνικό δίκτυο δοκιμάζεται με 100, 200, 300, 400 και 500 νευρώνες για να προσδιοριστεί πειραματικά τον κατάλληλο αριθμό των νευρώνων για κάθε ένα από τα κρυμμένα στρώματα. Το νευρωνικό δίκτυο MLP χρησιμοποιεί μια γραμμική συνάρτηση ενεργοποίησης στο στρώμα εισόδου να διαβιβάσει τα ακριβή χαρακτηριστικά χωρίς καμία μετατροπή. Η λειτουργία υπερβολική εφαπτομένη χρησιμοποιήθηκε στους νευρώνες στο κρυφό και εξόδου στρώματα να επωφεληθείτε πλήρως από μη γραμμικότητας και differentiability ιδιότητές τους. Οι ιδιότητες αυτές είναι βασικές ιδιότητες για τη βέλτιστη απόδοση των MLP νευρωνικών δικτύων [60]. Επιπλέον, το νευρωνικό δίκτυο MLP είχε διαμορφωθεί με 500 εποχές εκπαίδευση, τη μάθηση ρυθμό της τάξης του 0,1, μέγιστος χρόνος εκπαίδευσης των 120sec, ελάχιστη κλίση απόδοση του 1Ε-6, ελέγχους επαλήθευσης των 500 και ο στόχος απόδοσης 0.

Οι διαμορφώσεις των νευρωνικών δικτύων RBF Gaussian στο τρίτο και τέταρτο πειραματικά μοντέλα είναι τα ίδια. Τα νευρωνικά δίκτυα Gaussian RBF είχαν ρυθμιστεί για να έχουν ως στόχο MSE 0, εξάπλωση του 0,1, 36 νευρώνες στο στρώμα εισόδου και 14 νευρώνες στο στρώμα εξόδου. Αυτές οι διαμορφώσεις με βάση τον αριθμό των στοιχείων σε κάθε διάνυσμα χαρακτηριστικών και τον αριθμό των τάξεων γονιδίου βιοδείκτη στο σύνολο δεδομένων. Ωστόσο, ένα νευρωνικό δίκτυο Gaussian RBF συνήθως περιέχει ένα κρυμμένο στρώμα και προσθέτει αυτόματα νευρώνες στο κρυφό στρώμα μέχρι να συναντήσει το συγκεκριμένο μέσο τετραγωνικό σφάλμα του στόχου. Η εκπαίδευση των νευρωνικών δικτύων RBF Gaussian σταμάτησε όταν ο αριθμός των νευρώνων κρυμμένου στρώματος φτάσει το μέγιστο προκαθορισμένη τιμή των 534, που είναι ο αριθμός των περιπτώσεων στο σύνολο δεδομένων εκπαίδευσης.

Τέσσερις διαφορετικές μετρήσεις απόδοσης που χρησιμοποιούνται συνήθως σε η βιβλιογραφία για την εκτίμηση της απόδοσης ενός ταξινομητή πρότυπο χρησιμοποιήθηκαν για την αξιολόγηση ποσοτικά τις επιδόσεις των MLP και Gaussian RBF ταξινομητές πρότυπο νευρωνικό δίκτυο. Αυτές οι μετρήσεις απόδοσης είναι η ακρίβεια, μέσο τετραγωνικό σφάλμα (MSE), ειδικότητα και ευαισθησία. Η ακρίβεια ενός ταξινομητή μοτίβο μπορεί να υπολογιστεί από τη μήτρα σύγχυση ως το ποσοστό των ορθώς ταξινομούνται οντότητες. Αυτό είναι ισοδύναμο με το άθροισμα των διαγώνια στοιχεία της μήτρας σύγχυση διαιρούμενο με το συνολικό αριθμό των στοιχείων στις τάξεις. Το MSE είναι η μέση του τετραγώνου της διαφοράς μεταξύ της αναμενόμενης παραγωγής και της πραγματικής εξόδου ενός ταξινομητή μοτίβο. Η πιθανότητα ότι ένας ταξινομητής πρότυπο ταξινομεί σωστά ένα μη-θετικό παράδειγμα, ως αρνητική ονομάζεται ειδικότητα ή True αρνητικό ποσοστό (TNR). Η πιθανότητα ότι ένας ταξινομητής μοτίβο ετικέτες τις περιπτώσεις της κατηγορίας στόχου σωστά ονομάζεται ευαισθησία ή True Positive Rate (TPR). Τα Χαρακτηριστικά Δέκτης λειτουργίας (ROC) είναι η πλοκή της ευαισθησίας έναντι 1-ειδικότητα για να απεικονίζουν γραφικά τη σχέση ανάμεσα στην ευαισθησία και την εξειδίκευση ενός ταξινομητή μοτίβο [60-62].

Πειραματικά Αποτελέσματα

Η συγκριτικά αποτελέσματα των Z-καμπύλης και τετράεδρο μετασχηματισμών που παρουσιάστηκε για πρώτη φορά να εξακριβώσει αν τα σύνολα χαρακτηριστικό που λαμβάνονται σε σχέση με τις δύο affine μετασχηματισμών είναι αμετάβλητες. Τα σχήματα 2 και 3 δείχνουν αντίστοιχα τα οικόπεδα φάσμα ισχύος των Ζ-καμπύλης και τετράεδρο αναπαραστάσεις των αλληλουχιών DNA των γονιδίων βιοδείκτη στον Πίνακα 1. Κάθε αντίστοιχο σχήμα φάσμα λαμβάνεται χρησιμοποιώντας την Ζ-καμπύλη αναπαράσταση (Σχήμα 2) μπορεί να θεωρηθεί ότι είναι εξαιρετικά παρόμοια με εκείνη που λαμβάνεται χρησιμοποιώντας την αναπαράσταση τετράεδρο (Σχήμα 3). Το αποτέλεσμα αυτό δίνει μια ένδειξη μιας ισχυρής ομοιότητας μεταξύ των Ζ-καμπύλης και τετράεδρο παραστάσεις. Τα Z-φασματική καμπύλη σχήματα των γονιδίων βιοδείκτη είναι μοναδικά διαφορετικά από το άλλο (Σχήμα 2) και η ίδια τάση παρατηρείται κατά μήκος των σχημάτων των γονιδίων βιοδείκτη που λαμβάνονται χρησιμοποιώντας την αναπαράσταση τετράεδρο (Σχήμα 3). Μπορεί να παρατηρηθεί από τα δύο στοιχεία, ότι οι φασματικές μορφές του γονιδίου TP53 βιοδεικτών έχουν πυκνή φασματική λεπτομέρειες με φασματική φακέλους υψηλής πλάτη. Αντίθετα, οι φασματικές μορφές του γονιδίου EGFR βιοδεικτών στα δύο σχήματα περιέχουν πυκνές φασματική λεπτομέρειες χαμηλή πλάτη με δύο αιχμές υψηλής πλάτη στο K = 1200 και Κ = 2400. Οι φασματικές μορφές του γονιδίου KRAS βιοδείκτη και στα δύο σχήματα έχουν λεπτές φασματικές λεπτομέρειες που τερματίζουν πριν K = 600, χωρίς να δείχνει καμία εμφανή ακίδα. Οι φασματικές μορφές του γονιδίου KMT2C βιοδεικτών έχουν επίπεδη φασματική λεπτομέρειες με αιχμές υψηλής έντασης σε Κ = 5000 και K = 10000 και στα δύο σχήματα. Παρόμοια με τα φασματικά σχήματα του γονιδίου KRAS βιοδεικτών, οι φασματικές μορφές του γονιδίου CDKN2A βιοδείκτη και στα δύο σχήματα έχουν λεπτές φασματικές στοιχεία που τερματίζουν πριν K = 500 σε αντίθεση με τις φασματικές μορφές του γονιδίου KRAS βιοδεικτών που τερματίζουν μετά K = 500. Η φασματική σχήματα της NF1, STK11, KMT2D, ZNF621 και τα γονίδια βιοδεικτών SMARCA4 έχουν όλες δύο αιχμές των διαφορετικών πλατών σε διαφορετικές τιμές του Κ, η οποία αποτελεί ένδειξη της μοναδικότητας των γονιδίων αυτών βιοδεικτών.

η

Επιπλέον, οι έγχρωμες εικόνες που λαμβάνονται με τη χρήση των Ζ-καμπύλης και τετράεδρο αναπαραστάσεις όλων των γονιδίων βιοδείκτη στον πίνακα 1 δείχνονται αντίστοιχα στα Σχήματα 4 και 5. είναι σαφώς παρατηρείται μέσα από την υποκειμενική οπτική επιθεώρηση ότι η υφή των αντίστοιχων εικόνων των βιοδείκτη γονίδια που λαμβάνονται με τη χρήση των δύο affine μετασχηματισμών είναι παρόμοια. Επιπλέον, μπορεί να δει κανείς ότι οι εικόνες των γονιδίων βιοδεικτών TP53, KRAS, CDKN2A και STK11 έχουν βαριά υφή και περιέχουν ευδιάκριτες μαύρες ή πράσινες κηλίδες στην κάτω δεξιά γωνία των εικόνων. Οι υφές των εικόνων του EGFR, ZNF521 και SMARCA4 στις δύο αριθμοί είναι χοντρή μόνο η εικόνα του SMARCA4 έχουν πολύ μικρό μαύρο ή πράσινο αυτοκόλλητο στην κάτω δεξιά γωνία. Ωστόσο, οι εικόνες των γονιδίων βιοδεικτών KMT2C, NF1 και KMT2D έχουν μαλακή υφή. Ακόμα κι αν οι υφές των αντίστοιχων εικόνων είναι παρόμοια σε κάθε γονίδιο βιοδεικτών, τα χρώματα τους είναι διαφορετικές.

Η

Μια αντικειμενική αξιολόγηση από την ποσοτική ανάλυση η υφή της εικόνας έγινε για να συμπληρώσει τα αποτελέσματα της υποκειμενικής αξιολόγησης υφές εικόνα των γονιδίων βιοδεικτών (Σχήματα 4 και 5). Με τον τρόπο αυτό, υπολογίζονται τα δεύτερης τάξης στατιστικές τιμές Haralick της αντίθεσης και της ομοιογένειας [63]. Οι υψηλές τιμές αντίθεσης συνήθως αναμένεται για τα βαρέα υφές και χαμηλές τιμές για μαλακή υφή. τιμές ομοιογένειας είναι το αντίστροφο των τιμών αντίθεσης και όσο μεγαλύτερη είναι η αντίθεση, τόσο χαμηλότερη είναι η ομοιογένεια και αντιπρόεδρος Versal. Οι τιμές Haralick ελήφθησαν για κάθε μία από τις εικόνες χρώματος των δέκα γονιδίων βιοδείκτη ληφθούν χρησιμοποιώντας τις Ζ-καμπύλης και τετράεδρο παραστάσεις φαίνονται στον Πίνακα 3. Ο πίνακας δείχνει ότι οι τιμές αντίθεση των Ζ-καμπύλη μετασχηματισμένα έγχρωμες εικόνες κατατάσσονται κατά ένα παρόμοιο τρόπο όπως εκείνες των τετράεδρο μετατραπεί έγχρωμες εικόνες (αξία σε βραχίονα δηλώνει την τάξη ενός γονιδίου βιοδείκτη). Για τα Z-καμπύλη μετατραπεί έγχρωμες εικόνες, το γονίδιο KRAS βιοδεικτών καταλαμβάνει την πρώτη θέση με την υψηλότερη τιμή αντίθεσης του 13099, ενώ το γονίδιο KMT2D βιοδεικτών κατατάσσεται τελευταία με τιμή αντίθεσης του 6358. Εν τω μεταξύ, για τις τετράεδρο μετατραπεί έγχρωμες εικόνες, το γονίδιο βιοδεικτών CDKN2A κατέχει την πρώτη θέση με την υψηλότερη τιμή αντίθεσης του 13.495, ενώ το γονίδιο KMT2D βιοδεικτών κατατάσσεται τελευταία με τιμή αντίθεσης του 6392.

η

Οι τιμές ομοιογένεια των Ζ-καμπύλη μετατραπεί έγχρωμες εικόνες κατατάσσονται επίσης με παρόμοιο τρόπο όπως αυτά της τετράεδρο μετατραπεί έγχρωμες εικόνες. Για τα Z-καμπύλη μετατραπεί έγχρωμες εικόνες, το γονίδιο KRAS βιοδεικτών κατέχει την πρώτη θέση με αξία ομοιογένεια των 0,0342 ενώ γονιδίου βιοδείκτη KMT2D κατατάσσεται τελευταία με τιμή ομοιογένεια των 0,0445.

You must be logged into post a comment.