PLoS One: Οι πιθανοί θεραπευτικοί στόχοι για τον καρκίνο του στόματος: ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF, CD70


Αφηρημένο

Στην Ινδία, ο καρκίνος του στόματος έχει σταθερά κατατάσσεται μεταξύ των τριών κορυφαίων αιτίες καρκινογόνες που σχετίζονται με θανάτους, και έχει αναδειχθεί ως μια κορυφαία αιτία για τις καρκίνο θανάτων στους άνδρες. Η έλλειψη αποτελεσματικών θεραπευτικών επιλογών είναι μία από τις κύριες προκλήσεις στην κλινική διαχείριση των ασθενών με καρκίνο του στόματος. Εμείς ανακρίθηκε μεγάλη πισίνα δειγμάτων από μελέτες γονιδιακής έκφρασης του καρκίνου του στόματος για τον εντοπισμό πιθανών θεραπευτικών στόχων που εμπλέκονται σε πολλαπλές εκδηλώσεις του καρκίνου σήμα κατατεθέν. Οι θεραπευτικές στρατηγικές που κατευθύνονται προς τέτοιοι στόχοι μπορεί να αναμένεται να ελέγχουν αποτελεσματικά τα καρκινικά κύτταρα. Σύνολα δεδομένων από διαφορετικές μελέτες γονιδιακής έκφρασης εντάχθηκαν αφαιρώντας παρτίδα αποτελέσματα και χρησιμοποιήθηκε για τους μεταγενέστερους αναλύσεις, συμπεριλαμβανομένης της ανάλυσης διαφορικής έκφρασης. ανάλυση του δικτύου εξάρτηση έγινε για τον εντοπισμό γονιδίων που υφίστανται σημειώνονται τοπολογικές αλλαγές στη στοματική δείγματα καρκίνου σε σύγκριση με τα δείγματα ελέγχου. Αιτιώδης ανάλυση συλλογιστική πραγματοποιήθηκε για τον εντοπισμό σημαντικών υποθέσεων, η οποία μπορεί να εξηγήσει τα προφίλ γονιδιακής έκφρασης που παρατηρείται σε προφορική δείγματα καρκίνου. Κείμενο-εξόρυξη προσέγγιση χρησιμοποιήθηκε για την ανίχνευση του καρκίνου του χαρακτηριστικά που σχετίζονται με τα γονίδια που εκφράζονται σε σημαντικά τον καρκίνο του στόματος. Συνολικά, 2.365 γονίδια ανιχνεύθηκαν να εκφράζονται διαφορικά γονίδια, το οποίο περιλαμβάνει μερικά από τα υψηλά διαφορικά εκφραζόμενα γονίδια, όπως μεταλλοπρωτεϊνάσες μήτρας (ΜΜΡ-1/3/10/13), χημειοκίνης (CXC μοτίβο) συνδετήρες (IL8, CXCL-10 /-11), PTHLH, SERPINE1, NELL2, S100A7A, MAL, CRNN, TGM3, CLCA4, keratins (KRT-3/4/13/76/78), αναστολείς SERPINB11 και σερίνη πεπτιδάσης (SPINK-5/7). XIST, TCEAL2, ΕΡΑ και FGFR2 είναι μερικά από τα σημαντικά γονίδια που ανιχνεύεται από την εξάρτηση και την ανάλυση αιτιώδους δικτύου. ανάλυση των ορυχείων Λογοτεχνία σχολιασμένη 1014 γονίδια, εκ των οποίων τα 841 γονίδια είχαν στατιστικά σημαντικά σχολιασμένη. Η ενσωμάτωση της παραγωγής των διαφόρων αναλύσεων, κατέληξαν στον κατάλογο των πιθανών θεραπευτικών στόχων για καρκίνο του στόματος, η οποία περιελάμβανε στόχους, όπως η ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF και CD70

Παράθεση:. Bundela S, Sharma A, Bisen PS (2014) πιθανούς θεραπευτικούς στόχους για τον καρκίνο του στόματος: ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF, CD70. PLoS ONE 9 (7): e102610. doi: 10.1371 /journal.pone.0102610

Επιμέλεια: Enrique Hernandez-Lemus, Εθνικό Ινστιτούτο Γονιδιωματική Ιατρική, Μεξικό

Ελήφθη: 12 Δεκεμβρίου του 2013? Αποδεκτές: 20 του Ιουνίου 2014? Δημοσιεύθηκε: 16 Ιουλ 2014

Copyright: © 2014 Bundela et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Οικονομική βοήθεια βραβεύτηκε από το Συμβούλιο Επιστημονικής και Βιομηχανικής Έρευνας (CSIR), Νέο Δελχί στο πλαίσιο του καθεστώτος Ομότιμος Επιστήμονας με τον καθηγητή PS Bisen. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Περίπου 7,6 εκατομμύρια θάνατοι από καρκίνο εκτιμήθηκαν το 2008 σε όλο τον κόσμο, εκ των οποίων 0.640.000 άνθρωποι πέθαναν από καρκίνο στην Ινδία [1]. καρκίνο του στόματος έχει αναδειχθεί ως μία από τις τρεις κορυφαίες αιτίες των θανάτων από καρκίνο που σχετίζονται με τις χώρες της Νότιας Ασίας, όπως η Ινδία, το Μπαγκλαντές και τη Σρι Λάνκα [1]. Σύμφωνα με τα τελευταία στατιστικά στοιχεία του καρκίνου που αναφέρθηκαν από την Ινδία, ο καρκίνος του στόματος είναι το top-πλέον αιτία του καρκίνου που σχετίζονται με θανάτους για τους άνδρες, και συνεισφέρει περίπου το 23% των θανάτων που προκαλούνται από όλους τους τύπους καρκίνου σε άνδρες [2]. Η Ινδία έχει γίνει το επίκεντρο του στόματος σχετίζονται με τον καρκίνο θνησιμότητα, και σύμφωνα με μια πρόχειρη εκτίμηση περισσότερο από το ήμισυ των παγκόσμιων τον καρκίνο του στόματος θνησιμότητας είναι από την Ινδία [1] – [3]. καρκίνο του στόματος διαχειρίζεται επί του παρόντος μέσω της χειρουργικής επέμβασης, ακτινοβολίας και χημειοθεραπείας. Cetuximab είναι το μόνο εγκεκριμένο στοχευμένη θεραπεία διαθέσιμη για τον καρκίνο του στόματος, το οποίο στοχεύει τον υποδοχέα του επιδερμικού αυξητικού παράγοντα (EGFR) που συμμετέχουν στην ανάπτυξη των κυττάρων. Στοχευμένες θεραπείες έχουν δείξει τη χρησιμότητά τους για τη διαχείριση διαφόρων καρκίνων, κυρίως λόγω της ικανότητάς της να μειώσει τοξικότητες από διάφορες πτυχές σε σύγκριση με χημειοθεραπευτικά φάρμακα. Η εξαγορά της αντίστασης σε στοχευμένες θεραπείες του καρκίνου λόγω της εμφάνισης διαφόρων γενετικών ή /και μη-γενετικούς μηχανισμούς, έχουν υπονομεύσει σοβαρά την κλινική εφαρμογή τους [4] – [6]. Η πρόκληση της εμφάνισης αντοχής φαρμάκου στα καρκινικά κύτταρα μπορούν να αντιμετωπιστούν με – (α) που στοχεύουν πολλαπλούς στόχους με συνδυαστική θεραπεία, (β) τον σχεδιασμό ενός φαρμάκου κατά μοριακού στόχου (ες) οι οποίες εμπλέκονται σε διάφορες οδούς κριτικά συνδέονται με την επιβίωση, την ανάπτυξη και πολλαπλασιασμός των καρκινικών κυττάρων, ή από τον συνδυασμό των (α) και (β).

Η τρέχουσα μελέτη, επιχειρεί να εντοπίσει πιθανών θεραπευτικών στόχων για καρκίνο του στόματος που σχετίζονται με πολλαπλές σφραγίδες καρκίνου, η οποία μπορεί να διευκολύνει την ορθολογική ανακάλυψη αποτελεσματικών θεραπειών για τον καρκίνο του στόματος. Έχουμε χρησιμοποιήσει σύνολα δεδομένων μικροσυστοιχιών διαθέσιμη από τη βάση δεδομένων NCBI-GEO, για να μελετήσει μεταγραφικό προφίλ μεταβάλλεται ειδικά στον καρκίνο του στόματος. Έχουμε ολοκληρωμένο σύνολο δεδομένων από δύο μελέτες με παρόμοια πειραματικό σχεδιασμό (δηλαδή τον καρκίνο του στόματος έναντι του ελέγχου) να αποκομίσουν σημαντικά αποτελέσματα από υποκείμενο σύνολο δεδομένων με βελτιωμένη στατιστική ισχύ. Η άμεση ενσωμάτωση του συνόλου δεδομένων από διαφορετικές μελέτες είναι δύσκολο λόγω της ύπαρξης μυριάδες πηγές της μη βιολογικών παραλλαγές, που συχνά αναφέρεται ως «παρτίδα επιπτώσεις». Η ένταξη αυτή ανιχνευτής επιπέδου του συνόλου δεδομένων από δύο διαφορετικές μελέτες είναι δυνατό με την αφαίρεση παρτίδα συνέπειες από cross-platform εξομάλυνση [7]. Διαφορετικές αναλυτικές μέθοδοι έχουν ενσωματωθεί να επιτρέπει λογική επιλογή από τις πλέον υποσχόμενες θεραπευτικοί στόχοι για τον καρκίνο του στόματος (Εικ. 1). Έχουμε χρησιμοποιήσει γονιδιακή ανάλυση του δικτύου της εξάρτησης να κατανοήσουν τοπολογικές ιδιότητες κάτω από τον καρκίνο και την κατάσταση του ελέγχου, τα γονίδια με την ένδειξη τοπολογικές διαφορές θα μπορούσαν να θεωρηθούν ως θεραπευτικά γονίδια-στόχους [8]. Αιτιώδης ανάλυση αιτιολογία χρησιμοποιήθηκε για την ταυτοποίηση των πιθανών γονιδίων, τα οποία μπορεί να εξηγήσει διαφορική αλλαγές της γονιδιακής έκφρασης σε καρκίνο του στόματος. Η ανάπτυξη του καρκίνου είναι μια διαδικασία πολλών σταδίων ενεργοποιημένη από εμφάνιση βασικών σφραγίδα γεγονότα όπως διατήρηση πολλαπλασιαστικών σηματοδότηση, αποφεύγοντας καταστολείς ανάπτυξης, αντιστέκονται αποπτωτικό κυτταρικό θάνατο, επιτρέποντας αντιγραφική αθανασία, επάγει την αγγειογένεση, ενεργοποιώντας εισβολή, μετάσταση και φλεγμονή [9]. Νέα μέθοδος εξόρυξης βιβλιογραφία έχει χρησιμοποιηθεί για να συνδέσει αυτά τα γνωρίσματα του καρκίνου με τα γονίδια του ενδιαφέροντός μας. Στην παρούσα μελέτη, η ποικιλομορφία των σφραγίδων του καρκίνου που σχετίζεται με ένα γονίδιο, μαζί με την εντυπωσιακή τοπολογικές προφίλ σε εξαρτήσεις ή /και την αιτιώδη-δίκτυο, δικαιούται ένα γονίδιο να είναι ένας πιθανός στόχος φάρμακο για τον καρκίνο του στόματος.

Η

η μεγάλης κλίμακας ενσωμάτωση των συνόλων δεδομένων από μελέτες έκφρασης του στόματος γονίδιο του καρκίνου είχε επιχειρηθεί στο παρελθόν, με στόχο να εξορύξουν μεταγραφική υπογραφές που συνδέονται με νεοπλασματικό μετασχηματισμό [10] ή την επιβίωση [11]. Πρόσφατα, έχει χρησιμοποιηθεί για τον εντοπισμό συχνών σωματικών οδήγησης για στοματική καρκινογένεση [12]. Το έργο της εντοπισμό πιθανών θεραπευτικών στόχων με ενοποιητική ανάλυση, έχει επιχειρηθεί για πρώτη φορά στην παρούσα μελέτη. Με μια αύξηση των θανάτων που προκαλούνται από τον καρκίνο του στόματος ειδικά στην ινδική υποήπειρο περιοχή, υπάρχει επείγουσα ανάγκη να επισπεύσει τις προσπάθειές μας για να βρούμε νέες θεραπείες για τον καρκίνο του στόματος. Η παρούσα μελέτη, παρουσιάζουμε ένα λογικό πλαίσιο για να βρουν πιθανούς θεραπευτικούς στόχους που σχετίζονται με πολλαπλά χαρακτηριστικά του καρκίνου, και στοχεύουν σε αυτούς είναι ως εκ τούτου αναμένεται να είναι μια τέλεια απάντηση στις προκλήσεις που συνδέονται με επίκτητη ναρκωτικά αντοχή σε στοχευμένες θεραπείες.

Υλικά και Μέθοδοι

πηγή δεδομένων

Τα δεδομένα γονιδιακής έκφρασης των ασθενών καρκίνο του στόματος και φυσιολογικά άτομα (δείγματα ελέγχου), που αναφέρθηκαν σε δύο διαφορετικές μελέτες [13], [14] χρησιμοποιήθηκαν στην τρέχουσα εργασίας (Πίνακας 1).

Η

Ενσωμάτωση δεδομένων άμεση

Το γονίδιο δεδομένα έκφρασης που παράγονται από διαφορετικά πειράματα δεν μπορεί να συνδυαστεί άμεσα για τους μεταγενέστερους ανάλυση, ακόμη και μετά από επεξεργασία με παρόμοια μέθοδο κανονικοποίησης, λόγω της οι εγγενείς μη βιολογικών πειραματικών παραλλαγές ή «παρτίδα-επιδράσεις». Η άμεση ενσωμάτωση των δεδομένων είναι δυνατόν, μετά την επεξεργασία σύνολα δεδομένων με κατάλληλη μέθοδο κανονικοποίησης που ακολουθείται από τσιπ σχολιασμό και τις εργασίες μετά την επεξεργασία που απαιτείται για την αφαίρεση των παρτίδων ενέργειες με τη βοήθεια των μεθόδων διόρθωσης της παρτίδας.

Κανονικοποίηση.

Τα ανεπεξέργαστα δεδομένα ή τα αρχεία CEL που χρησιμοποιούνται στην έκφραση του γονιδίου προφίλ μελέτη από Peng et al. [14] είχαν κατεβάσει από το NCBI αποθετήριο δεδομένων γονιδιακής έκφρασης (NCBI-GEO), καθώς και οι περιλήψεις επίπεδο ανιχνευτή ελήφθησαν από Στιβαρή πολλαπλών μικροπλακετών Ανάλυση (RMA) αλγόριθμο [15] εφαρμόζονται σε Affymetrix Έκφραση λογισμικό της κονσόλας (έκδοση 1.3). Ο αλγόριθμος RMA ταιριάζει ένα ισχυρό γραμμικό μοντέλο σε επίπεδο αισθητήρα για την ελαχιστοποίηση της επίδρασης των διαφορών συγγένειας ανιχνευτή ειδικό. Η κανονικοποιημένη σύνολο δεδομένων, που κατατέθηκε στο NCBI-GEO από Ambatipudi et al. [13], έγινε λήψη και χρησιμοποιήθηκε στην παρούσα μελέτη. Οι λεπτομέρειες για τις διαδικασίες κανονικοποίησης που χρησιμοποιείται για αυτό το σύνολο δεδομένων μπορεί να βρεθεί σε σχετική δημοσίευση [13].

Chip σχολιασμού.

Το αρχείο σχολιασμών Netaffyx HuEx-1_0-st-v2.na33.1. hg19.transcript.csv είχε κατεβάσει από https://www.affymetrix.com/, και χρησιμοποιούνται ως κύρια πηγή των σχολιασμών για HuEx-1_0-st σειρά δεδομένων. Έθιμο parser ήταν γραμμένο σε Perl για να εξαγάγετε τις περισσότερες αντίστοιχες στήλες, όπως Probeset ID, Εκπρόσωπος Δημοσίων ID, Εηίτεζ GeneID από αυτά τα αρχεία σχολιασμών. Το αρχείο σχολιασμών για Agilent-014850 Σύνολο Ανθρώπινου Γονιδιώματος μικροσυστοιχιών 4x44K G4112F (Probe Όνομα έκδοση) είχε κατεβάσει από το αντίστοιχο αρχείο πλατφόρμα (GPL6480) διατίθεται από το NCBI-GEO. Έθιμο parser ήταν γραμμένο σε Perl για να εξαγάγετε Εηίτεζ GeneID και Gene Σύμβολο αντιστοιχίζονται έναντι αντίστοιχης αναγνωριστικά καθετήρα

Ο σχολιασμός τσιπ ενισχύθηκε περαιτέρω με τη βοήθεια του αρχείου gene2accession λήψη από την τοποθεσία FTP NCBI (ftp:. //Ftp. ncbi.nlm.nih.gov/gene/DATA). Το αρχείο gene2accession μας βοήθησε στην εξεύρεση λείπει GeneIDs Εηίτεζ για τους ανιχνευτές που βασίζονται σε άλλες διαθέσιμες πληροφορίες, όπως RNA /γονιδιωματικής νουκλεοτιδίων ένταξη id το οποίο είναι ένα κοινό πεδίο μεταξύ του αρχείου σχολιασμών και gene2accession. Θα μπορούσαμε να σχολιάσετε 30.932 ανιχνευτές σε Agilent-014850 Σύνολο Ανθρώπινου Γονιδιώματος μικροσυστοιχιών 4x44K G4112F (Probe Όνομα έκδοση) και 38349 ανιχνευτές σε HuEx-1_0-ου (έκδοση μεταγραφή) με το αντίστοιχο Entrez GeneIDs. Ανιχνευτές χωρίς σχολιασμό, δεν ελήφθησαν υπόψη για μεταγενέστερους αναλυτικές διαδικασίες.

Η ενασχόληση με πολλά-προς-πολλά μεταξύ ανιχνευτών και γονιδίων.

Δεν υπάρχει πάντα ένα προς ένα αντιστοιχία μεταξύ των ανιχνευτών μικροσυστοιχιών και συνδέονται γονίδια , η οποία δημιουργεί ασάφεια ενώ αναλύοντας τα αποτελέσματα των μεταγενέστερων στατιστικών ή /και λειτουργική ανάλυση. Δύο τύποι ειδικών περιπτώσεων προκύπτουν λόγω των πολλών-προς-πολλά σχέσεις μεταξύ των ανιχνευτών και των γονιδίων, δηλαδή. (Α) ένας ανιχνευτής έχει αντιστοιχιστεί σε περισσότερες από μία GeneID (π.χ. Probe1- & gt? BIRC5, BIRC3), οφείλεται σε μια μη ειδική φύση του καθετήρα, και (β) περισσότερες από μία ανιχνευτής μπορεί να χαρτογραφήσει με ίδια GeneID, που συχνά ως ανιχνευτές «αδελφό» (π.χ. Probe1- & gt? BIRC5, Probe2- & gt? BIRC5)., η οποία συνήθως συμβαίνει λόγω της ομαδοποίησης φύση των δευτερογενών δεδομένων (UniGene, REFSEQ) ή λόγω επαναλάβει στίγματα ανιχνευτές

μόνο Θεωρώντας ανιχνευτές με ένα-προς-ένα σχέση θα ήταν η απλούστερη αναλυτική προσέγγιση? Ωστόσο, αυτό θα σήμαινε την απώλεια πληροφοριών. Ramasamy et al. [16] συνέστησε την αντικατάσταση ανιχνευτές αντιστοιχίζονται με πολλαπλά γονίδια με νέο ρεκόρ για κάθε GeneID. Έχουμε γράψει προσαρμοσμένη δέσμη ενεργειών Perl για «επέκταση» των ανιχνευτών με πολλαπλά γονίδια για την αντιμετώπιση μη-ειδικούς ανιχνευτές, η οποία χαρτογραφεί σε περισσότερα από ένα γονίδιο. Αυτό δημιουργεί νέο ρεκόρ για κάθε GeneID.

Οι πληροφορίες εξαπλωθεί σε όλη ανιχνευτές αδελφό ενοποιήθηκε με τη βοήθεια ενός ισχυρού στατιστική, biweight του Tukey [17]. Η διάμεση σχετίζονται biweight Tukey είναι μια ανθεκτική στατιστική, το οποίο είναι γνωστό ότι έχει άριστη συμπεριφορά με την παρουσία ή απουσία των ακραίων τιμών, λόγω αυτών των ιδιοτήτων, εφαρμόστηκε σε αλγόριθμο MAS5.0 χρησιμοποιούνται για επίπεδο ανιχνευτή περιληπτική [18]. Προσαρμοσμένες δέσμες ενεργειών ήταν γραμμένο σε Perl και R για να ασχοληθεί με ανιχνευτές αδελφό, και το R μέθοδος »tbrm ()« διαθέσιμη με το πακέτο dplR χρησιμοποιήθηκε για τον υπολογισμό biweight ισχυρή μέση του Tukey. Ομάδες των αδελφικών ανιχνευτές εντοπίστηκαν, και τα αρχεία αυτά αντικαταστάθηκαν με ενιαία αντιπροσωπευτική καταγραφή στην οποία οι τιμές έκφρασης εξαπλωθεί σε όλη ανιχνευτές αδελφό αντικαταστάθηκαν από biweight ισχυρή μέση του Tukey? Αυτή η διαδικασία επαναλήφθηκε για κάθε ομάδα καθετήρα αδελφό.

Μετά την επίλυση πολλά-προς-πολλά σχέση μεταξύ των ανιχνευτών και των γονιδίων, 19593 και 23407 ανιχνευτές /γονίδια που διατηρούνται σε Agilent-014850 ολόκληρο το γονιδίωμα και HuEx-1_0-st συστοιχίες , αντίστοιχα. Και τα δύο σύνολα δεδομένων περαιτέρω συγχωνεύθηκαν με βάση κοινό πεδίο, δηλαδή Entrez GeneID. Η συγχωνευθείσα σύνολο δεδομένων αποτελείται από 18.927 ανιχνευτές /γονίδια, 84 δείγματα καρκίνου και 27 δειγμάτων ελέγχου. Αυτή η νέα δέσμη στοιχείων χρησιμοποιήθηκε για την επακόλουθη διαδικασία διόρθωσης παρτίδα.

Batch Διόρθωση.

Χρησιμοποιήσαμε δύο αναλυτικές μεθόδους, δηλαδή την καταπολέμηση της [19] και XPN [20], για να ασχοληθεί με μη-βιολογικές μεταβολές ή παρτίδα ενέργειες. Αυτές οι μέθοδοι έχουν αναφερθεί να έχει υψηλές επιδόσεις άλλες τεχνικές cross-platform εξομάλυνση [21], [22].

Η εφαρμογή R του αγώνα (www.bu.edu/jlab/wp-assets/ComBat/) χρησιμοποιήθηκε για την αφαίρεση παρτίδα επιπτώσεις από τα δύο σύνολα δεδομένων. Ομοίως ομαλοποιημένη σύνολα δεδομένων υποβλήθηκαν σε επεξεργασία με τη μέθοδο XPN, που υλοποιείται στο πακέτο Conor [22] διατίθενται με το πακέτο αποθετήριο CRAN (cran.r-project.org/web/packages/). Η ομαλοποιημένη και παρτίδα διορθωμένα στοιχεία θα επιτρέψουν την ολοκλήρωση επίπεδο αισθητήρα /γονίδιο δεδομένα από δύο μελέτες, διευκολύνοντας έτσι μια γενιά από τις ισχυρές υποθέσεις για τα δεδομένα με τη βελτίωση της στατιστικής ισχύος.

Αξιολόγησης της Ποιότητας παρτίδας Διόρθωση.

Η παρτίδα διορθωθεί σύνολο δεδομένων εκτιμήθηκε για χαρακτηριστικά όπως κατανομή των τύπων δείγματος και την αλλαγή σε πειραματικά εξουσία. Αυτό έγινε για την επιλογή ανάμεσα σε μάχης και XPN, ως μέθοδος διόρθωσης παρτίδα που ταιριάζει καλύτερα για το σύνολο δεδομένων μας. R εφαρμογή της Ανάλυση Κύριων Συνιστωσών – PCA (μέθοδος δηλ prcomp ()) χρησιμοποιήθηκε για την εκτίμηση της κατανομής του καρκίνου και ελέγχου δειγμάτων μεταξύ δύο δεδομένων που χρησιμοποιήθηκε στην τρέχουσα μελέτη [13], [14]. Το R στατιστική ssize πακέτο () χρησιμοποιήθηκε για την εκτίμηση των πειραματικών εξουσίας [23].

Η διαφορική έκφραση ανάλυση

Η ομαλοποιημένη και παρτίδα διορθωθεί σύνολο δεδομένων χρησιμοποιήθηκε για περαιτέρω ανάλυση. Η ανάλυση διαφορικής έκφρασης διεξήχθη χρησιμοποιώντας το πακέτο LIMMA (έκδοση 3.14.4) με παλινδρόμηση ελαχίστων τετραγώνων και εμπειρική Bayes μετριάστηκε t-στατιστικά στοιχεία [24], [25]. Η μήτρα σχεδιασμός κατασκευάστηκε για να αντιπροσωπεύουν τη διάταξη των δειγμάτων καρκίνου και ελέγχου στα δεδομένα-μήτρα. Η διαφορά στα επίπεδα έκφρασης των δειγμάτων σε δύο προϋποθέσεις μελετήθηκε θέτοντας αντίθεση «ελέγχου του καρκίνου». P-τιμές προσαρμόστηκαν για πολλαπλές συγκρίσεις χρησιμοποιώντας τη διόρθωση ψευδών ρυθμό ανακάλυψης Benjamini Hochberg ή «fdr» [26]. Γονίδια με την προσαρμοσμένη τιμή p μικρότερη ή ίση με 0,05 και η πτυχή όριο του 1,5 αλλαγής θεωρήθηκαν ως διαφορικά εκφρασμένων, στην παρούσα μελέτη.

Δίκτυο Ανάλυσης

Το στατιστικό πακέτο R ‘ GeneNet »(έκδοση 1.2.7) [27] χρησιμοποιήθηκε για να συναχθεί μεγάλης κλίμακας δίκτυα γονίδιο συνδέσμου μεταξύ διαφορικά εκφραζόμενων γονιδίων που λαμβάνονται στη μελέτη μας. Τα δίκτυα σύνδεσης συναχθεί από GeneNet είναι γραφικές Gaussian μοντέλα (GGMs), οι οποίες αντιπροσωπεύουν πολυπαραγοντική εξαρτήσεις σε βιο-μοριακών δικτύων με μερική συσχέτιση. Αυτή η μέθοδος παράγει ένα γράφημα στο οποίο κάθε κόμβος αντιπροσωπεύει ένα γονίδιο, και οι ακμές αντιπροσωπεύουν απευθείας εξαρτήσεις μεταξύ συνδέουν κόμβους /γονίδια. Η μέθοδος αυτή υπολογίζει επίσης στατιστική αξία σημαντικότητας (p-value) μαζί με fdr διορθωθεί /προσαρμοσμένη q-αξίας για τις άκρες του δικτύου GGM, η οποία παρέχει ένα μηχανισμό για να εξαγάγετε μόνο σημαντικές άκρες στο δίκτυο. το δίκτυο της εξάρτησης δημιουργήθηκε για κάθε κατάσταση ξεχωριστά. Το όριο της Q-τιμή μικρότερη ή ίση με 0,05, χρησιμοποιήθηκε για να φιλτράρει τα μη σημαντική άκρα στο τελικό δίκτυο. Προσαρμοσμένη Perl scripts γράφτηκαν για να εξαγάγετε σύνδεσης ή βαθμό στατιστικά στοιχεία των δικτύων για τον καρκίνο και τον έλεγχο δειγμάτων.

Αιτιώδης Συλλογιστική

Αιτιώδης σκεπτικό προσπαθεί να εξηγήσει τις υποθετικές βιολογικές αιτίες των παρατηρούμενων αλλαγών της γονιδιακής έκφρασης με βάση σε σκηνοθεσία αιτιώδεις σχέσεις. Αιτιώδεις σχέσεις μπορεί να αναπαρασταθεί ως «αιτιώδης γραφήματα, τα οποία αποτελούνται από κόμβους (γονίδιο /βιολογική διαδικασία), και κατευθυνόμενες ακμές που απεικονίζει τη σχέση μεταξύ σύνδεση κόμβων. Βιολογική ρύθμιση μπορεί επίσης να εκπροσωπούνται σε τέτοια αιτιώδης γραφήματα σε μορφή υπέγραψε άκρες, με την επιγραφή που δείχνει αν μια αλλαγή στη συνάφεια μεταβλητή επηρεάζει την δεύτερη μεταβλητή θετικά ή αρνητικά.

Στην παρούσα μελέτη, έχουμε εφαρμόσει αιτιώδης μέθοδος συλλογισμού που προτείνει Chindelevitch et al. [28], για να ανακτήσετε τον κατάλογο των στατιστικά σημαντική προς τα πάνω υποθέσεις, γεγονός που εξηγεί παρατηρούμενες αλλαγές της γονιδιακής έκφρασης στο σύνολο δεδομένων της μελέτης μας. Η μέθοδος αυτή προσδιορίζει υποθετική ανάντη υπόθεση βασίζεται σε ένα σύνολο αιτιατών σχέσεων εκπροσωπούνται ως αιτιώδης γράφημα, και κατατάσσεται μια τέτοια υπόθεση με τον υπολογισμό αθροιστική βαθμολογία τους ανάλογα με τη φύση της πρόβλεψης (σωστό = 1, λανθασμένη = -1, διφορούμενη = 0) γίνονται από την υπόθεση στην αιτιώδη γράφημα. Η μέθοδος αυτή υπολογίζει επίσης στατιστική σημαντικότητα του κάθε σκοράρει και υποθέσεις εξόδου, οι οποίες είναι στατιστικά σημαντικές.

Το R-κώδικα της μεθόδου αιτιώδη συλλογισμό [28] απαιτεί τρεις εισόδους δηλαδή. (I) Φορείς Αιτιώδης δικτύου: ένα αρχείο οριοθετημένο με στηλοθέτες που αποτελείται από πληροφορίες σχετικά με τις οντότητες του αιτιώδους δικτύου, στη μελέτη μας αποτελείτο από τον κατάλογο των γονιδίων, τα οποία αποτελούν μέρος του δικτύου συνάφεια, (ii) διαφορικά εκφρασμένων Genelist: μια καρτέλα οριοθετημένο αρχείο που αποτελείται από δύο στήλες (δηλαδή το όνομα του γονιδίου και την κατεύθυνση της ρύθμισης, η οποία είναι 1 ή -1 για ανερχόμενη ή προς τα κάτω ρύθμιση), (iii) Αιτιώδης Δίκτυο Σχέσεις: ένα αρχείο οριοθετημένο με στηλοθέτες που αποτελείται από συνιστούν οντότητες (δηλαδή γονίδιο πηγή για γονιδίου-στόχου) και το είδος της σχέσης μεταξύ των οντοτήτων (τύπου: «αυξήσει» ή «να μειώσει» περιγράφει την αιτιώδη επίδραση της πηγής στο στόχο). Τα αρχεία εξόδου που παράγονται με αυτή τη μέθοδο είναι: (i) HypothesisTable.xls (βλέπε κείμενο S4): ένα αρχείο οριοθετημένο με στηλοθέτες, κάθε σειρά των οποίων είναι μια υπόθεση (δηλαδή μια οντότητα στο γράφημα με μια κατεύθυνση του + ή – και ένα αριθμός των κατάντη βήματα που λαμβάνονται για να προβλέψει μεταγραφές) και η στήλη αποτελείται από σκορ, το όνομα και τον αριθμό της διόρθωσης ανακριβών, και δεν εξήγησε μεταγραφές καθώς και p-τιμές και Bonferroni διορθωμένη τιμή-p [29], [30], όπως μια συντηρητική εκτίμηση της σημασίας με πολλαπλά διόρθωση δοκιμές (ii) αρχεία XGMML: συνάφεια υπο-γραφήματα της σημαντικής υπόθεσης ανιχνεύονται με τη μέθοδο παράγονται σε xgmml μορφή

αιτιώδης Γράφημα Δημιουργία

Έχουμε.. μεταχειρισμένα αιτιώδης σχέση ενσωματωμένα σε οδούς KEGG [31] ως πηγή παράγει την αιτιώδη γράφημα στην παρούσα μελέτη. KEGG ΑΡΙ μόχλευση ως ένα πλαίσιο για την ανάλυση οντότητες και τις σχέσεις από kgml αρχείο ενός μονοπατιού. μονοπάτια KEGG για ανθρώπινη θεωρήθηκαν για τη συλλογή πληροφοριών που απαιτούνται για την κατασκευή του δικτύου συνάφειας. Το αρχείο kgml περιέχει κατάλογο οντότητα (γονίδιο /ένωσης, κλπ) και των πληροφοριών σχέσης (ενεργοποίηση /αναστολή /έκφρασης κλπ). Έχουμε θεωρούνται «ενεργοποίηση» και «αναστολή» μαζί με οντότητες που εμπλέκονται σε μια τέτοια σχέση για την κατασκευή της αιτιώδους γράφημα. Η τελική αιτιώδης γράφημα που παράγεται από μονοπάτια KEGG αποτελούνταν από 11.586 αιτιωδών σχέσεων.

Δημοσίευση επεξεργασία των αρχείων XGMML και την παραγωγή των Ενοποιημένων Αιτιώδης δικτύου.

Οι xgmml αρχεία που δημιουργούνται από την αιτιώδη ανάλυση συλλογιστική είχαν αναλυθεί με βάση το εθιμικό perl script για να εξαγάγετε κρίσιμες πληροφορίες σχετικά με ανάντη υπόθεση και να δημιουργήσει ένα ενοποιημένο δίκτυο συνάφειας. Οι υποθέσεις και οι προβλεπόμενες σχέσεις υποβλήθηκαν περαιτέρω σε οθόνη για να καταργήσετε υποθέσεις δεν υποστηρίζεται από τα δεδομένα μας, αλλά και να αφαιρέσει ψευδώς προβλέψει αιτιωδών σχέσεων, η οποία μπορεί να χαρακτηριστεί ως «I (+/-)» στο κείμενο S5. Τα προβλέψει σωστά τις σχέσεις μπορεί να χαρακτηριστεί ως «C (+/-)» στο κείμενο S5. Οι υποθέσεις οι οποίες δεν εκφράζονται διαφορικά ελέγχθηκαν για το επίπεδο έκφρασης του (δηλαδή πάνω /κάτω-ρύθμιση) απεικονίζεται στο γράφημα συνάφεια και, στη συνέχεια, σε σύγκριση με το αντίστοιχο επίπεδο έκφρασης της στο σύνολο δεδομένων μας. Κάθε υπόθεση με αντικρούουν κατεύθυνση στο προφίλ έκφρασης (δηλαδή πάνω ρυθμισμένα στην αιτιώδη γράφημα και κάτω-ρυθμίζονται στο σύνολο δεδομένων της έκφρασης, ή το αντίστροφο), δεν θεωρήθηκε για περαιτέρω ανάλυση. Έτσι, οι προβλέψει σωστά υποθέσεις θα περιλαμβάνει μόνο τις υποθέσεις που μπορούν να επιβεβαιωθούν από το ενιαίο σύνολο δεδομένων έκφραση που χρησιμοποιείται στην παρούσα μελέτη (δηλαδή υπόθεση απεικονίζεται ως υπερ-εκφράζεται σε αιτιώδη δίκτυο, θα πρέπει επίσης να δείχνουν υπερ-έκφραση στο σύνολο δεδομένων της έκφρασης, ή το αντίστροφο ).

Τα προβλέψει σωστά τις σχέσεις και υποθέσεις εξετάστηκαν κατά τη δημιουργία του ενοποιημένου δικτύου συνάφειας. πληροφορίες συνδεσιμότητας, μαζί με τη φύση της σχέσης (αυξήσεις /μειώσεις) μεταξύ της υπόθεσης και κατάντη γονίδια αποθηκεύονται στο «Causal_Net.rel» (βλέπε κείμενο S6). στατιστικές συνδεσιμότητα επίσης υπολογίζεται για όλες τις άκρες στο τελικό δίκτυο συνάφεια και αποθηκεύονται στο «Causal_Net.degree» (βλέπε κείμενο S7).

Λογοτεχνία Ορυχεία

διαφορικά εκφραζόμενα γονίδια θεωρήθηκαν για τη λειτουργική ανάλυση βασίζεται σε διαθέσιμες πληροφορίες σε δημοσιευμένα άρθρα αρχειοθετούνται στη βάση δεδομένων NCBI PubMed. Το NCBI eUtils, ιδίως, ΕΡΕΥΝΑ ΚΑΙ Efetch, χρησιμοποιήθηκαν σε συνδυασμό με την ενότητα Perl LWP, για την εξόρυξη δεδομένων NCBI PubMed [32]. Το πεδίο εφαρμογής της σχετικής βιβλιογραφίας, με το γονίδιο σύμβολο των διαφορικά εκφρασμένων γονιδίων επεκτάθηκε με τη χρήση γονιδιακής πίνακα συνώνυμο, τα ερωτήματα που ενσωματώνουν τα συνώνυμα μαζί με άλλους όρους αναζήτησης στη συνέχεια αποστέλλονται στο PubMed χρησιμοποιώντας το βοηθητικό πρόγραμμα ΕΡΕΥΝΑ, ακολουθούμενη από την ανάκτηση των σχετικών αρχείων από το βοηθητικό πρόγραμμα Efetch.

Η μέθοδος χρησιμοποιεί κανόνες κείμενο εξόρυξης ορίζεται στο αλγόριθμο, για την ταξινόμηση των διαφορικά εκφραζόμενων γονιδίων ανάλογα με τον τύπο δείκτη (θεραπευτική /διαγνωστική /προγνωστική) και σχετικές καρκίνος γνωρίσματα (απόπτωση /του πολλαπλασιασμού των κυττάρων /αγγειογένεσης /μετάσταση /φλεγμονή) ανέφεραν για το εν λόγω γονίδιο στα άρθρα που δημοσιεύονται στο NCBI-PubMed. Ο αλγόριθμος υπολογίζει στατιστική σημαντικότητα των στατιστικών αναζήτησης και ενοποιεί τη λογοτεχνία αποτελέσματα εξόρυξης ως αρχεία έκθεση. Η αλγοριθμική ροή της μεθόδου εξόρυξης λογοτεχνίας που χρησιμοποιείται στην παρούσα μελέτη απεικονίζεται στο Σχ. 2.

Η

σενάριο Perl γράφτηκε για τη λειτουργική σχολιασμό του γονιδίου-list των εισροών, με βάση την εξόρυξη κείμενο των σχετικών άρθρων ανακτηθεί με τη βοήθεια του NCBI eUtils. Ο αλγόριθμος εξόρυξης βιβλιογραφία εφαρμοστεί στην τρέχουσα μελέτη αποτελείται από τα ακόλουθα βασικά στοιχεία:…

Δημιουργία πίνακα γονιδίου-συνώνυμο

Ερώτημα σχηματισμό

Κείμενο εξόρυξης

ανάλυση σημασία του αποτελέσματος κειμένου εξόρυξης.

Η

Gene συνώνυμο.

το γονίδιο καρτέλα οριοθετημένο «gene_info» αρχείο κατεβάσει από το site ftp NCBI και χρησιμοποιήθηκε για τη δημιουργία πίνακα συνώνυμο. Οι εγγραφές για τα ανθρώπινα εξήχθησαν από το αρχείο gene_info με τη βοήθεια του κώδικα οργανισμού για τα ανθρώπινα (ταξινόμηση id: 9606), και οι καταχωρήσεις αυτές χρησιμοποιήθηκαν για να δημιουργήσουν ένα ενδιάμεσο αρχείο, το οποίο περαιτέρω χρησιμοποιείται για τη δημιουργία του γονιδίου πίνακα συνώνυμο. Οι στήλες του ενδιάμεσου αρχείου που χρησιμοποιήθηκαν για να δημιουργήσουν εναλλακτικές ονομασίες για τα γονίδια είναι: (i) «συνώνυμα γονίδιο», (ii) «περιγραφική ονομασία», και (iii) «άλλα ονόματα»

Η. προκύπτει πίνακα γονίδιο συνώνυμο αποθηκεύτηκε ως καρτέλα οριοθετημένο αρχείο με δύο στήλες δηλαδή. σύμβολο γονίδιο και συνώνυμα. Μια καταχώρηση στον πίνακα γονίδιο συνώνυμο ήταν στην ακόλουθη μορφή:.

MMP1 CLG # ινοβλαστών κολλαγενάση # διάμεση κολλαγενάση # μήτρας μεταλλοπρωτεάσης 1 # μεταλλοπρωτεϊνασών μήτρας 1.

σχηματισμό Ερώτημα

τα ερωτήματα αναζήτησης έχουν βελτιστοποιηθεί με τη χρήση κατάλληλων ετικετών αναζήτησης [33], για την ανάκτηση των σχετικών άρθρων από PubMed. Αυτή η βελτιστοποίηση ήταν αναγκαία, διότι PubMed δεν υποστηρίζει αναζητήσεις φράση. Ενώ η αναζήτηση για τη φράση που αποτελείται από πολλές λέξεις, αναζήτηση PubMed θα επιστρέψουν είδη που έχουν όλες τις λέξεις στη φράση μοιρασμένα σε διάφορα μέρη στο αφηρημένο. Αυτή η προεπιλεγμένη συμπεριφορά του PubMed μπορεί να ελεγχθεί με τη χρήση ετικετών αναζήτησης. Η ετικέτα αναζήτησης «[TIAB]» (τίτλος /απόσπασμα) χρησιμοποιήθηκε μετά τους όρους γονίδιο και βιολογικές έννοιες όπως η απόπτωση ή αγγειογένεση, οι οποίες χρησιμοποιήθηκαν για την αναζήτηση PubMed βάση δεδομένων. Περαιτέρω, η ετικέτα αναζήτησης «[ΜΗ]» (Όροι mesh) εφαρμόστηκε για τον περιορισμό πλαίσιο των ειδικών για τον καρκίνο του στόματος αναζήτησης χρησιμοποιώντας όρο MeSH «στόμα νεοπλάσματα [ΜΗ]» και έχουν χρησιμοποιήσει τον όρο ερωτήματος «νεοπλάσματα [ΜΗ]» για αναζήτηση άρθρα που σχετίζονται με οποιοδήποτε είδος καρκίνου

Τα ερωτήματα που χρησιμοποιεί τη μέθοδο μας μπορούν γενικά να χωριστούν σε δύο κατηγορίες δηλαδή

Παγκόσμια ερωτήματα:.. Αυτά τα ερωτήματα χρησιμοποιήθηκαν για την εξαγωγή αναζήτηση παγκόσμια στατιστικά στοιχεία για τον υπολογισμό στατιστικής σημαντικότητας των αποτελεσμάτων της εξόρυξης λογοτεχνίας. Τα παγκόσμια στατιστικά στοιχεία που απαιτούνται για την ακριβή δοκιμασία Fisher περιλαμβάνει το συνολικό αριθμό των ειδών που σχετίζονται με τον καρκίνο του στόματος /καρκίνο, και ο αριθμός των άρθρων που σχετίζονται με τη λειτουργική έννοια (όπως απόπτωσης, μετάσταση, αγγειογένεση, κλπ), καθώς και τον καρκίνο του στόματος /καρκίνο.

Π.χ. (Κυτταρικό θάνατο [TIAB] ή απόπτωση [TIAB] Ή αποπτωτικών [TIAB] ή αντι-απόπτωση [TIAB] ή αντι-αποπτωτικών [TIAB]) και νεοπλάσματα του στόματος [ΜΗ]

συγκεκριμένα ερωτήματα Gene:. Σύμβολα Gene από το διαφορικά εκφραζόμενο γονίδιο-list μεταφράστηκαν σε αντίστοιχες συνώνυμα με τη βοήθεια του πίνακα γονιδίου συνώνυμο. Γονίδιο συγκεκριμένα ερωτήματα που ενσωματώνουν συνώνυμα, λέξεις-κλειδιά για τις έννοιες και τον καρκίνο του τύπου (νεοπλάσματα του στόματος ή νεοπλάσματα) στάλθηκαν στην PubMed χρησιμοποιώντας το βοηθητικό πρόγραμμα ΕΡΕΥΝΑ, ακολουθούμενη από την ανάκτηση των σχετικών αρχείων χρησιμοποιώντας το βοηθητικό πρόγραμμα Efetch. Δεν υπάρχει περιορισμός ορίστηκε για τον αριθμό των άρθρων που ανακτώνται ανά ερώτημα, δεδομένου ότι ο στόχος μας ήταν να αναθέσει σχολιασμό βασίζεται στη συναίνεση μεταξύ των δημοσιευμένων άρθρων. Δεδομένου ότι ο καρκίνος του στόματος είναι το επίκεντρο αυτής της μελέτης, η αρχική προσπάθεια της μεθόδου μας ήταν να διερευνούν μεταξύ άρθρα που σχετίζονται με τον καρκίνο του στόματος, και στη συνέχεια να εξετάσει άρθρα που σχετίζονται με κάθε καρκίνο τύπους μόνο σε κατάσταση αδυναμίας να ανακτήσει οποιαδήποτε πληροφορία με συγκεκριμένο πλαίσιο για την τον καρκίνο του στόματος. Αυτό έγινε για να βελτιώσει το ποσοστό σχολιασμό του γονιδίου-λίστα εισόδου.

Η

Π.χ. ((MMP1 [TIAB] Ή CLG [TIAB] Ή ινοβλαστών κολλαγενάση [TIAB] Ή διάμεση κολλαγενάση [TIAB] ή της μήτρας μεταλλοπρωτεάσης 1 [TIAB] Ή μεταλλοπρωτεϊνάση μήτρας 1 [TIAB]) ΚΑΙ (((θεραπευτικό [TIAB] Ή θεραπεία [TIAB ] ή διαγνωστικές [TIAB] Ή διάγνωση [TIAB] ή προγνωστικός [TIAB] Ή πρόγνωση [TIAB] ή φλεγμονώδεις [TIAB]) ΚΑΙ (στόχος [TIAB] ή μόριο [TIAB] Ή δείκτης [TIAB])) ή (κυττάρων [TIAB ] και (πολλαπλασιασμό [TIAB] ή παραγωγική [TIAB] ή το θάνατο [TIAB] Ή ανάπτυξη [TIAB] Ή διαιωνοποίηση [TIAB] Ή μετανάστευση [TIAB])) ή (απόπτωση [TIAB] Ή αποπτωτικών [TIAB] ή αντι-απόπτωση [ ,,,0],TIAB] ή αντι-αποπτωτικών [TIAB] ή αγγειογένεση [TIAB] Ή μετάσταση [TIAB] ή μεταστατικό [TIAB] ή φλεγμονή [TIAB] Ή εισβολή [TIAB] Ή (ανοσοποιητικό [TIAB] και (διαφοροποίηση [TIAB] Ή αντίσταση [TIAB ] ή η καταστροφή [TIAB]))))) και το στόμα νεοπλάσματα [ΜΗ].

εξόρυξη κειμένου.

Τα σχετικά άρθρα ανακτήθηκαν στο «XML» PubMed μορφή, γεγονός που καθιστά την εξαγωγή περισσότερων πληροφοριών ακριβής λόγω της παρουσίας του περιεχομένου που περικλείεται μέσα σε ζεύγη ετικέτα xml. άρθρα ανασκόπησης, δεν ελήφθησαν υπόψη για την εξόρυξη κειμένου, διότι μπορεί να οδηγήσει σε εξαγωγή των περιττών πληροφοριών, η οποία έχει ήδη συλληφθεί από την εξόρυξη από τα αρχικά ερευνητικά άρθρα που αναφέρονται στα εν λόγω άρθρα ανασκόπησης. Η αφηρημένη ενότητα των άρθρων θεωρήθηκε για την εξόρυξη κειμένου. Σε ένα άρθρο, το όνομα του γονιδίου μπορεί να χρησιμοποιηθεί ως ένα αρκτικόλεξο για μια έννοια που δεν σχετίζονται με το γονίδιο και έτσι μπορεί να γίνει πηγή ψευδών θετικών [34], [35]. Η μέθοδός μας προσπαθεί να επιλύσει ασάφεια που προκαλείται από ένα αρκτικόλεξο από την αναζήτηση για διευρυμένη μορφή του ακρωνύμιο στο περιεχόμενο προηγούμενων ένα αρκτικόλεξο και, στη συνέχεια, συγκρίνοντάς την με συνώνυμα της ακρωνύμιο που ανακτώνται από το τραπέζι γονίδιο συνώνυμο. Η αφηρημένη εξαιρείται από την ανάλυση, αν δεν βρεθεί αντιστοιχία στη λίστα συνώνυμο.

Η αφηρημένη τμήμα του κάθε άρθρου είναι μια ουσία του άρθρου, το οποίο περιέχει συνοπτικές πληροφορίες σχετικά με το υπόβαθρο, τα αποτελέσματα και τα συμπεράσματα των εργασιών αναφέρονται στα άρθρα. Πολλές παραλλαγές μπορεί να δει κανείς στη δομή της αφηρημένης τμήματος ερευνητικών άρθρων. Ορισμένα άρθρα έχουν ξεχωριστές υποενότητες για το φόντο, τα αποτελέσματα και τα συμπεράσματα, ενώ άλλα είδη θα έχουν όλες αυτές τις πληροφορίες σύμφωνα με γραπτή αφηρημένη ενότητα, χωρίς καμία υπο-τομής. Το περιεχόμενο του εδαφίου «συμπερασμάτων» των αντικειμένων μπορεί να θεωρηθεί ως η πιο ενημερωτική και λιγότερο ασαφής για τις λειτουργικές εργασίες σχολιασμό σαν τη δική μας. Το περιεχόμενο που χρησιμοποιείται για την εξόρυξη κειμένου στη μέθοδο μας εξήχθη από την υποενότητα «συμπεράσματα» άρθρα με σαφώς καθορισμένες εδάφια στην αφηρημένη ενότητα. Για άλλα είδη, χωρίς να υπο-χωρισμένο αφηρημένη, η μέθοδός μας εξάγει την πληροφορία αυτή από το τελευταίο μέρος του 25% του αφηρημένου τμήμα με μια παραδοχή που βασίζεται σε γενική παρατήρηση ότι τα συμπεράσματα πάντα εμφανίζονται προς το τέλος της περίληψης και αποτελούν περίπου το ένα τέταρτο του συνόλου του περιεχομένου αφηρημένα τμήμα.

Perl κανονική έκφραση χρησιμοποιήθηκε για την ανίχνευση της παρουσίας των λέξεων-κλειδιών που σχετίζονται με τον δείκτη-τύπων και /ή χαρακτηριστικά του καρκίνου στο περιεχόμενο που εξάγεται από την αφηρημένη τμήμα του αντικειμένου. Η λέξη-κλειδί που περιέχει εξάγεται το περιεχόμενο χωρίστηκε σε μονάδες μόνο φράση. Η συντακτική ανάλυση μιας τέτοιας μόνο φράση σε σύγκριση με το parsing του ολόκληρη την παράγραφο ως μια ενιαία μονάδα έχει αναφερθεί να δώσουν μεγαλύτερη αποτελεσματικότητα για το κείμενο εξόρυξης εξόρυξη με βάση τις πληροφορίες [36]. Η μονάδα Perl «Lingua :: EN :: Καταδίκη» χρησιμοποιήθηκε για την ανίχνευση ποινή όριο, που χωρίζει εισροών περιεχόμενο κειμένου σε προτάσεις για τους μεταγενέστερους ανάλυση. Προτάσεις που περιέχουν και επεκτάθηκε συνώνυμα γονιδίων και λέξεις-κλειδιά που σχετίζονται με το δείκτη τύπου ή /και γνωρίσματα του καρκίνου χρησιμοποιήθηκαν για να εκχωρήσετε σχολιασμό στο γονίδιο. Πεζά ή κεφαλαία τακτική αντιστοίχιση έκφρασης για την ανίχνευση φράσεις που περιέχουν τις λέξεις-κλειδιά του ενδιαφέροντος και του γονιδίου συνώνυμα. Οι λέξεις-κλειδιά που χρησιμοποιούνται για λειτουργικά γονίδια σχολιασμό στην παρούσα μελέτη μπορεί να χαρακτηριστεί σε γενικές γραμμές κάτω από τις ακόλουθες δύο κατηγορίες:

σχετίζονται δείκτης λέξεις-κλειδιά:

Θεραπευτικές δείκτη: ένα γονίδιο που θεωρήθηκε ως το θεραπευτικό δείκτη, αν το γονίδιο /συνώνυμο περιέχει πρόταση έχουν ένα ή περισσότερα στοιχεία από τη σχετική λέξη-list [θεραπευτικές ή θεραπείας]

προγνωστικός δείκτης: α. το γονίδιο θεωρήθηκε ως προγνωστικός δείκτης, αν το γονίδιο /συνώνυμο περιέχει προτάσεις έχουν ένα ή περισσότερα στοιχεία από το σχετικό λέξη-list [προγνωστική ή την πρόγνωση]

διαγνωστικό δείκτη: α. το γονίδιο θεωρήθηκε ως διαγνωστικού δείκτη εάν το γονίδιο /συνώνυμο περιέχει προτάσεις έχουν ένα ή περισσότερα στοιχεία από τη σχετική λέξη-list [διαγνωστικές ή διάγνωση ή πρόβλεψης [13].

You must be logged into post a comment.