You must be logged into post a comment.
Αφηρημένο
Η έρευνα στον τομέα της βιοϊατρικής εξόρυξης κειμένου έχει αρχίσει να παράγει τεχνολογία που μπορεί να κάνει τις πληροφορίες στη βιοϊατρική βιβλιογραφία πιο προσιτή για βιο-επιστήμονες . Μία από τις τρέχουσες προκλήσεις είναι να ενσωματώσει και να τελειοποιήσει την τεχνολογία αυτή για τη στήριξη της πραγματικής ζωής επιστημονικές εργασίες στη βιοϊατρική, και να αξιολογήσει τη χρησιμότητά του στο πλαίσιο των καθηκόντων αυτών. Περιγράφουμε ΚΑΒΟΥΡΑΣ – ένα πλήρως ολοκληρωμένο εργαλείο εξόρυξης κειμένου σχεδιαστεί για να υποστηρίξει την αξιολόγηση χημικό κίνδυνο για την υγεία. Το έργο αυτό είναι πολύπλοκο και χρονοβόρο, απαιτεί μια ενδελεχή επισκόπηση των υφιστάμενων επιστημονικών δεδομένων σε μια συγκεκριμένη χημική ουσία. Καλύπτοντας ανθρώπων, των ζώων, κυτταρική και άλλα μηχανιστικά δεδομένα από διάφορους τομείς της βιοϊατρικής, αυτό είναι εξαιρετικά ποικίλες και ως εκ τούτου είναι δύσκολο να συγκομιδή από τις βάσεις δεδομένων της βιβλιογραφίας μέσω ηλεκτρονικών μέσων. εργαλείο μας αυτοματοποιεί τη διαδικασία με την εξαγωγή των σχετικών επιστημονικών δεδομένων σε δημοσιευμένη βιβλιογραφία και την ταξινόμηση αυτή, σύμφωνα με πολλαπλές ποιοτικές διαστάσεις. Αναπτύχθηκε σε στενή συνεργασία με αξιολογητές κινδύνου, το εργαλείο επιτρέπει την πλοήγηση στο ταξινομηθεί σύνολο δεδομένων με διάφορους τρόπους και την κοινή χρήση των δεδομένων με άλλους χρήστες. Σας παρουσιάζουμε μια άμεση και χρήστη που βασίζεται σε αξιολόγηση, η οποία δείχνει ότι η τεχνολογία ενσωματωμένη στο εργαλείο είναι εξαιρετικά ακριβή, και να αναφέρουν μια σειρά από περιπτωσιολογικές μελέτες που δείχνουν πώς το εργαλείο μπορεί να χρησιμοποιηθεί για να υποστηρίξει την επιστημονική ανακάλυψη στην εκτίμηση του κινδύνου του καρκίνου και της έρευνας. Το έργο μας αποδεικνύει τη χρησιμότητα του αγωγού εξόρυξης κειμένου στη διευκόλυνση συγκρότημα ερευνητικές εργασίες στη βιοϊατρική. Συζητάμε την περαιτέρω ανάπτυξη και εφαρμογή της τεχνολογίας μας σε άλλους τύπους αξιολόγησης χημικό κίνδυνο στο μέλλον
Παράθεση:. Korhonen A, O Séaghdha D, Silins Ι, Sun L, Högberg J, Stenius U (2012) Κείμενο Εξόρυξη Λογοτεχνίας Επανεξέταση και Ανακάλυψη Γνώσης στον Καρκίνο αξιολόγησης κινδύνου και Έρευνας. PLoS ONE 7 (4): e33427. doi: 10.1371 /journal.pone.0033427
Επιμέλεια: Neil R. Smalheiser, Πανεπιστήμιο του Ιλινόις στο Σικάγο, Ηνωμένες Πολιτείες της Αμερικής
Ελήφθη: 25 του Νοεμβρίου του 2011? Αποδεκτές: 8 Φλεβάρη του 2012? Δημοσιεύθηκε: 12 Απριλίου, 2012
Copyright: © 2012 Korhonen et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται
Χρηματοδότηση:. ΑΚ και DOS υποστηρίζονται από Μηχανικών και Φυσικών Επιστημών Συμβούλιο Έρευνας (www.epsrc.ac.uk) επιχορήγηση ΕΚ /G051070 /1 AK. LS υποστηρίζεται από ένα βραβείο Dorothy Hodgkin Μεταπτυχιακών Σπουδών. ΕΙΝΑΙ, ΗΠΑ και JH υποστηρίζονται από το Σουηδικό Συμβούλιο Έρευνας (https://www.vr.se/). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου
Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα
Εισαγωγή
Η νέα έρευνα στον τομέα της βιοϊατρικής εξαρτάται από την αποτελεσματική χρησιμοποίηση των υφιστάμενων επιστημονικών γνώσεων – ένα έργο το οποίο βιο-επιστήμονες βρίσκουν όλο και πιο δύσκολο. Λαμβάνοντας υπόψη το διπλό εκθετικό ρυθμό ανάπτυξης της βιοϊατρικής βιβλιογραφίας τα τελευταία χρόνια [1], υπάρχει τώρα μια πιεστική ανάγκη να αναπτύξουν την τεχνολογία που μπορεί να κάνει τις πληροφορίες σε δημοσιευμένη βιβλιογραφία πιο προσιτές και χρήσιμες για τους επιστήμονες. Η εν λόγω τεχνολογία μπορεί να βασίζεται στην εξόρυξη κειμένου. Με βάση τις τεχνικές από την επεξεργασία φυσικής γλώσσας, η ανάκτηση πληροφοριών και την εξόρυξη δεδομένων, εξόρυξη κειμένου μπορούν αυτόματα να ανακτήσετε, εκχύλισμα και να ανακαλύψουν νέες πληροφορίες, ακόμη και σε τεράστιες συλλογές του γραπτού κειμένου. Παρά το γεγονός ότι δεν μπορεί ακόμη να αντικαταστήσει τους ανθρώπους σε σύνθετες εργασίες, μπορεί να επιτρέψει στους ανθρώπους να εντοπίσει και να ελέγξει τις απαιτούμενες πληροφορίες στη λογοτεχνία πιο αποτελεσματικά και να αποκαλύψει τις σχετικές πληροφορίες επισκιάζεται από τον όγκο των διαθέσιμων πληροφοριών.
Τα τελευταία χρόνια, η εξόρυξη βιοϊατρική κείμενο έχει αυξηθεί σε δημοτικότητα. έχουν αναπτυχθεί τεχνικές για να βοηθήσει, για παράδειγμα, η εξόρυξη των εγγράφων, βάσεων δεδομένων, λεξικά, οντολογίες, περιλήψεις και ειδικές πληροφορίες (π.χ. αλληλεπιδράσεις μεταξύ πρωτεϊνών και γονιδίων, καινοτόμων ερευνητικών υποθέσεων) από την σχετική βιβλιογραφία [2] – [4]. Αξιολόγηση των τεχνικών αυτών έδειξε ελπιδοφόρα αποτελέσματα. Ωστόσο, μεγάλο μέρος της αξιολόγησης έχει άμεσο χαρακτήρα και έχει χρησιμοποιηθεί προκαθορισμένο πρότυπα χρυσό. Υπάρχει τώρα γενική αναγνώριση της ανάγκης να προχωρήσουμε βιοϊατρική έρευνα εξόρυξης κειμένου πιο κοντά στην πρακτική: να ενσωματώσουν την τεχνολογία για την υποστήριξη της πραγματικής ζωής επιστημονικές εργασίες (π.χ. η διαδικασία της επιστημονικής ανακάλυψης) και να αξιολογηθεί η χρησιμότητά του στο πλαίσιο των καθηκόντων αυτών [3] , [5].
Μια σειρά από μελέτες έχουν απαντήσει σε αυτή την ανάγκη αξιολόγησης με επίκεντρο τον χρήστη, αν και η ανάληψη μελετών χρήστη απέχει ακόμη πολύ από την καθολική. Μερικές μελέτες έχουν μετρηθεί ο βαθμός στον οποίο ημι-αυτοματοποίηση μπορεί να επιταχύνει την επιμέλεια ή άλλη ροή εργασίας [6] – [8]. Ένα δεύτερο σκέλος, πιο στενά με το έργο μας, επιδιώκει να ανακαλύψει νέες σχέσεις μεταξύ βιολογικές οντότητες, οι οποίες υποστηρίζονται από αλλά δεν αναφέρεται ρητά στη βιβλιογραφία [9] – [11]? Για παράδειγμα, η ύπαρξη ενός γνωστού συνδέσμου μεταξύ μιας ασθένειας και ενός γονιδίου και μεταξύ του ίδιου γονιδίου και ένα φάρμακο μπορεί να προτείνει έναν ρόλο για το φάρμακο στην θεραπεία της νόσου. αξιολόγηση χρήστη στο πλαίσιο αυτό περιλαμβάνει τη σύγκριση των προτεινόμενων σχέσεων προηγουμένως προταθεί υποθέσεις και κάνει ποιοτικές κρίσεις ως προς το εάν φαίνεται να προσφέρουν γόνιμες κατευθύνσεις για περαιτέρω έρευνα. περιπτωσιολογικές μελέτες μας ακολουθούν την ίδια βασική πρότυπο, αν και το έργο στο χέρι, που απαιτούν συνθετική ανάλυση της πλήρους περιλήψεων, είναι πιο πολύπλοκη από ό, τι την ταξινόμηση των σχέσεων μεταξύ οντότητα αναφέρει.
Σε αυτή την εργασία παρουσιάζουμε μια νέα, πλήρως ολοκληρωμένη σύστημα εξόρυξης κειμένου σχεδιαστεί για να υποστηρίξει την πολύπλοκη και άκρως βιβλιογραφία που εξαρτώνται από το έργο της αξιολόγησης χημικό κίνδυνο για την υγεία. Αυτή η εργασία είναι κρίσιμη, διότι τα χημικά παίζουν σημαντικό ρόλο στην καθημερινή ζωή και πρέπει να αξιολογούνται δυνητικού κινδύνου για την ανθρώπινη υγεία. Με χιλιάδες χημικές ουσίες εισάγονται κάθε χρόνο, πολλές χώρες σε όλο τον κόσμο έχουν δημιουργήσει όλο και πιο αυστηρούς νόμους που διέπουν την παραγωγή και τη χρήση τους. Για παράδειγμα, η πρόσφατη καταχώρισης της Ευρωπαϊκής Ένωσης, την αξιολόγηση, την αδειοδότηση και τους περιορισμούς (REACH) νομοθεσία [12] προβλέπει ότι όλες οι χημικές ουσίες που παρασκευάζονται ή εισάγονται σε μεγάλες ποσότητες πρέπει να υποβάλλονται σε ενδελεχή αξιολόγηση των κινδύνων.
Η αξιολόγηση του μεγάλου αριθμού χημικών ουσιών είναι πιο εύκολο στα λόγια παρά στην πράξη. Χρησιμοποιώντας το παρόν διαθέσιμη μεθοδολογία, διαρκεί έως και δύο χρόνια για να αξιολογηθεί μια ενιαία χημική ουσία [13]. Αν και η ανάπτυξη ενός εντελώς νέου συστήματος για τον έλεγχο της τοξικότητας μπορεί να βοηθήσει στη βελτίωση της αποτελεσματικότητας των χημικών αξιολόγησης σε μακροπρόθεσμη βάση [14], υπάρχει πιεστική ανάγκη να βελτιωθεί η κατάσταση της τέχνης βραχυπρόθεσμα και μεσοπρόθεσμα.
αξιολόγηση χημικής κινδύνου είναι μια σύνθετη διαδικασία που αποτελείται από διάφορα στάδια συστατικού. Το πρώτο σημαντικό στοιχείο είναι συνήθως μια εκτενή επισκόπηση και ανάλυση των διαθέσιμων επιστημονικών δεδομένων σχετικά με το εν λόγω χημικό προϊόν. Η παρούσα ανασκόπηση επικεντρώνεται σε οποιαδήποτε δεδομένα των πιθανών ενδιαφέρον – και όχι μόνο τα δεδομένα του ανθρώπου, αλλά και των ζώων, την κυτταρική (in vitro) και άλλα μηχανιστικά δεδομένα [15]. Η κύρια πηγή για αυτά τα δεδομένα είναι ελεγμένα από ειδικούς επιστημονικά βιβλιογραφία.
Σύμφωνα με πρόσφατη έκθεση, οι αξιολογητές των κινδύνων βρείτε συγκέντρωση βιβλιογραφίας και ανάλυση απαγορευτικά χρονοβόρα [16]. Αυτό δεν αποτελεί έκπληξη δεδομένου ότι οι βιοϊατρικές επιστήμες, που αντλεί την αξιολόγηση χημικής κινδύνου (επιδημιολογία, την κυτταρική βιολογία, και την έρευνα του καρκίνου, μεταξύ πολλών άλλων) την ανάπτυξη πιο γρήγορα από ποτέ. Η εξέλιξη αυτή μπορεί να παρατηρηθεί από την εξέταση της ανάπτυξης του MEDLINE (Ανάλυση ιατρική βιβλιογραφία και Σύστημα Ανάκτησης on-line) – Η.Π.Α. Εθνική Βιβλιοθήκη της (NLM) premier βιβλιογραφική βάση δεδομένων Ιατρικής, η οποία είναι μια σημαντική πηγή βιβλιογραφίας που χρησιμοποιούνται στην τρέχουσα αξιολόγηση χημικό κίνδυνο. Το 2005, αυτή η βάση δεδομένων περιλαμβάνονται 13 εκατομμύρια αναφορές. Σήμερα περιλαμβάνει πάνω από 18 εκατομμύρια, με 2.000-4.000 αναφορές προστίθενται στο Medline κάθε μέρα? Στην πραγματικότητα, η βάση δεδομένων αναπτύσσεται σε ένα διπλό εκθετικό ρυθμό [1]. Τα στοιχεία για μια ενιαία χημική ουσία μπορεί να βρεθεί διάσπαρτα σε χιλιάδες άρθρα σε περιοδικά (π.χ. MEDLINE περιλαμβάνει πάνω από 30.000 άρθρα για το κάδμιο).
Προς το παρόν, οι αξιολογητές κινδύνου και οι επιστήμονες χρησιμοποιούν συστήματα όπως PubMed για να συγκεντρώσει σχετική βιβλιογραφία από βάσεις δεδομένων . Αυτά τα συστήματα επιστρέψει μια λίστα των άρθρων περιοδικών απαντώντας σε ερωτήματα λέξη-κλειδί που βασίζεται. Ωστόσο, με δεδομένη τη μεγάλη ποικιλία και την πολυπλοκότητα των επιστημονικών δεδομένων που χρησιμοποιούνται για την αξιολόγηση των κινδύνων, ο αριθμός των λέξεων-κλειδιών, τα συνώνυμά τους και των πιθανών συνδυασμών απλά υπερβαίνει ό, τι ανθρώπινο αξιολογητών του κινδύνου μπορεί εύλογα να απομνημονεύσει και να χειριστεί. Αυτό που ουσιαστικά χρειάζεται είναι πολύ πιο ισχυρή τεχνολογία που πηγαίνει πέρα από αναζήτηση λέξεων-κλειδιών με βάση – τεχνολογία που κατηγοριοποιεί και κατατάσσεται διάφορα επιστημονικά δεδομένα με βάση τη συνάφειά τους, καθιστά τις συνδέσεις μεταξύ άλλως ασύνδετα άρθρα, και δημιουργεί περιλήψεις, τα στατιστικά στοιχεία, τις απεικονίσεις και τα νέα υποθέσεις από η επιστημονική βιβλιογραφία, αφήνοντας τους εκτιμητές επικινδυνότητας να διερευνήσει τις απορρέουσες δομημένα δεδομένα. Το έργο που αναφέρονται εδώ μοιράζεται μερικοί από τους στόχους του έργου Semantic MEDLINE [17], [18], στην προσθήκη ενός «σημασιολογική» στρώμα της αυτόματης επεξεργασίας πάνω από τη λειτουργικότητα ανάκτησης λέξεις-κλειδιά με βάση της PubMed ή παρόμοια μηχανή αναζήτησης. Πιστεύουμε ότι το έργο μας διακρίνεται από Σημασιολογικού MEDLINE με τη χρήση των στατιστικών μεθόδων NLP, από την εστίαση σε ένα underexplored έργο ρύθμιση με ένα διακριτικό πληροφορίες χρειάζεστε και από την εστίασή μας στην αξιολόγηση με επίκεντρο τον χρήστη.
Αν μια ειδική εργαλείο εξόρυξης κειμένου αναπτύχθηκε για την αξιολόγηση χημικό κίνδυνο, θα μπορούσε να χρησιμοποιηθεί για την αποτελεσματική αναγνώριση, η δική μου, και να ταξινομήσουν τα επιστημονικά δεδομένα στον τομέα της βιοϊατρικής βιβλιογραφίας, καθώς και να ανακαλύψουν νέα μοτίβα σε διαβαθμισμένων δεδομένων. Διευκόλυνση της αξιολόγησης μεγάλης κλίμακας των υφιστάμενων δεδομένων, ένα τέτοιο εργαλείο θα μπορούσε να προσφέρει τα μέσα για να βελτιώσει την ακρίβεια, την πληρότητα και αποτελεσματικότητα της εκτίμησης χημικό κίνδυνο. Το εργαλείο μπορεί επίσης να χρησιμοποιηθεί για την υποστήριξη της επιστημονικής έρευνας στους τομείς επί των οποίων στηρίζεται αξιολόγηση του κινδύνου.
Σε Korhonen et al. [16] πήραμε το πρώτο βήμα προς την ανάπτυξη της τεχνολογίας εξόρυξης κειμένου για την αξιολόγηση κίνδυνο χημικών, εστιάζοντας στην εκτίμηση του κινδύνου καρκίνου. Εισαγάγαμε μια βασική ταξινόμηση η οποία καλύπτει τους βασικούς τύπους των επιστημονικών στοιχείων που χρησιμοποιούνται για τον προσδιορισμό καρκινογόνες ιδιότητες των χημικών ουσιών, και μια εποπτευόμενη προσέγγιση μηχανικής μάθησης που μπορεί να χρησιμοποιηθεί για την ταξινόμηση περιλήψεις MEDLINE σε σχετικές κατηγορίες ταξινόμησης. Η αξιολόγηση έδειξε ότι η ταξινόμηση είναι καλοσχηματισμένα και ότι η προσέγγιση μηχανικής μάθησης είναι αρκετά ακριβή. Αν και το πείραμα ήταν μικρής κλίμακας και όχι την αξιολόγηση της πρακτικής χρησιμότητας της τεχνολογίας για την αξιολόγηση του κινδύνου της πραγματικής ζωής πραγματοποιήθηκε, τα αποτελέσματα ήταν, ωστόσο, πολλά υποσχόμενη
Θα εκμεταλλευτώ αυτή την γραμμή έρευνας σημαντικά περαιτέρω και να εισαγάγει καβούρι. – ένα πλήρως ολοκληρωμένο εργαλείο εξόρυξης κειμένου που αποσκοπούν στην υποστήριξη της όλης διαδικασίας της επισκόπηση της βιβλιογραφίας και ανακάλυψης της γνώσης στην αξιολόγηση του κινδύνου καρκίνου. Διαθέσιμη στους τελικούς χρήστες μέσω ενός online διασύνδεση Web, επιτρέπει την πρόσβαση σε PubMed, κατεβάζοντας επιστημονική περιλήψεις σε επιλεγμένα χημικά προϊόντα, και την ταξινόμηση τους σύμφωνα με ένα εκτεταμένο ταξινόμηση χρησιμοποιώντας εποπτευόμενη τεχνολογία μηχανικής μάθησης. Το εργαλείο επιτρέπει την πλοήγηση στο διαβαθμισμένων σύνολο δεδομένων με διάφορους τρόπους και την κοινή χρήση των δεδομένων με άλλους χρήστες. Σας παρουσιάζουμε τόσο άμεσων όσο και το έργο που βασίζεται σε αξιολόγηση της τεχνολογίας ενσωματωθεί στο εργαλείο, μαζί με μια σειρά από μελέτες περιπτώσεων που να αποδεικνύουν τη χρησιμότητα του εργαλείου για την υποστήριξη ανακάλυψη γνώσης σε αξιολόγηση του κινδύνου του καρκίνου και της έρευνας.
Η έρευνά μας καταδεικνύει ότι μια σχετικά φιλόδοξη αγωγού εξόρυξης κειμένου που αποτελείται από δύο στάδια ανάκτησης και πολυ-ταξινόμηση μπορεί να είναι χρήσιμη για σύνθετα ερευνητικές εργασίες στη βιοϊατρική. Παρόλο που ισχύουν σήμερα για τον καρκίνο, το εργαλείο θα μπορούσε να ευθέως προσαρμοστεί για την υποστήριξη της αξιολόγησης και της μελέτης των άλλων σημαντικών κινδύνων για την υγεία που συνδέονται με τα χημικά προϊόντα (π.χ. αλλεργία, άσθμα, αναπαραγωγικές διαταραχές, μεταξύ πολλών άλλων).
Μέθοδοι
Οι ακόλουθες τρεις υπο-ενότητες περιγράφουν τα βασικά συστατικά των καβουριών: την ταξινόμηση αξιολόγηση του κινδύνου του καρκίνου, το corpus των περιλήψεων MEDLINE σχολιασμένο σύμφωνα με τις τάξεις ταξινομίας, και το ταξινομητή βασισμένο σε μηχανική μάθηση. Η τελική υποενότητα παρουσιάζεται η συνολική αρχιτεκτονική του εργαλείου ΚΑΒΟΥΡΑΣ μαζί με τη διεπαφή χρήστη.
Ταξινόμηση
Στο επίκεντρο των καβουριών είναι μια ταξινόμηση που αναπτύχθηκε από τους ειδικούς στην έρευνα για τον καρκίνο, το οποίο καθορίζει την επιστημονική τύπους δεδομένων που παρουσιάζουν ενδιαφέρον για την αξιολόγηση του κινδύνου του καρκίνου. Πήραμε την ταξινόμηση των Korhonen et al. [16] ως σημείο εκκίνησης και εκτεταμένη και το τελειοποίησαν με διάφορους τρόπους. Η προκύπτουσα ταξινόμηση περιλαμβάνει τους τύπους δεδομένων που αναφέρονται στο διαθέσιμο στο κοινό κατευθυντήριες γραμμές για την αξιολόγηση του κινδύνου του καρκίνου (π.χ. κατευθυντήριες γραμμές EPA των ΗΠΑ [15]), καθώς και επιπλέον, πιο λεπτομερή και πρόσφατα στοιχεία ανακαλύπτονται κατά την ανάλυση των εμπειρογνωμόνων της λογοτεχνίας αξιολόγησης του κινδύνου.
Η ταξινόμηση έχει δύο κύρια μέρη. Το πρώτο μέρος (που φαίνεται στο Σχήμα 1) επικεντρώνεται σε
επιστημονικές αποδείξεις για καρκινογόνο δράση
. Έχει πέντε κορυφαίες τάξεις επίπεδο που αντιπροσωπεύουν διαφορετικούς τύπους των επιστημονικών στοιχείων:
Ανθρώπινο μελέτη /Επιδημιολογία
,
μελέτη των ζώων
,
πειράματα κυττάρων
,
Μελέτη για μικρο- οργανισμούς
, και
υποκυτταρικά συστήματα
. Μερικά από αυτά χωρίζουν περαιτέρω σε υπο-κατηγορίες? για παράδειγμα,
Ανθρώπινο μελέτη
έχει πέντε υποκατηγορίες συμπεριλαμβανομένων των
όγκων που σχετίζονται με
και
Πολυμορφισμός
. Εμείς υιοθέτησε όλα τα μαθήματα ανωτάτου επιπέδου και η πλειοψηφία των υπο-κατηγορίες που προτείνει Korhonen et al. [16]
Η
Το δεύτερο μέρος της ταξινομίας (φαίνεται στο Σχήμα 2) επικεντρώνεται στην
Τρόπος δράσης
(ΜΟΑ?., Δηλαδή την ακολουθία των βασικών γεγονότων που οδηγούν στο σχηματισμό του καρκίνου , π.χ. μεταλλαξογένεση, αυξημένο πολλαπλασιασμό των κυττάρων, και την ενεργοποίηση του υποδοχέα), συλλαμβάνοντας την τρέχουσα κατανόηση των διαφόρων διεργασιών που οδηγούν στην καρκινογένεση. Πήραμε το απλό ΜΟΑ ταξινόμηση των Korhonen et al. [16], το οποίο διακρίνει δύο χρησιμοποιούνται συνήθως τύπους MOA –
Γονοτοξική
(δηλαδή καρκινογόνος συνδέεται με το DNA) και
Μη-γονοτοξικό /έμμεση γενοτοξική
(δηλαδή καρκινογόνος δεν συνδέονται με το DNA) – ως σημείο εκκίνησης. Προσθέσαμε τέσσερις υπο-κατηγορίες στο πλαίσιο του
Μη-γονοτοξικό /έμμεση γενοτοξική
κατηγορία (
Συν-κίνηση
,
Προώθηση
,
Η εξέλιξη
και
Multiphase
), μετά την προτεινόμενη πρόσφατα ΜΟΑ κατάταξη των Hattis et al. [19]. Κάθε μία από αυτές τις κατηγορίες χωρίζει περαιτέρω σε υποκατηγορίες ανάλογα με τα είδη αποδεικτικών στοιχείων που μπορούν να δείξουν τον τύπο του υπουργείου οικονομικών ερώτηση. Για παράδειγμα,
Η κυτταροτοξικότητα
μπορεί να παράσχει αποδεικτικά στοιχεία τόσο για
Προώθηση
και
Multiphase
μη γονοτοξικό MOAs.
Η
Η προκύπτουσα ταξινόμηση περιλαμβάνει 47 μαθήματα . Κάθε τάξη συνδέεται με μια σειρά από λέξεις-κλειδιά (και εκφράσεις), το οποίο, όταν βρεθούν στη βιβλιογραφία, είναι καλοί δείκτες για την παρουσία του είδους των επιστημονικών δεδομένων στο θέμα (π.χ. η
Ο κυτταρικός θάνατος
τάξη στο
ΜΟΑ
μέρος της ταξινομίας περιλαμβάνει λέξεις-κλειδιά όπως
απόπτωση
,
κατακερματισμού του DNA
,
κασπάσης-9
,
BCL2
,
bax
,
αποπτωσώματος
,
προγραμματισμένο κυτταρικό θάνατο
,
Fas
,
νεκρωτικό κυτταρικό θάνατο
, και
βιωσιμότητας
). Το σχήμα 3 δείχνει αντιπροσωπευτικά λέξεις-κλειδιά για κάθε κατηγορία στο
επιστημονικές αποδείξεις για καρκινογόνο δράση
υποκατάστημα ταξινομίας. Σχήμα 4 παρουσιάζει παράδειγμα λέξεις-κλειδιά για το
ΜΟΑ
υποκατάστημα ταξινομίας. Οι λέξεις-κλειδιά που εμφανίζονται επιλέχθηκαν από το σχολιασμένο σώμα που περιγράφεται παρακάτω.
Η
Λόγω της ταχείας ανάπτυξης της επιστήμης μια ταξινόμηση όπως αυτό δεν θα είναι ποτέ πλήρης. Ωστόσο, μπορεί να επεκταθεί και να ενημερώνονται εύκολα από τους ειδικούς χρησιμοποιώντας το εργαλείο μας.
σχολιασμένο σώμα
Το λογισμικό ταξινόμησης ΚΑΒΟΥΡΑΣ απαιτεί ως δεδομένα εκπαίδευσης ένα σώμα (δηλαδή μια συλλογή) περιλήψεων MEDLINE που έχουν ταξινομούνται χειροκίνητα σύμφωνα με την ταξινόμηση. Η Korhonen et al. [16] corpus δημιουργήθηκε με επιλογή οκτώ χημικές ουσίες οι οποίες είναι (i) καλά τεκμηριωμένη χρησιμοποιώντας ένα ευρύ φάσμα επιστημονικών και δοκιμές που (ii) αποτελούν τα δύο πιο συχνά χρησιμοποιούμενες MOAs (
γονοτοξικό
και
μη -genotoxic
): 1,3-βουταδιένιο, το βενζο (α) πυρένιο, diethylnitrosamine, στυρόλιο, χλωροφόρμιο, διαιθυλοστιλβεστρόλη, φουμονισίνη B1 και φαινοβαρβιτάλη. Ένα σύνολο από 15 περιοδικά στη συνέχεια εντοπίστηκαν τα οποία χρησιμοποιούνται συχνά για την αξιολόγηση του κινδύνου του καρκίνου και από κοινού να παρέχουν μια καλή κάλυψη κατά τη διάρκεια των διαφόρων τύπων των επιστημονικών στοιχείων που αφορούν την εργασία (π.χ. Cancer Research, Καρκινογένεση, Περιβαλλοντικές προοπτικές υγεία, Mutagenesis, μεταξύ άλλων). Από αυτά τα περιοδικά, όλα τα αποσπάσματα που επιστρέφονται από PubMed για τα έτη 1998 έως 2008, η οποία περιλαμβάνει ένα από τα 8 χημικά είχαν κατεβάσει (1297 περιλήψεις συνολικά). Κάθε αφηρημένη εξετάστηκε στη συνέχεια από έναν ειδικό στην αξιολόγηση του κινδύνου του καρκίνου και να ανατίθενται σε αντίστοιχες κατηγορίες ταξινόμησης μέσω λέξεων-κλειδιών σχολιασμού. Ένα εργαλείο σχολιασμού αναπτύχθηκε και χρησιμοποιήθηκε στην παρούσα εργασία (βλέπε Korhonen et al [16] για λεπτομέρειες.)
Η σχολιασμένη σύνολο δεδομένων είναι διαθέσιμα υπό την Creative Commons Attribution μη εμπορική άδεια (Πληροφορίες S1 και S2).? όσο γνωρίζουμε, αυτή είναι η πρώτη φορά που ένα corpus των δεδομένων χημικών σχολιασμού κίνδυνος ήταν διαθέσιμες στο κοινό.
Είμαστε εκ νέου σχολιασμένο το corpus των Korhonen et al. [16] χρησιμοποιώντας ταξινομία μας και την επέκτεινε σημαντικά: επιλέξαμε δώδεκα πρόσθετες χημικές ουσίες (όπως φαίνεται στον Πίνακα 1) – αυτοί που εκπροσωπούν συλλογικά τα είδη των επιστημονικών στοιχείων και MOAs καλύπτονται από εκτεταμένη ταξινομία μας. Περιλήψεις επέστρεψε από PubMed έρευνα για αυτές τις χημικές ουσίες (όλα από τα έτη 1999-2009) είχαν κατεβάσει και σχολιασμένο από αξιολογητές κινδύνου καρκίνου χρησιμοποιώντας το εργαλείο σχολιασμού των Korhonen et al. [16]. Η προκύπτουσα συνδυασμένη σώμα αποτελείται από 3078 σχολιασμένα αποσπάσματα MEDLINE για 20 χημικές ουσίες. Ο συνολικός αριθμός των περιλήψεων και σχολιάζονται οι λέξεις-κλειδιά που ανήκουν σε κάθε κατηγορία ταξινόμηση φαίνεται στο Σχήμα 5 (βλέπε στήλες 1-3). Μπορούμε να δούμε ότι οι 1292 αποσπάσματα έχουν ταξινομηθεί σύμφωνα με το
επιστημονικές αποδείξεις για καρκινογόνο δράση
υπο-ταξινόμηση, ενώ 1766 έχουν ταξινομηθεί σύμφωνα με την ταξινόμηση ΜΟΑ. Ο αριθμός των περιλήψεων και μεμονωμένες λέξεις-κλειδιά που σχετίζονται με τις κατηγορίες ανώτατο επίπεδο είναι υψηλό, αλλά να πάρει όλο και πιο μικρά, όπως πάμε σε βαθύτερα επίπεδα της ταξινομίας.
Η
πειράματα Ταξινόμηση
Classifier
Ο ταξινομητής ΚΑΒΟΥΡΑΣ αναθέτει αόρατο περιλήψεις MEDLINE σε κατάλληλες κλάσεις ταξινόμησης χρησιμοποιώντας μια εποπτευόμενη τεχνική μηχανικής μάθησης. Η τεχνική δεν βασίζεται σε προκαθορισμένες λέξεις-κλειδιά, αλλά χρησιμοποιεί ένα σύνολο χαρακτηριστικών γλωσσικής εγγράφου (περιγράφεται παρακάτω) και τις σχετικές επισημειώσεις corpus (που περιγράφονται στην παραπάνω ενότητα) ως δεδομένα εκπαίδευσης για να επιτευχθεί η βέλτιστη απόδοση.
Korhonen et al. [16] χρησιμοποιείται ένα σύνολο Support Vector Machine (SVM) ταξινομητές [20], ένα για κάθε κατηγορία ταξινόμησης, να αποφασίσει ποια (εάν υπάρχουν) τάξεις ταξινόμηση περιγράφουν το περιεχόμενο ενός αφηρημένου. Από SVMs έχουν καλές επιδόσεις σε πολλά ορυχεία κείμενο καθήκοντα [2], [21] και αφού έδωσε ενθαρρυντικά αποτελέσματα στα προκαταρκτικά πειράματα του Korhonen et al. [16] μπορούμε να τα χρησιμοποιούν, επίσης, στο σύστημά μας. Ωστόσο, έχουμε εισαγάγει ένα βελτιωμένο μοντέλο και επιπλέον χαρακτηριστικά για να αποκτήσουν καλύτερη απόδοση στην εργασία μας.
Παρόμοια με άλλα γνωστά ταξινομητές όπως η λογιστική παλινδρόμηση ή το perceptron, SVMs διαχωρίσει ένα σύνολο δεδομένων εκπαίδευσης σε δύο κατηγορίες με την εκμάθηση ενός λειτουργία απόφαση που αντιστοιχεί σε ένα συνδυασμό των αξιών χαρακτηριστικό και χαρακτηριστικό βάρη. Για SVMs αυτή η λειτουργία μπορεί να γραφτεί ως: (1) όπου είναι ένα διάνυσμα βαρών μάθει από τα δεδομένα εκπαίδευσης και είναι μια συνάρτηση που αντιστοιχίζει datapoints από το χώρο εισόδου σε (ενδεχομένως διαφορετικά) «χώρος χαρακτηριστικό». Ο αλγόριθμος εκπαίδευσης SVM ορίζει το διάνυσμα των βαρών σε αντιστοιχία με το
max-περιθώριο
αρχή, επιλέγοντας το όριο που μεγιστοποιεί το διαχωρισμό μεταξύ των τάξεων. Συχνά, η χαρτογράφηση χαρακτηριστικό χώρος δεν χρειάζεται να υπολογιστεί άμεσα ως αποτέλεσμα της μπορεί να συλληφθεί μέσω της χρήσης ενός
λειτουργία πυρήνα
που συγκρίνει δύο datapoints? αυτό επιτρέπει SVMs να μάθουν μη γραμμικών ορίων απόφασης, διατηρώντας παράλληλα την υπολογιστική αποδοτικότητα της γραμμικής κατάταξης. Τα βιβλία [22], [23] παρέχουν πλήρη επισκόπηση των SVMs και των μεθόδων πυρήνα σε γενικές γραμμές.
Μια τυπική λειτουργία του πυρήνα είναι το γινόμενο ή
γραμμικό πυρήνα, το οποίο θα χρησιμοποιηθεί σε Korhonen et al. [16] 🙁 2) Μία εναλλακτική λειτουργία του πυρήνα, κατάλληλο για τη σύγκριση κατανομές πιθανότητας (ή L1-κανονικοποιημένα διανύσματα), μπορούν να προέρχονται από την απόκλιση Jensen-Shannon (JSD) [24], μέσω μιας μεθόδου που προτείνει Hein και Bousquet [25 ] 🙁 3) Ó Séaghdha και Copestake [26] αποδεικνύουν ότι το
JSD πυρήνα
αποφέρει σημαντικά καλύτερη απόδοση από το γραμμικό πυρήνα σε μια σειρά από καθήκοντα κατάταξης στην επεξεργασία φυσικής γλώσσας? ως εκ τούτου, μπορούμε να την εφαρμόσει εδώ με την προσδοκία ότι θα βελτιώσει την ακρίβεια της αυτόματης αφηρημένη σχολιασμό μας.
Περιλήψεις εισάγονται στον αγωγό ταξινόμηση ως PubMed XML, από τα οποία εξάγονται το περιεχόμενο της κάθε αφηρημένη και κάποια που σχετίζονται σήμανσης . Το κείμενο της περίληψης είναι tokenised (διαχωρισμός στα συστατικά μάρκες λέξη του) χρησιμοποιώντας την OpenNLP Toolkit [27] και να μετατραπεί σε μια «σακούλα των λέξεων« φορέας χαρακτηριστικό που αποθηκεύει τον αριθμό των φορών που κάθε λέξη εμφανίζεται στο κείμενο. Ένα ξεχωριστό σύνολο χαρακτηριστικών καταγράφει τις λέξεις που εμφανίζονται στο αφηρημένο τίτλο, να συλλάβει τη διαίσθηση ότι οι λέξεις του τίτλου έχουν προνομιακό καθεστώς για τον εντοπισμό το κύριο θέμα ενός άρθρου. Αυτά τα χαρακτηριστικά ενισχύονται από το πλέγμα (
Ιατρικές θεματικές επικεφαλίδες
) οι επικεφαλίδες που παρέχονται από MEDLINE? για παράδειγμα, μια αφηρημένη μπορεί να έχουν δοθεί τα περιγραφικά επικεφαλίδες
Αλληλεπιδράσεις Φαρμάκων
και Αναστολείς
Ένζυμο
. Οι μητρικές κατηγορίες ή
hypernyms
των κλάσεων αυτών στην ταξινόμηση MeSH προστίθενται επίσης? για παράδειγμα, οι hypernyms του
Οι αναστολείς ενζύμων
περιλαμβάνουν
Μοριακοί μηχανισμοί δράσης
και
φαρμακολογικές δράσεις
. Τέλος, όλες οι στοιχειοσειρές μήκους 7 (συμπεριλαμβανομένου φράση-εσωτερικά σημεία στίξης και κενά) εξάγεται από το κείμενο και να μετατραπεί σε ένα άλλο σύνολο χαρακτηριστικών? η προτεινόμενη διάρκεια αλληλουχία του 7 εξής Wang et al. [28], αλλά η χρήση των χαρακτηριστικών που βασίζονται σε χαρακτήρες για σύγκριση χορδών έχει μια μακρά ιστορία στη βιοπληροφορική, π.χ. η
φάσματος του πυρήνα
της Leslie et al. [29].
Σε σύγκριση με το σύστημα των Korhonen et al. [16], το σύστημά μας ενσωματώνει τις ακόλουθες βελτιώσεις: (1) τη χρήση του πυρήνα JSD αντί της γραμμικής πυρήνα? (2) η χρήση των χαρακτηριστικών λέξη τίτλο? . (3) η προσθήκη hypernyms MeSH
Ο ταξινομητής που συνδέονται με κάθε κατηγορία ταξινόμησης προβλέπει ένα δυαδικό σήμα? μια αφηρημένη κατατάσσεται είτε να επισημανθεί με την εν λόγω κατηγορία ή όχι. Κάθε ταξινομητής εκπαιδεύεται ανεξάρτητα και κάνει την πρόβλεψη της ανεξάρτητα από τους άλλους ταξινομητές. Ωστόσο, το γεγονός ότι οι τάξεις βρίσκονται σε ένα ταξινομίας σημαίνει ότι υπάρχουν στην πραγματικότητα εξαρτήσεις μεταξύ τους? αν ένα αφηρημένο είναι ένα θετικό παράδειγμα για
διαλείμματα σκέλος
τότε είναι επίσης εξ ορισμού ένα θετικό παράδειγμα για
γονοτοξικό τρόπο δράσης
. Αυτές οι εξαρτήσεις συλλαμβάνονται από ένα στάδιο τελικής επεξεργασίας στο οποίο οι θετικές ταξινομήσεις σε μια δεδομένη κλάση διαδοθεί μέχρι την ταξινόμηση σε όλες τις ανώτερες κατηγορίες.
Το εργαλείο ΚΑΒΟΥΡΑΣ
Σε στενή συνεργασία με αξιολογητές κινδύνου, έχουμε αναπτύξει ένα online εργαλείο εξόρυξης κειμένου που ενσωματώνει τα στοιχεία που περιγράφονται στις παραπάνω υπο-ενότητες. Το εργαλείο έχει μια διοχέτευσης δομή, όπως φαίνεται στο Σχήμα 6. Ένας χρήστης μπορεί να καθορίσει τη χημική (ες) του ενδιαφέροντος και να κατεβάσετε την αντίστοιχη συλλογή αποσπάσματα από PubMed σε μορφή XML. Οι περιλήψεις τότε έτοιμη τροφή και ταξινομούνται σύμφωνα με την ταξινόμηση, όπως περιγράφεται παραπάνω. CRAB οθόνες, για μία δεδομένη χημική ουσία, την κατανομή των διαβαθμισμένων περιλήψεων σε διάφορα τμήματα της ταξινομίας. Ο χρήστης μπορεί να πλοηγηθεί το σύνολο δεδομένων επιλέγοντας μια κατηγορία ταξινόμηση και προβολή όλων των περιλήψεων που ταξινομούνται ως θετικά για την εν λόγω κατηγορία. Ο χρήστης μπορεί επίσης να δώσει ανατροφοδότηση στο σύστημα με τη σήμανση λανθασμένα ταξινομηθεί ετικέτες? Αυτά στη συνέχεια απομακρύνονται από την οθόνη. Τα αποτελέσματα αποθηκεύονται σε μια βάση δεδομένων MySQL, επιτρέποντας επίμονη πρόσβαση στα δεδομένα: τα αποτελέσματα των προηγούμενων συνόδων μπορεί να επανεξεταστεί και να μοιράζονται με άλλους χρήστες. Το σχήμα 7 δείχνει εικόνες που απεικονίζουν ορισμένες λειτουργίες του εργαλείου. Έχουμε κάνει ΚΑΒΟΥΡΑΣ διαθέσιμη στους τελικούς χρήστες μέσω ενός online interface Web που είναι προσβάσιμη κατόπιν αιτήματος μέσω https://omotesando-e.cl.cam.ac.uk/CRAB/request.html.
Η
Τα πειράματα που αναφέρονται εδώ χρησιμοποιήσετε την εφαρμογή SVM που παρέχονται από τη βιβλιοθήκη LIBSVM [30], προσαρμοσμένες για να διευκολυνθεί η χρήση του πυρήνα JSD. Κατά τη διάρκεια της εκπαίδευσης, μπορούμε να εκτελέσουμε και επιλογής χαρακτηριστικών για την απομάκρυνση των πολλών μη πρόβλεψης χαρακτηριστικά προς το συμφέρον της ενισχυμένης αποτελεσματικότητας και της ακρίβειας. Κάθε χαρακτηριστικό βαθμολογείται σύμφωνα με την διακριτική εξουσία της πάνω από τα δεδομένα εκπαίδευσης με τη χρήση του
F-score
μέθοδο των Chen και Λιν [31]. Cross-επικύρωσης των δεδομένων εκπαίδευσης χρησιμοποιείται για να επιλέξετε την αναλογία των χαρακτηριστικών να απορρίψει? αυτό γίνεται με την μέτρηση της απόδοσης με την κορυφή-βαθμολόγηση των χαρακτηριστικών και διατηρώντας το υποσύνολο που δίνει την καλύτερη απόδοση. Ο ταξινομητής SVM έχει δύο παραμέτρους που χρησιμοποιούνται στην εκπαίδευση, την παράμετρο «κόστος» και την παράμετρο του βάρους η οποία καθορίζει τη σχετική στάθμιση των θετικών παραδειγμάτων εκπαίδευσης? παίζει σημαντικό ρόλο όταν κάποιες ετικέτες είναι πολύ σπάνια, όπως στην εφαρμογή στο χέρι. Παρόμοια με τη διαδικασία επιλογής χαρακτηριστικών, και οι δύο παράμετροι που μέσω μιας διαδικασίας αναζήτησης πλέγμα που εξερευνά το εύρος
Χρησιμοποιήσαμε μια 10-πλάσια μεθοδολογία διασταυρωμένης επικύρωσης στην αξιολόγηση μας:. Το σύνολο δεδομένων είναι τυχαία διαιρείται σε 10 ξένα χωρίσματα και λαμβάνοντας ένα διαμέρισμα σε μια στιγμή ο ταξινομητής εκπαιδεύεται για τις άλλες εννέα χωρίσματα και έκανε να προβλέψει την επισήμανση των περιλήψεων στο επιλεγμένο διαμέρισμα. Με τον τρόπο αυτό κάθε αφηρημένη σημαίνεται ακριβώς μια φορά και μπορούμε να αξιολογήσουμε αυτές τις προβλέψεις, χρησιμοποιώντας μέτρα ακριβείας (), Ανάκληση () και F-μέτρου (, δεν πρέπει να συγχέεται με το F-σκορ που θα χρησιμοποιηθεί για την επιλογή χαρακτηριστικών) 🙁 4) ( 5) (6), όπου, και να σταθεί για τον αριθμό των πραγματικά θετικά, ψευδώς θετικά και ψευδώς αρνητικά, αντίστοιχα. Αυτά τα μέτρα αξιολόγησης είναι πρότυπο στην επεξεργασία φυσικής γλώσσας και κειμένων. Λαμβάνοντας υπόψη μια σειρά από προβλέψεις ετικέτας για όλα τα είδη των δεδομένων, ακρίβεια, ανάκληση και F-μέτρο υπολογίζεται ανεξάρτητα για κάθε ετικέτα. Για να παραχθεί ένα συνολικό μέτρο απόδοσης αυτά τα αποτελέσματα ανά ετικέτα μπορεί να μέσος όρος (
μακρο-μέση
) ή ενιαία ακρίβεια και η ανάκληση στοιχεία μπορεί να υπολογιστεί για ολόκληρο το σύνολο δεδομένων και ένα
μικρο-μέση
F-μέτρου που παράγονται με τον τύπο του (6). Μικρο-κατά μέσο όρο απόδοση τείνει να κυριαρχείται από πιο διαδεδομένες κατηγορίες, ενώ η μακρο-κατά μέσο όρο αντιμετωπίζει τις επιδόσεις όλων των τάξεων εξίσου.
πειράματα Χρήστη και περιπτωσιολογικές μελέτες
Μια δοκιμή χρήστη διεξήχθη για τη μέτρηση της αποδοχής της έξοδος του ταξινομητή για αξιολογητές των κινδύνων που θα πρέπει να το χρησιμοποιεί για την εργασία τους. επιλέχθηκαν επτά καρκινογόνες χημικές ουσίες (βλέπε πρώτη στήλη του Πίνακα 2)? καμία από αυτές τις χημικές ουσίες είχαν προηγουμένως χρησιμοποιηθεί για σκοπούς σχολιασμό, ταξινόμησης ή αξιολόγησης. Ένα σώμα δοκιμής συλλέχθηκαν για κάθε χημικό προϊόν από την αναζήτηση PubMed για όλα τα είδη μη αναθεώρηση να αναφερθεί η χημική ουσία που δημοσιεύτηκαν μεταξύ 1996-2010 (από 7 Δεκεμβρίου του 2010) στα περιοδικά που αναφέρονται στον Πίνακα 3. Η προκύπτουσα δέσμη στοιχείων που περιέχονται 2546 περιλήψεις. Όπως και στην ρεαλιστική χρήση, πολλά από αυτά τα αποσπάσματα είναι άσχετες με την αξιολόγηση του κινδύνου του καρκίνου? ο ταξινομητής πρέπει να διακρίνει τα σχετικά άρθρα από άσχετα αντικείμενα, καθώς και εκχωρήσετε κατάλληλες ετικέτες κατηγορίας. Τα σώματα δοκιμής υποβλήθηκαν στο σύστημα ταξινόμησης για αυτόματο σχολιασμό.
Η
Οι περιλήψεις ταξινομούνται ως θετικά για τουλάχιστον μια κατηγορία ταξινόμησης επιθεωρήθηκαν από δύο αξιολογητές των κινδύνων που εργάζονται ανεξάρτητα. Αποφάσισαν εάν οι περιλήψεις επέστρεψε για κάθε κατηγορία ήταν σωστή επισήμανση ή όχι. Μετά τον πρώτο πλήρη κύκλο σχολιασμό, το επίπεδο συμφωνίας μεταξύ των αξιολογητών του κινδύνου υπολογίστηκε ως το ποσοστό των ταξινομήσεων για το οποίο και οι δύο σχολιαστές έκανε την ίδια απόφαση. Εμείς δεν χρησιμοποίησε το μέτρο Κάππα της συμφωνίας interannotator [32], η οποία χρησιμοποιείται συχνά στην NLP, καθώς δεν είναι ερμηνεύσιμο όταν η διανομή της κατηγορίας είναι εξαιρετικά ασύμμετρη: αν υπάρχει σχολιαστής εφαρμόζει την ίδια ετικέτα σε όλες τις περιπτώσεις (στην περίπτωσή μας, μεταφέρει από την επιθυμητή συμπεριφορά για τη συμπλήρωση όλων επέστρεψε περιλήψεις ως θετική) η τιμή Κάππα θα είναι μηδέν. Το γεγονός ότι η οριακή κατανομή των κατηγοριών τόσο στο ίδιο το σύνολο δεδομένων και στις αποφάσεις του σχολιαστών επηρεάζει το εύρος των πιθανών και των πιθανών βαθμολογιών Kappa έχει παρατηρηθεί σε διάφορες μελέτες [33] – [35]. Οι μελέτες αυτές συχνά συνιστούν ότι τα πρόσθετα στατιστικά στοιχεία πρέπει να αναφέρονται ως ένα βοήθημα για την καλύτερη ερμηνεία του νοήματος μιας δεδομένης βαθμολογίας Kappa? Ωστόσο, στην περίπτωση όπου ένας σχολιαστής χρησιμοποιεί μόνο μία ετικέτα η επίδραση φτάσει σε ένα παθολογικό στάδιο όπου Kappa ισούται πάντα με το μηδέν, ανεξάρτητα από τις αποφάσεις του άλλου σχολιαστής και δεν υπάρχει ουσιαστικά τίποτα για να ερμηνεύσει.
Ένα προφανές πλεονέκτημα της εξόρυξης κειμένου εργαλείο όπως καβούρι είναι πολύ βελτιωμένη απόδοση ενός σημαντικού στοιχείου της εκτίμησης του κινδύνου: την αναθεώρηση των υφιστάμενων επιστημονικών δεδομένων σχετικά με το εν λόγω χημικό προϊόν. αξιολογητές κινδύνου για τον άνθρωπο μπορεί να περάσουν μήνες διεξαγωγή μερική αναθεώρηση της βιβλιογραφίας σχετικά MEDLINE [16], ενώ ΚΑΒΟΥΡΑΣ μπορεί να εκτελέσει μια εξαντλητική ανασκόπηση σε ένα θέμα δευτερολέπτων. Ένα άλλο σημαντικό όφελος είναι η ικανότητά του να εκτελεί πολυδιάστατη ταξινόμηση της λογοτεχνίας, σύμφωνα με την ταξινόμηση, δηλαδή τα διάφορα είδη των επιστημονικών στοιχείων κάθε άρθρο προσφέρει για την αξιολόγηση του κινδύνου. Αυτό το είδος της ταξινόμησης θα είναι εξαιρετικά δύσκολη και χρονοβόρα για να εκτελέσει με το χέρι, ειδικά για τους άπειρους αξιολογητών του κινδύνου, αλλά μπορεί να είναι ιδιαίτερα πολύτιμη επειδή επιτρέπει τόσο ποσοτικά όσο και ποιοτικά επισκοπήσεις των διαθέσιμων δεδομένων.
Διενεργήσαμε μια σειρά από μελέτες για να δείξει πώς τέτοιες επισκοπήσεις μπορούν να χρησιμοποιηθούν για την υποστήριξη της αξιολόγησης του κινδύνου του καρκίνου και της έρευνας. Η μεθοδολογία των μελετών αυτών που εμπλέκονται σχεδίαζε τη διανομή πάνω από τις ετικέτες ανατεθεί από τον ταξινομητή στο σύνολο της MEDLINE αποσπάσματα που παραπέμπουν σε χημικά άμεσου ενδιαφέροντος για αξιολογητές των κινδύνων. Αυτά τα ποσοτικά ευρήματα σε σύγκριση με γνωστές ιδιότητες της κάθε χημικής και χρησιμοποιείται επίσης για να δημιουργήσει νέες υποθέσεις που χρήζουν περαιτέρω πειραματική έρευνα.
Αποτελέσματα
Στην ενότητα αυτή αναφέρουμε τόσο άμεσες όσο και των χρηστών με βάση την αξιολόγηση της η τεχνολογία ταξινόμησης, και παρουσιάζουν περιπτωσιολογικές μελέτες με στόχο τη διερεύνηση της χρησιμότητας του εργαλείου ΚΑΒΟΥΡΑΣ για την αξιολόγηση του κινδύνου πραγματική ζωή.
αποτελέσματα Ταξινόμηση
Σας πήρε για πρώτη φορά την εκτεταμένη ταξινόμηση και σύνολο δεδομένων και να αξιολογείται η ακρίβεια των
You must be logged into post a comment.