woensdag 18 juli 2012

Hausner - text mining tools (CEC A3 #eahil2012)

Elke Hausner - IQWIG (Duitsland)
(information specialist)

iqwig doet text analysis voor alle databases door elkaar en dan per database ook nog speciaal voor de trefwoorden.

makkelijke tools om te gebruiken: 

EndNote 
terms list kun je gebruiken voor frequency counts, ook mogelijk om meerder velden te combineren, bijvoorbeeld ti,ab,kw samen.
IQWIG gebruiken ze endnote om keywords in analyseren.

text analysis is only as good as the references you analyze.
divide set in two sets. randomly. elke soms al met kleine sets, 40-50 is eigenlijk wel redelijk genoeg.
randomizer recordnumbers: www.randomizer.org te gebruiken om in endnote te randomiseren (maar voor erg grote aantallen en ontbrekende recordnummers niet goed mee te werken).
 endnote > tools > bibliography kun je exporteren een frequency count naar excel, maar je moet dan nog wel zelf bekijken welke trefwoorden je wilt gebruiken.
tips voor pubreminer: zet word analyse om in ti_ab en niet ook met tw veld. pubreminer ook handig voor mesh terms, maar elke doet dat nu in endnote.

ANTCONC (freeware)
om de meest voorkomende vrije tekst woorden te analyseren. makkelijk in gebruik, vereist niet veel technische kennis.
vraag om toestemming als je het in een organisatie wilt gebruiken, Laurence Anthony heeft het ontwikkeld. welke woorden staan links en rechts van een bepaald woord, concordance tool.
start in endnote, exporteer referenties naar ANTconc, (tekst in meerder bestanden gesplitst met textwedge). vandaaruit ga je naar excel, en dat check je met OvidSP (MedLine)

vanuit excel kijk je welke woorden mogelijk interessant zijn, die woorden bekijk je in AntConc om te zien welke woorden er voor of achter staan, en neemt dat weer mee naar excel.

output van endnote in title abstract achter elkaar, met regeleinde, textwedge breekt ze uit elkaar in verschillende tekstbestanden met steeds een record per bestand.
voegt en extra spatie in in plaats van de leestekens.

bekijken van een woord dat je interessant vindt, welke woorden je vindt links en rechts ervan. handmatig per woord. kost wel veel tijd, en lastig dat niet automatisch gebeurt.

antconc analyseert de frequentie in zijn geheel, maar niet per record. als een record een bepaalde term heel vaak bevat wordt het heel vaak meegetelt. de frequentie gaat niet over hoeveel artikelen een bepaald woord bevatten, maar over hoevaak een woord voorkomt in het geheel van alle teksten.dat is eigenlijk dan de verkeerde analyse.

wordstat  
doet aan wordstemming, AntConc niet.
kost wel geld: tussen 1000-2000 euro. julie glanville werkt altijd met wordstat.
SimStat / WordStat, net als R een statisch pakket.
handig is dat je geen text files hoeft te splitten.
population set importeren in wordstat gaat heel snel, itt tm.

demo versie die je 30 dagen zou kunnen gebruiken. grafische interface werk toch niet zo fijn als elke had gehoopt, niet zo goed als gedacht.

tm in R  
is gratis, maar erg gecompliceerd.
R is een statistiek programma. Biostatistiek kent het bij ons vast wel. De ontwikkelaar gebruikt het niet op de manier waarop IQKIG gebruikt wordt, zijn enthousiaste mensen nodig. om er aan te werken.
lastig om te leren, met command line, geen user interface
wordt constant geupdate (open source software)
identifying overrepresented terms, en removing irrelevant terms.

tinn-R text editor om de command lines in te voeren.

wat tm wel doet is de frequency per article, not in total
random sample niet in het systeem gezet, maar zelf gecreeerd met pubmed, alles van een bepaalde tijd downloaden en bioinformatica of biostatistiek vragen daar een random sample van te nemen. duurt wel lang om in te lezen.
sorteren op sensitivity in population set, omgekeerd, welke woorden komen maar heel weinig voor? maar komen wel vaak voor in onze ontwikkelset?

tm kan geen phrases herkennen. vanuit tm ga ja dan nog naar antconc voor de phrases.

theoretisch verhaal

wat is een test set: gouden standaard om een strategy te genereren en om te valideren.
handmatig doorzoeken, kost wel tijd, en de reviewer is daar veel tijd mee bezig.
maar alternatief (jenkins, 2004, health info lib):
zoek naar systematic reviews, en gebruik daar de includes van
of gebruik de related articles van een aantal key articles in pubmed.

amstar oxman & guyat index: checklist gevalideerd voor kwaliteit van SR


pubmed verrast me weer eens: ATM op mesh terms niet tussen quotes

Ik kwam er gisteren achter dat pubmed weer eens iets veranderd heeft, wat volgens mij nog niet zo was.

Ik heb vaak als voorbeeld tegen ATM een zoekactie naar kenmerken van rode bloed cellen. met red blood cells vind je teveel ruis (vanwege de explode van erythrocytes en erythrocyte count, met red blood cell* mis je teveel, dus ik zeg altijd gebruik

erythrocytes[mesh:noexp] OR erythrocyte*[tiab] OR red blood cell*[tiab]

Nu kwam daar gisteren in de cursus door dat ik het via de mesh opbouwde quotes om de mesh term te staan, een cursist vroeg of dat uitmaakte, ik zeg nee hoor. DUS WEL!

"erythrocytes"[mesh:noexp] OR erythrocyte*[tiab] OR red blood cell*[tiab] 197070
erythrocytes[mesh:noexp] OR erythrocyte*[tiab] OR red blood cell*[tiab] 202355



Wat gebeurt er: erythrocytes[mesh:noexp] wordt vertaald in: "erythrocytes"[MeSH Terms:noexp] OR "erythrocyte count"[MeSH Terms:noexp]
En laten we nou juist die erythrocyte count willen vermijden, omdat het hier om eigenschappen van rode bloed cellen ging, en niet om eigenschappen van patienten.

In een vergelijkbaar geval wordt
dementia[mesh:noexp] vertaald in ("dementia"[MeSH Terms:noexp] OR "alzheimer disease"[MeSH Terms:noexp])

Ik zeg in mijn PubMed cursussen altijd dat wanneer je veldnamen gebruikt dat dan geen ATM wordt uitgevoerd, maar dat blijkt dus niet zo te zijn, terwijl ik altijd zeg dat je geen quotes nodig hebt om frases bij elkaar te houden omdat als je veldnamen gebruikt en truncatie automatisch de phrase bij elkaar wordt gehouden, maar moet er weer een extra uitzondering bij opnemen
(naast die uitzondering van de mesh term die haakjes bevat, zoals "handling (psychology)"[mesh], 1675 hits, waar je als je geen quotes gebruikt zoekt op handling[all fields] AND psychology[allfields] AND mesh[all fields], 6 hits)


N.B. Als ik nog vollediger zou willen zijn kom ik overigens meer op
"erythrocytes"[mesh:noexp] OR erythrocyte*[tiab] OR red blood cell*[tiab] OR red bloodcell*[tiab] OR (((RBC[tiab] OR RBCs[tiab]) AND blood[tiab]) NOT RBC count*[tiab]) uit, maar dat wordt toch wat ingewikkeld voor de cursisten, hoewel ik de verschillende elementen allemaal wel uitleg



woensdag 13 juni 2012

web&z - 12 juni 2012 - Medisch Centrum Alkmaar

(aantekeningen zijn meteen op eigen situatie toegepast)

Marjan Bakker - MCL
bibliotheek in foreest medical school, grotere afstand minder toegankelijk voor de clinici. ook iets om rekening mee te houden in rotterdam.

Alice Lugthart - docent verpleegkunde
geeft workshops aan vakdocenten.
boekje : Karin de Galan: 'van deskundige naar trainer'
deskundige wil in zijn rol als trainer vaak heel veel vertellen, alles wat in je rugzak zit, en toehoorders haken af, omdat het hun boven de pet gaat.
confronteren met moeilijke situatie: wetenschapper denkt: ik kan al zoeken, dus ben niet geinteresseerd. verleiden om te willen leren.
voor ons: begeleiden bij opdrachten: ter plekke zoeken in databases terwijl informatiespecialisten erbij rondlopen en vragen beantwoorden. 
op een andere manier lesgeven levert veel meer betrokkenheid op bij de lessen. groepsgrootte max 15 man, gemiddeld zo'n 10 personen. verpleegkundigen laten zoeken met pubmed blijft lastig. zijn huiverig om engels te lezen, google is veel makkelijker.
Idee: in de uitnodigingen al aangeven wat de 'glijbaan' is (mensen meenemen en uitleggen waarom voor hen deze cursus interessant is). ook differentieren tussen de verschillende doelgroepen.

Bianca Kramer - zoekactie CATs
Zoekvraag: 'Wat zijn de belangrijkste risicofactoren voor het optreden van complicaties bij zwangeren met pre-eclampsie?'
Bianca krijgt veel prognostische vragen. veel voor syst revs. zijn die clinical queries in pubmed bruikbaar? met een therapeutische pico neem je nooit de O mee, dat geeft bias.
Doen: maak overzicht wanneer gebruik je welke onderdelen. PO met M etc?

Olga van Dijk - ELO PubMed
ELO's bieden mogelijkheden om in eigen leerstijl te werken. eerst theorie of direct aan de slag met opdrachten. systeem: PulseWeb. bedoeld voor co-assistenten: waar vind ik mesh, hoe zoeken in title abstract, (co's komen vooral uit Groningen, hoe wordt daar het onderwijs gegeven? kan ook zijn dat groningen alleen op OvidSP Medline gericht is)
Kunnen wij de ELO niet opnemen in onze basis cursussen, zodat iedereen hetzelfde instap niveau heeft op dat vlak? 
MCL werkt op die manier, iedereen die een cursus doet moet deze ELO hebben doorlopen. moet je het wel opnemen in je eigen pulseweb systeem, of uitwisselen van scorm bestanden.
Nadenken voor ons: is dan hebben PhD's die dat dan volgen niet het idee dat ze nu al alles weten over PubMed? en komen ze dan nog wel naar de echte cursus? 
Belangrijke vraag is: kun je het ook sneller doorlopen als je al veel kennis hebt, kun je meteen de toets doen om te kijken wat je niveau is, en krijg je dan heel gericht tips: volg dit nog een keer. Dat lijkt mij een belangrijk punt voor inbedding in Erasmus MC werkwijze.
screencast filmpjes gemaakt. voor ons ook een idee!
Op medischonderwijs.nl PubMed-toets van waleus.

René Otten - CAT richtlijnen

CCMS voorschriften. Bij VU gebruikelijk om iedereen die een CAT doet bij een clinical librarian langskomt. CCMS (10 specialisten) gaat kader aangeven voor CATs, maar daarbij is geen clinical librarian bij betrokken. We gaan een A4tje doorgeven aan die 10 specialisten (met toestemming van de cambin)

Hans Ket - Artikel Hoogendam
JMLA (PMC tijdschrift)
Alice Tillema heeft er aan meegewerkt en staat in de acknowledgements. maar slechts zeer beperkt, ze was niet betrokken bij de PubMed of PICO instructies.
vergelijking tusseen een PICO zoekactie en een ongeorganiseerde zoekactie zoals artsen die niet door ons zijn opgeleid doen. conclusies lijken te zeggen dat het niet uitmaakt of je pico doet of niet.
verkeerde conclusies: je moet pico niet je zoektermen laten bepalen, dat weten wij al lang. veel kritiek op te leveren.
recall en precision ook opnemen in je systematische zoekactie cursussen. recall is het percentage van de gouden standaard, dat je hebt gevonden. precision is verhouding tussen het aantal treffers en het aantal relevante treffers. 
evidence based searching. hans wil daar een artikel over schrijven. wat is goed zoeken, hoeveel tijd, hoeveel bronnen, welke zoektechnieken.

René Otten - review cursus wiki
in het verleden was er een wiki afgeschermd. nu gratis toegankelijk op webcursus.ubvu.nl (nog niet, komt). helemaal engelstalig.
idee: kan wos of scopus niet bekijken hoeveel artikelen uit een set een bepaald artikel selecteren, en daarop soreteren

Jacueline Limpens - Filters voor SR's
elke database heeft zijn eigen index termen, pubmed filters niet een op een naar embase verplaatsen
drie generaties filters:
1 subjectief bepaald door informatiespecialist of onderzoeker
2 getest op een set
3 een bepaalde set artikelen analyseren welke termen het meest discriminerend zijn, en deze ook weer testen op een ander gouden standaard
Jenkins, 2004
het is niet zozeer dat de 3e generatie beter is dan de 1e. want voor voor systematic reviews wil je sensitivity maximisers (alle relevante liteartuur). voor CATs juist precision maximisers: NNR (Number Needed to Read) verminderen
Cochrane RCT filters geven wel veel ruis, vroeger veel gebruikt, nu niet meer zo. Zijn in principe vooral subjectief gevonden, en werkte eigenlijk wel goed, pas later gevalideerd
hoe valideren: 160 journals voor het jaar 2000 handmatig doorgenomen. en vergelijken
objectieve filters houden vaak geen rekening met explosie en zinnen, maar enkele woorden
validatie is geen toverwoord, gevalideerd wil niet zeggen dat je het niet moet aanpassen.
het maakt uit waar je het op test en hoe je het vergelijkt. bekijk ook het doel van de filters. verandert ook in de tijd, want mesh termen veranderen.
 in pubmed nu ook trial registrernumber opgenomen. als je trials zoekt ook dat meenemen, als iets een registratienummer heeft is het een trial.

als je zoekt voor een SR, gebruik je dan een filter, en zo ja welk?
NOT mag je wel gebruiken, maar je moet het kunnen verantwoorden.
Ook cochrane searches bevatten soms heel slechte zoekacties.
acknowledgements of co-auteur: wanneer zoekacties langer duren dan 2-3 dagen. een middag of dag is gratis service, als je er veel aan bijdraagt ben je mede-auteur (dan schrijf je ook de materialen en methoden)

eerst filter voor SR's om te kijken wat anderen daar al voor hebben gedaan, daarna filter voor individuele trials HSSS van cochrane, maar soms ook andere typen vraag bij SR filter, wil ik alleen SR's vinden, of alle geaggregeerde evidence?
SIGN filter
probleem is dat een bepaald aspect vaak niet in het abstract wordt opgenomen. maar wel uitkomst is bij een RCT. daarom dan dat element achterwege laten en dan RCT's filteren.

aantal hits
wees niet bang voor 1000-5000 hits.
tip: zeg 1000 titels screen je tijdens ajax feyenoord, maar 1000 records minder geven kost ons een dag extra tijd.
zoekfilters staan op intertasc
Binnen AMC zoekacties zijn zoekacties verzameld op het intranet en wanneer je op de link klinkt kom je meteen op de pubmed zoekactie
goede intake met de aanvrager is waardevol, is het een prognistische vraag of een therapeutische vraag of harm etc...

voor aanvullingen naast MedLine uit PubMed gebruik je beter AND publisher[sb] in plaats van NOT medline[sb], want anders teveel ruis met oude artikelen

--mededelingen--
cursus didactische vaardigheden aan de VU komend najaar.

woensdag 23 mei 2012

Zoeken in OvidSP met .mp. is niet gelijk aan [tw] in PubMed


Mijn collega's werkten altijd met PubMed. Ik ben me daar de laatste tijd zo aan gaan ergeren dat ik de stap heb gemaakt naar Medline via OvidSP. Ik mis daar echter een goed veld voor mijn veel gebruikte [tw]. Ik geen daar de voorkeur aan boven [mesh] en [tiab] omdat het vaak korter is en niet veel ruis oplevert.

Een verschil tussen .mp. en [tw] in PubMed is dat in .mp. geen subheadings zijn meegenomen, terwijl dat in [tw] wel het geval is.

ik vergelijk nu deze (vlug samengestelde, dus niet te nauw bekijken) zoekacties met elkaar:

Medline Ovidsp 66
(((("Human papilloma" or wart* or condyloma* or verruca*) adj3 (virus* or viral)) or HPV* or "Human papillomavir*" OR Alphapapillomavir*) and Protein* and Immunogen* and (synthes* or design*)).mp.

PubMed 75
(Human papilloma vir*[tw] OR wart vir*[tw] OR condyloma vir*[tw] OR verruca vir*[tw] OR verruca vulgaris vir*[tw] OR Human papillomavir*[tw] OR Alphapapillomavir*[tw]) AND (Protein[tw] OR Proteins[tw]) AND Immunogen*[tw] AND (synthes*[tw] or design*[tw])

Deze artikelen ontbreken dan in de ovid resultaten:
("10630789" or "12700045" or "19407149" or "1719234" or "9191325" or "22027487" or "8077947" or "18853768" or "8627247").an.

Deze zitten echter wel in Ovid. Maar daar zie ik dat zij chemical synthesis als subheading hebben.

Als ik dan ga zoeken op .mp,fs. levert dat geen extra hits op. Er is geen veld voor woorden uit de subheadings of wel?

Zoek ik echter  op
(((("Human papilloma" or wart* or condyloma* or verruca*) adj3 (virus* or viral)) or HPV* or "Human papillomavir*" OR Alphapapillomavir*) and Protein* and Immunogen* and (chemical synthesis OR synthes* or design*)).mp,fs.

Dan levert dat 77 hits op, waaronder bijna alles van  die ontbrekende artikelen, behalve een artikel dat nog geen mesh terms heeft in ovid en wel in pubmed (dus verklaarbaar).

Toch is het vreemd dat je een constructie moet maken als chemical synthesis OR synthes*. Omdat het woorde synthes* helemaal in chemical synthesis zit zou je dat zo toch moeten kunnen vinden?

vrijdag 23 maart 2012

Aantekeningen Summon gebruikersdag 23 maart 2012 Eindhoven

presentatie Helle Lauridsen What's new in Summon


uksg summon bootcamp mogelijkheid om met programmeurs te praten


meer dan 1 miljard records in summon, zorgt dat de relevantie sortering nog veel belangrijker wordt, hoe meer hoe beter de relevantie moet zijn. 


helle uses one term searches in her examples, 90% of google searches are one term searches, then the relevance ranking doesn't quite work, zoeken op nursing levert in de eerste pagina alleen resultaten op die exact de titel nursing hebben. often even lacking an abstract. daarna op datum gesorteerd, en dan pas andere records. relevance ranking niet heel specifiek, veel records met dezelfde ranking.

relevance ranking

refernce works (encyc britt) hoger geranked, vooral wanneer je op een element zoekt. zit er meer verschil in bron? ik kan me een presentatie herinneren waarin gezegd werd dat een van de uitgangspunten van summon juist was dat er geen onderscheid werd gemaakt tussen bronnen, net als google (terwijl google dat ook wel doet, en daar juist zijn relevantiesorteringen voor een groot deel op baseerd).


static ranking record type content type year
dynamic ranking waar staat het woord in het record.


maar statisch ranken belangrijk binnen medische bibliotheken cochrane belangrijke vorm. en welke soorten zijn minder belangrijk.


--> ideen over statisch ranken opsturen naar helle, dan gaan ze er mee aan de slag, was een goed idee


dedupliceren is lastig maar wordt wel gedaan, maar blijven toch altijd dubbelen achter, gebeurt eerste heel specifiek en later groffer. niet echt dedupliceren, maar meer mergen, zodat geen informatie verloren gaat.


WoS zit er nu in, Scopus komt er aan. moeten nog een extra export functionaliteit bouwen, zodat ook de citaties er in komen.


discipline facets, libguides bronnen wordt een code meegegeven voor welke soort publiek het interessant is. niet iedere ertikel getagged maar per bron.
alleen maar met de widget in gebruik. je kunt zelf de disciplines samenstellen, dat gaat op bronniveau, of kun je daar een standaard filter voor instellen?

--> actie: ronald hierover mailen, dan kan ik het een keer gaan testen met het widget

meer info


summon mailing list is het beste om nieuwe ideeen te ventileren, veel ideeen komen daar vandaan en worden door meer mensen ondersteund, daarna overgenomen door summon medewerkrs


als je een print boek in je collectie hebt kun je zoeken in de full text van de e-books, ook al heb je geen toegang tot de e-books.


Patron Driven Acquisition voor e-books mogelijk in summon, zet je de bibliotheek aan, en de klant kan het dan aanschaffen, of de bibliotheek als tussenpersoon, je kunt de optie uit of aanzetten, zodat alleen de biliotheekmedewerker het ziet, of zodat iedereen het ziet.

dinsdag 6 maart 2012

Hoe te zoeken in PubMed: [tw] of [tiab] en [MeSH]

In reactie op mijn vorige bericht waarin ik aangeef [tw] te gebruiken kwam een vraag waarom ik liever [tw] gebruik dan [tiab] en [mesh]. Hier zal ik dat uitleggen.

Hoewel je ook een hele discussie kunt houden over het zoeken met veldnamen of het gebruik van Automatic Term Mapping zijn we het er allemaal waarschijnlijk wel over eens dat je PubMed alleen systematisch kunt doorzoeken wanneer je gebruik maakt van veldnamen (als mensen het daarop met mij onseens zijn, graag reactie, dan wijd ik daar ook nog een keer een blog aan).

Zoeken op het veld [tw] doorzoekt 3 velden: title, abstract en mesh terms. Bij Mesh wel de aantekening dat alleen op platte tekst wordt gezocht en niet op explode.

Als je dus geen gebruik wilt maken van de explode functie van [mh] levert zoeken op [mh] niet meer (relevante) hits op dan zoeken op [tw]. een keer je zoekwoord met [tw] erachter is korter, dus verdient mijn voorkeur, waarom een lange zoekregel als het kort kan.

Bijvoorbeeld wanneer je zoekt op dupuytren*[tw] vind je alles wat je vindt in (dupuytren contracture[mh] OR dupuytren*[tiab]). Bovendien vind je ook nog hits met personal names as subject Dupuytren G.
(Merk op dat je met Dupuytren* zonder veldnamen erg veel ruis krijgt, omdat je dan alle publicaties van het Dupuytren ziekenhuis in Limoges vindt).

Een zoekactie als child[tw] is weer minder mooi, want dan krijg je ook bijvoorbeeld parent-child relations[mh], en wie misschien is dat niet relevant voor je vraag. Dan kun je beter zoeken op de specifieke [mh] die wel relevant is in combinatie met [tiab].

Ook wanneer je een brede mesh term zoekt, zoals bijvoorbeeld dementia, kun je beter wel exploden, maar het hoeft niet altijd. Kijk bijvoorbeeld eens naar infusion*[tw]. Alle termen onder parenteral infusions bevatten het woord infusion, dus hoef je niet te exploden (behalve dan hypodermoclysis, wil je dat meenemen of niet).

Pharmaceutical actions niet gevonden in text word search in PubMed

Vreemd, als ik zoek op [tw] in PubMed, de manier waarop ik dat meestal doe (tenzij je gebruik wilt maken van de explode van [mh] of het gezocht woord in veel niet-relevante MeSH termen voorkomt, maar daar kan ik nog wel een hele blogpost aan wijden) vind ik niet de artikelen waar dat woord als [Pharmaceutical Action] staat.

Dat zou toch eigenlijk wel moeten, textword wil eigenlijk toch vooral zeggen dat het om een inhoudelijk veld gaat (in tegenstelling tot [all fields]).

vrijdag 27 januari 2012

Literatuurzoeken: het probleem van afkortingen

Ik deed onlangs een zoekactie naar sentinel (lymph) node. Omdat ik ervan uitga dat een afkorting nooit gebruikt mag worden wanneer je niet eerst de volledige term hebt uitgeschreven volstond

sentin* NEAR/3 node*

Echter omdat ik zo weinig hits kreeg (met twee andere elementen erbij slecht 12 in PubMed) ging ik wat verder puzzelen, en zocht ik of sentinel ook zonder node* voorkwam. Toen kwam ik een aantal artikelen tegen met de tekst 'sentinel LNs'. Lymph Node was al eens eerder genoemd in de samenvatting, en nu ging het over de sentinel vorm.

Had ik dit artikel toch bijna gemist.

Iets dergelijk overkwam mij met de Clock Drawing Test. De afkorting CDT kan veel betekenissen hebben en is dus niet bruikbaar maar er was wel een hoog relevant artikel dat ik niet wilde missen, zonder teveel ruis te krijgen. Ik zocht daarom op:

CDT AND (clock* OR draw*)

Op die manier kun je toch de juiste afkortingsbetekenis selecteren. Het had in het eerste geval overigens niet geholpen, want de afkorting SLN was nergens in gebruik.

Dan kom ik wel weer op een artikel waar dan staat 'Sentinel (first tumor-draining) lymph node (SLN) biopsy'. Ja als auteurs dan zo ingewikkeld gaan doen moet je niet klagen dat je artikel niet gevonden wordt ;-)