dinsdag 30 juni 2009

Publicaties gemakkelijker (relatief dan) op website

Een klant van de bibliotheek kwam met een vraag of we hem konden helpen publicaties gemakkelijker op onze website te plaatsen. Ik bedacht meteen een mogelijkheid. Die had echter nogal wat voeten in de aarde voor een en andere gerealiseerd is. De handleiding bedraagt meer dan 20 stappen:

In het kort gaat het erom de literatuurlijst in hubmed in te voeren, daar de PubMed ID's te verzamelen, daarmee naar PubMed te gaan een RSS te genereren en die in het CMS in te lezen.

Dit vereist echter nogal wat werk:
  1. Referentielijst plakken in word
  2. Zorgen dat elke referentie op een nieuwe regel staat
  3. Er een genummerde lijst van maken
  4. Als laatste een valse verwijzing opnemen in de juiste opmaak (bijvoorbeeld 'Gew AS, Rgf HB. Her kjhidfsdjh. Sadl. 2009; 1986(234)). Dit is nodig om te zorgen dat de tussenpagina waarin de PubMed ID's worden getoond niet wordt overgeslagen
  5. De referentielijst kopiëren naar www.hubmed.org/citation.htm en op submit klikken.
  6. Controleren of de lijst goed is verdeeld en zo niet corrigeren
  7. Controleren of de gevraagde artikelen zijn gevonden en zo niet de gegevens handmatig knippen en plakken
  8. Zijn er dan nog referenties niet gevonden in PubMed moeten de PubMed ID's nog handmatig worden opgezocht en in kladblok opgeslagen
  9. De volgende pagina kopiëren naar kladblok en de tekst 'Aready found' verwijderen
  10. De lijst met PubMed ID's kopiëren naar het detail veld van PubMed.
  11. (mogelijk moet daarvoor eerst nog een andere zoekactie worden uitgevoerd, anders is het detail veld niet zichtbaar)
  12. Een RSS feed creeëren met aantal items gelimit op 100
  13. (als je in een pagina meer dan 100 items wilt opnemen moet je twee files maken en die handmatig samenvoegen)
  14. Het RSS bestand opslaan op je PC.

    het meest ingewikkelde gedeelte komt dan voor rekening van ons CMS Morello.
  15. Een nieuw content item aanmaken van het type taxonomy en upload daarin het XML document
  16. Dit item in een browser bekijken, en de interne servernaam vervangen door www.erasmusmc.nl en de url kopiëren
  17. De code voor het XSLT document die je van de bibliotheek hebt gekregen kopiëren en in een kladblok bestand plakken
  18. Een nieuw item aan van het type XSLT(nl) aanmaken en daar het zojuist aangemaakte XSLT bestand uploaden, en hetzelfde doen voor XSLT(en)
  19. Een nieuw item aan van het type XML aanmaken en verwijzen naar de URL van het taxonomy item
  20. De XSLT(nl) en XSLT(en) items aan het XML item koppelen en publiceren

We hebben gemeend dit toch maar iets te moeten vereenvoudigen door de eerste keer bij de klant zelf de bestanden klaar te zetten en het een keer voor te doen. Het blijft ingewikkeld, maar het is nog steeds minder tijdrovend dan alle publicaties handmatig in PubMed opzoeken en de lijst handmatig sorteren op alfabet en de pagina samenstellen met de juiste links (die in ons systeem niet zomaar in de tekst mogen worden geplaatst maar natuurlijk in een database worden opgeslagen).

woensdag 17 juni 2009

De wonderbaarlijke wereld van het archief

Ik kreeg een reactie op mijn website www.stationsweb.nl:

Voor de renovatie van het stationsgebouw in xxx zijn wij op zoek naar de oorspronkelijke kleurnummers van het houtwerk van de goten, de kozijnen en de boeien. Heeft u wellicht een mogelijke informatiebron waaruit dit te halen valt? De NS heeft wonderbaarlijk genoeg geen informatie hierover.

Het betreffende station is gebouwd in de jaren 80 van de 19e eeuw. Laten we even voorbijgaan aan de vraag of er toen überhaupt kleurnummer bestonden, wat ik betwijfel. De kans dat een organisatie zulk soort details 135 jaar na dato nog kan reproduceren lijkt mij erg klein. Dat iemand dat niet snapt vind ik wonderbaarlijk.

zondag 7 juni 2009

h-index berekenen, dat kan makkelijker

Ik bedenk me een fout te maken bij het bepalen van een h-index bij ISI Web-of-Science. Wellicht doen jullie ook, we komen mogelijk te laag uit. WoS kan ons allicht helpen door het wat eenvoudiger te maken.

Hoe gaan we normaal te werk? Als een auteur bij ons komt voor zijn h-index doen we een vrij ruwe zoekactie op Web of Knowledge. Vervolgens schonen we de gevonden lijst met artikelen op door artikelen die niet door de betreffende auteur geschreven zijn te verwijderen. Op deze manier mis je geen artikelen waarin de voorletters van de auteur niet goed zijn opgenomen.

Het verwijderen bij Web of Knowledge gaat echter nogal lastig. Dit kan per pagina van 10 resultaten. Wanneer je op de eerste pagina 3 artikelen hebt verwijderd komen daar weer 3 nieuwe voor in de plaats, die je ook weer moet beoordelen. We beginnen daarom achteraan te werken, bij het artikel dat het rangnummer van de h-index draagt. Hier maken we de fout. Door een artikel uit de lijst te verwijderen neemt de h-index niet altijd af. Als het aantal artikelen dat overblijft gelijk is aan het aantal citaties van artikel h+1 blijft de h-index gelijk. Een artikel dat nog niet is beoordeeld wordt dan (mogelijk onterecht) meegenomen in de lijst.

Wat we moeten doen is de nieuwe lijst controleren door ook de artikelen die een aantal referenties hebben dat tussen de huidige h-index en de eerst berekende h-index ligt te beoordelen.

Web of Science zou veel voor ons kunnen doen door het controleren en verwijderen van de artikelen eenvoudiger te maken door:
  1. Het resultaatscherm kan pagina's tonen met meer dan 10 items. Wanneer er Bijvoorbeeld 100 artikelen op een pagina kunnen staan kan in de meeste gevallen de h-index op een pagina worden bepaald.
  2. Het vinkje voor een artikel om het te verwijderen wordt onthouden, ook wanneer de bezoeker naar een volgende pagina gaat, en wanneer uiteindelijk op 'go' wordt geklikt worden alle aangevinkte artikelen verwijderd. Liefst wordt de h-index herberekend bij ieder aangevinkt artikel, maar dat kost waarschijnlijk te veel server capaciteit.


Ander opvallende zaken bij het verwijderen:

Bovenaan de pagina staat een tekst die uitlegt hoe het werkt. Waarom die tekst alleen bovenaan staat is mij een raadsel, na het langslopen van de artikelen ben je onder aan de lijst beland. Je vind onderaan de resultaatlijst een knop [go] met exact dezelfde lay-out als de knop die je moet gebruiken, maar die herlaadt alleen maar de huidige pagina zonder de aanpassingen te verwerken.

De verklarende tekst luidt:
Use the checkboxes to remove individual items from this Citation Report or restrict to items processed between [1988] and [2009] [go].

Waar moet je klikken om individuele artikelen te verwijderen zonder de items op datum te beperken? Na bestudering van de resultaten blijkt dat de jaartallen die worden getoond standaard alle resultaten omvatten, maar dat is niet duidelijk.

Web-of-Science dat kan makkelijker. Ik zal ze eens dringend vragen of ze ons kunnen helpen.

donderdag 4 juni 2009

google square of wolfram alpha

Eind mei wolfram alpha ging live. Vandaag antwoordt google met google square. Een vergelijking.

Een indrukwekkende demonstratie van wolfram alpha was al een tijd op internet te zien. De verwachtingen waren hooggespannen. Een eerste test valt toch een beetje tegen. Eigenlijk kun je niet echt spreken van een zoekmachine als wel van een informatiebase. De gegevens zijn door mensen ingevoerd, zonder dat duidelijk is wie er achter zit en zonder dat referenties worden gegeven waar de betreffende informatie is gevonden. Jammer is ook dat er heel weinig links in de antwoordpagina's zitten. Je ziet items waarover op wofram alpha vast meer te vinden is, maar kunt er niet op klikken, het enige dat dan gebeurt is dat je de tekst kunt kopiëren.

Deze week kwam google met het antwoord op wolfram alpha: google squared. In google squared worden gegevens van meerdere gelijkvormige zoekresultaten gegroepeerd en gestructureerd in een tabel weergegeven. Google squared geeft per onderdeel aan waar de gegevens vandaan zijn gehaald. Dat levert soms vreemde resultaten op. Zo heeft Amsterdam een populatie van '78.74 years' en Rotterdam '41526 sq km'. Je hebt de mogelijkheid deze gegevens te verbeteren, maar op dit moment werkt de login functie niet.

Ik ben eigenlijk wel erg benieuwd naar de verbeterfunctie. Deze integreert namelijk op die manier ook een andere zoekmachine: Wikia Search. Het nadeel is dat die zoekmachine totaal afhankelijk is van het antwoord dat mensen geven op de vragen die je stelt. Google combineert dat juist met de gegevens die ze zelf hebben gevonden. Je krijgt in squared wel de mogelijkheid te zoeken naar andere antwoorden, maar niet de mogelijkheid een nieuwe bronvermelding aan te maken voor je antwoord. Als ze vervolgens nog de mogelijkheid bieden de resultaattabel te sorteren op verschillende kolommen heeft voor mij google squared voorlopig gewonnen van wolfram alpha.