Ofullständiga data från ett par årgångar

Feedback tidningar forum Forum Buggar Ofullständiga data från ett par årgångar

  • Detta ämne är tomt.
Visar 15 inlägg - 1 till 15 (av 18 totalt)
  • Författare
    Inlägg
  • #30
    petronella
    Medlem

    Inte direkt en bugg, men ett tekniskt problem.

    Sökning på vanliga enkla ord vars frekvens inte bör variera så mycket, som ”och” ”men” och ”Sverige”
    http://tidningar.kb.se/?q=och
    http://tidningar.kb.se/?q=men
    http://tidningar.kb.se/?q=Sverige
    har ett par histogramstaplar som är ca hälften så höga som de borde vara, dels från 1940-talet och dels från 1980-talet. När man vet om man ser man dessa ”dipp”-staplar i alla sökningar.

    Finns bara delar av dessa årgångar med i databasen, eller har texttolkningen av det inscannade i dessa årgångar grovt misslyckats?

    #183

    Petronella,

    jag skickar frågan vidare till någon som jobbar med tidningarna. Allt ska finnas med, men det ser onekligen ut som att något saknas.

    Mvh,
    Martin

    p.s ett tips är att söka på ’*’ för att matcha samtliga sidor d.s

    #184

    Klart intressant iakttagelse. Vi får försöka undersöka saken djupare, men spontant tycker jag att den skarpa dippen på 1980-talet känns märkligare än den på 1940-talet, då det skulle kunna röra sig om en viss dipp i antalet sidor. Eftersom vi än så länge har bara två titlar i tjänsten kan det också bero på att endera titeln av någon anledning saknas.

    #185
    fia
    Medlem

    Hej! Jag upptäckte också ofullständigheter när jag provkörde hos er idag. Sökte efter ett antal SvD-artiklar från 1902 som jag tidigare enbart studerat på mikrofilm och såg fram emot att se i skarp digitaliserad version. Trots sökningar på ett tiotal olika ord som förekommer i artiklarna fick jag inga träffar.

    #186

    Fia,

    har du exempel på sökningar som misslyckas? OCR-tolkningen av texten är på det äldre materialet inte alltid så bra, detta går att kompensera för delvis genom att lägga till ex.vis ~2 efter ett sökord. Då görs en ”fuzzy search” och man kan få träff även på ord där OCR-tolken misslyckas med en bokstav eller två.

    Ett annat tips är att inte försöka skriva långa meningar inom citat-tecken, sannolikheten för att något av orden har feltolkats blir då stor.

    Mvh,
    Martin

    #187
    petronella
    Medlem
    parnil wrote:
    Klart intressant iakttagelse. Vi får försöka undersöka saken djupare, men spontant tycker jag att den skarpa dippen på 1980-talet känns märkligare än den på 1940-talet, då det skulle kunna röra sig om en viss dipp i antalet sidor. Eftersom vi än så länge har bara två titlar i tjänsten kan det också bero på att endera titeln av någon anledning saknas.

    Bägge tidningarna borde inte samtidigt drastiskt minska och öka sidantalet sidor. Att endera titeln saknas vore mest logiskt med tanke på dippens knivskarpa gränser.

    #188
    fia
    Medlem

    Hej Martin och tack!
    Jag sökte enbart på ett ord i taget. Bland annat på ”Serveus” = pseudonym för skribent i SvD under ett visst år: fick dock inte en enda träff på detta år. Sökte även på ord som värnplikt (även i äldre stavningar såsom värneplikt och värnepligt) vilket inte gav några träffar på alls under vissa år då frågan var het i bland annat SvD.

    Dock funderar jag på om det kan ha varit någon tillfällig bugg i går em eller ngt knas med datorn jag satt vid: idag när jag sökte på dessa ord från egen dator fick jag träffar (har sparat sökningarna för att se om det går att få fram dem nästa gång jag är vid KB-datorerna)

    #189
    fia
    Medlem

    Hej igen! Har nu testat igen (på två olika datorer, övriga i salen hade hängt sig).
    Resultatet var detsamma som igår = inga träffar på orden/åren ifråga trots att jag alltså får träffar när jag gör sökningar på egen dator/ej KBs nätverk.
    Kunde inte kolla om jag fick fram dem via mina favoritmarkeringar pga: http://feedback.tidningar.kb.se/viewtopic.php?pid=79#p79

    #190
    petronella
    Medlem

    Verkar vara SvD som saknas
    http://tidningar.kb.se/?q=avhandling&from=1947-01-01&to=1948-01-01 <= bara Aftonbladet.

    #191

    Tack för tipset om SvD. Vi får försöka kolla om den är levererad till KB och finns i det digitala arkivet

    Pär Nilsson / KB-Dagstidningar

    #192

    Petronella,

    nu förstår jag. Vi har varit otydliga i kommunikationen, i dagsläget pågår konvertering av de digitaliserade sidorna för att de ska kunna visas i mikrofilmsläsesalen. Detta gör att endast ca en miljon sidor finns tillgängliga i MFLS, medan alla 2.7 miljoner är sökbara i den externa tjänsten. Detta för att man enbart ska få träff på sidor man faktiskt kan titta på.

    Överväger nu att slå på sökning i samtliga sidor även i MFLS även om man då under sommaren inte kommer att kunna titta på alla sidor man får träff på.

    Mvh,
    Martin

    #193

    Martin: Jag tror det vore bättre med sökning på allt även om det saknas bildfiler. Det är lättare att informera om än märkliga differenser i träffmängder internt och externt.

    Pär N.

    #194
    petronella
    Medlem

    Må vara att jag kanske inte hittar artikeln i er mikrofilmsläsesal, men den går väl att hitta på annat håll. Inte alla bor i Stockholm. Folk kommer att gå även till bibliotek i Göteborg, Lund och Härnösand för att hitta gamla artiklar. Misstänker dessutom att om jag går till Stockholms stadsbibliotek och frågar efter en Aftonbladet från 1947, så hjälper de mig.

    Om inte alls finns med blir det svårare att leka språkforskare. Jag förstår att proffsen på svenskainstitutionerna har andra verktyg, men detta är ett jätteroligt verktyg för svenskalärare på gymnasiet. Det är då en fördel om materialet är representativt, och inte baserat på vad som går att läsa i sal på KB.

    Det bör gå att i text upplysa om vad som finns och inte finns tillgängligt i sal på KB, tänker jag.

    #195

    Petronella: Ja, det är så vi har tänkt från början, att sökning i och referenser till materialet kan vara användbara även utan möjlighet att visa bilderna. Just nu är det i KB:s läsesal som mängden material man kan söka i har begränsats till det som har konverterade och visningsbara bildfiler. Jag hoppas att det går att ändra på så snart som möjligt.

    #196
    fia
    Medlem

    Hej! Tänkte bara berätta att problemet (se inlägg 4 och 7 ovan) kvarstår. Får alltså betydligt fler träffar på samma ord när jag söker på andra datorer än de i mikrofilmsrummet.

Visar 15 inlägg - 1 till 15 (av 18 totalt)
  • Du måste vara inloggad för att svara på detta ämne.