Feedback tidningar forum › Forum › Buggar › Ofullständiga data från ett par årgångar
- Detta ämne är tomt.
-
FörfattareInlägg
-
juni 28, 2014 kl. 11:22 f m #30petronellaMedlem
Inte direkt en bugg, men ett tekniskt problem.
Sökning på vanliga enkla ord vars frekvens inte bör variera så mycket, som ”och” ”men” och ”Sverige”
http://tidningar.kb.se/?q=och
http://tidningar.kb.se/?q=men
http://tidningar.kb.se/?q=Sverige
har ett par histogramstaplar som är ca hälften så höga som de borde vara, dels från 1940-talet och dels från 1980-talet. När man vet om man ser man dessa ”dipp”-staplar i alla sökningar.Finns bara delar av dessa årgångar med i databasen, eller har texttolkningen av det inscannade i dessa årgångar grovt misslyckats?
juni 29, 2014 kl. 11:13 f m #183imported_martinMedlemPetronella,
jag skickar frågan vidare till någon som jobbar med tidningarna. Allt ska finnas med, men det ser onekligen ut som att något saknas.
Mvh,
Martinp.s ett tips är att söka på ’*’ för att matcha samtliga sidor d.s
juni 30, 2014 kl. 9:21 f m #184imported_parnilMedlemKlart intressant iakttagelse. Vi får försöka undersöka saken djupare, men spontant tycker jag att den skarpa dippen på 1980-talet känns märkligare än den på 1940-talet, då det skulle kunna röra sig om en viss dipp i antalet sidor. Eftersom vi än så länge har bara två titlar i tjänsten kan det också bero på att endera titeln av någon anledning saknas.
juni 30, 2014 kl. 3:46 e m #185fiaMedlemHej! Jag upptäckte också ofullständigheter när jag provkörde hos er idag. Sökte efter ett antal SvD-artiklar från 1902 som jag tidigare enbart studerat på mikrofilm och såg fram emot att se i skarp digitaliserad version. Trots sökningar på ett tiotal olika ord som förekommer i artiklarna fick jag inga träffar.
juni 30, 2014 kl. 4:43 e m #186imported_martinMedlemFia,
har du exempel på sökningar som misslyckas? OCR-tolkningen av texten är på det äldre materialet inte alltid så bra, detta går att kompensera för delvis genom att lägga till ex.vis ~2 efter ett sökord. Då görs en ”fuzzy search” och man kan få träff även på ord där OCR-tolken misslyckas med en bokstav eller två.
Ett annat tips är att inte försöka skriva långa meningar inom citat-tecken, sannolikheten för att något av orden har feltolkats blir då stor.
Mvh,
Martinjuli 1, 2014 kl. 10:30 f m #187petronellaMedlemparnil wrote:Klart intressant iakttagelse. Vi får försöka undersöka saken djupare, men spontant tycker jag att den skarpa dippen på 1980-talet känns märkligare än den på 1940-talet, då det skulle kunna röra sig om en viss dipp i antalet sidor. Eftersom vi än så länge har bara två titlar i tjänsten kan det också bero på att endera titeln av någon anledning saknas.Bägge tidningarna borde inte samtidigt drastiskt minska och öka sidantalet sidor. Att endera titeln saknas vore mest logiskt med tanke på dippens knivskarpa gränser.
juli 1, 2014 kl. 10:57 f m #188fiaMedlemHej Martin och tack!
Jag sökte enbart på ett ord i taget. Bland annat på ”Serveus” = pseudonym för skribent i SvD under ett visst år: fick dock inte en enda träff på detta år. Sökte även på ord som värnplikt (även i äldre stavningar såsom värneplikt och värnepligt) vilket inte gav några träffar på alls under vissa år då frågan var het i bland annat SvD.Dock funderar jag på om det kan ha varit någon tillfällig bugg i går em eller ngt knas med datorn jag satt vid: idag när jag sökte på dessa ord från egen dator fick jag träffar (har sparat sökningarna för att se om det går att få fram dem nästa gång jag är vid KB-datorerna)
juli 1, 2014 kl. 12:32 e m #189fiaMedlemHej igen! Har nu testat igen (på två olika datorer, övriga i salen hade hängt sig).
Resultatet var detsamma som igår = inga träffar på orden/åren ifråga trots att jag alltså får träffar när jag gör sökningar på egen dator/ej KBs nätverk.
Kunde inte kolla om jag fick fram dem via mina favoritmarkeringar pga: http://feedback.tidningar.kb.se/viewtopic.php?pid=79#p79juli 2, 2014 kl. 9:26 f m #190petronellaMedlemVerkar vara SvD som saknas
http://tidningar.kb.se/?q=avhandling&from=1947-01-01&to=1948-01-01 <= bara Aftonbladet.juli 2, 2014 kl. 11:13 f m #191imported_parnilMedlemTack för tipset om SvD. Vi får försöka kolla om den är levererad till KB och finns i det digitala arkivet
Pär Nilsson / KB-Dagstidningar
juli 3, 2014 kl. 4:48 f m #192imported_martinMedlemPetronella,
nu förstår jag. Vi har varit otydliga i kommunikationen, i dagsläget pågår konvertering av de digitaliserade sidorna för att de ska kunna visas i mikrofilmsläsesalen. Detta gör att endast ca en miljon sidor finns tillgängliga i MFLS, medan alla 2.7 miljoner är sökbara i den externa tjänsten. Detta för att man enbart ska få träff på sidor man faktiskt kan titta på.
Överväger nu att slå på sökning i samtliga sidor även i MFLS även om man då under sommaren inte kommer att kunna titta på alla sidor man får träff på.
Mvh,
Martinjuli 3, 2014 kl. 7:49 f m #193imported_parnilMedlemMartin: Jag tror det vore bättre med sökning på allt även om det saknas bildfiler. Det är lättare att informera om än märkliga differenser i träffmängder internt och externt.
Pär N.
juli 3, 2014 kl. 12:38 e m #194petronellaMedlemMå vara att jag kanske inte hittar artikeln i er mikrofilmsläsesal, men den går väl att hitta på annat håll. Inte alla bor i Stockholm. Folk kommer att gå även till bibliotek i Göteborg, Lund och Härnösand för att hitta gamla artiklar. Misstänker dessutom att om jag går till Stockholms stadsbibliotek och frågar efter en Aftonbladet från 1947, så hjälper de mig.
Om inte alls finns med blir det svårare att leka språkforskare. Jag förstår att proffsen på svenskainstitutionerna har andra verktyg, men detta är ett jätteroligt verktyg för svenskalärare på gymnasiet. Det är då en fördel om materialet är representativt, och inte baserat på vad som går att läsa i sal på KB.
Det bör gå att i text upplysa om vad som finns och inte finns tillgängligt i sal på KB, tänker jag.
juli 3, 2014 kl. 1:50 e m #195imported_parnilMedlemPetronella: Ja, det är så vi har tänkt från början, att sökning i och referenser till materialet kan vara användbara även utan möjlighet att visa bilderna. Just nu är det i KB:s läsesal som mängden material man kan söka i har begränsats till det som har konverterade och visningsbara bildfiler. Jag hoppas att det går att ändra på så snart som möjligt.
juli 10, 2014 kl. 9:07 f m #196fiaMedlemHej! Tänkte bara berätta att problemet (se inlägg 4 och 7 ovan) kvarstår. Får alltså betydligt fler träffar på samma ord när jag söker på andra datorer än de i mikrofilmsrummet.
-
FörfattareInlägg
- Du måste vara inloggad för att svara på detta ämne.