Feedback tidningar forum › Forum › Idéer och förbättringsförslag › Information om databasen, för att bättre kunna bedöma det man hittar
- Detta ämne är tomt.
-
FörfattareInlägg
-
juli 1, 2014 kl. 10:27 f m #35petronellaMedlem
Detta kunde gärna stå någonstans.
– Vad räknas som ”en träff”. Ordet emellertid ger 598569 träffar, men är det antal gånger som ordet hittas, antal tidningssidor där ordet hittas, eller antal nummer av tidningar där ordet någonstans finns nämnt?
– Eftersom man lätt undrar ”hur komplett är detta” kunde data om detta gärna visas. Tidsperiod si och så (exv maj 1923), här ingår x nummer av Aftonbladet, totalt y tidningssidor alt. z tecken. a nummer av SvD, b tidningsidor, c tecken.juli 1, 2014 kl. 10:31 f m #206petronellaMedlemEller kanske rabbla datum på tidningarna som ingår, så man ser om något saknas. Vissa datum, större helgdagar, saknas av naturliga skäl men det får man väl haja själv.
juli 1, 2014 kl. 10:44 f m #207fiaMedlemJa, mycket bra förslag! Jag vill också slå ett slag för detta.
juli 1, 2014 kl. 11:59 f m #208imported_parnilMedlemHej!
Vad jag kan se är det antalet sidor som man har fått åtminstone en träff på. Formuleringen borde alltså kanske istället vara ”Din sökning på palme gav 1927 träffar på 1373 sidor i 1024 tidningsnummer”. Det skulle onekligen vara mer exakt, men kanske samtidigt möjligen lite mer svårläst?
Jag håller med om att det kunde vara värdefullt att redovisa relationen mellan träffmängd och den del av materialet man har fått träff i, men detta är ju också en fråga om hur lättbegriplig vi kan göra den redovisningen.
Något som vi redan har diskuterat och som också uppmärksammats här på forumet är möjligheten att utan en sökning på någon term välja en tidning från ett visst datum eller en viss period, få en överblick över från vilka dagar det finns nummer i vårt system, kunna välja ett specifikt datum och sedan kunna bläddra i det nummer man har valt. Min erfarenhet från arbete med dagstidningar på bibliotek säger mig att detta behövs, men i söktjänsten har vi primärt jobbat med att få till en bra och lättfungerande sökning som snabbt levererar relevanta svar.
Tack för bra och viktiga synpunkter som vi på KB tar med oss i höstens diskussioner och prioriteringar.
Pär Nilsson / Dagstidningar
juli 1, 2014 kl. 4:22 e m #209petronellaMedlemEn sak man också undrar är om alla ord som är tryckta i tidningen ingår i textdatabasen. TV-tablåer gör det uppenbarligen. Vad med annonser?
juli 2, 2014 kl. 11:09 f m #210imported_parnilMedlemAlla text i tidningen som OCR-programvaran har lyckats tolka finns med och är sökbara i systemet. Det gäller alltså vanlig brödtext och textannonser i ”normala” typsnitt, men min erfarenhet är att programvaran försöker (och till en del lyckas) med att tolka även ”text i bild”. Däremot har OCR-programmet haft svåra problem med rubriker och annan onormalt stor text, men där har vi redan vissa lösningar i produktionssystemet.
I uppmärkningen saknar vi markörer för att skilja redaktionell text från t.ex. tv-tablåer, men vi har redan diskuterat möjligheten att i söksystemet skapa den uppdelning som saknas i den uppmärkta texten. Det vore förstås mycket värdefullt att kunna utesluta t.ex. tablåer eftersom de ofta ger många skräpträffar. Jag gissar att det är svårare att göra en uppdelning mellan textannonser och redaktionell text, i synnerhet i äldre material.
Pär Nilsson / KB-Dagstidningar
juli 3, 2014 kl. 1:07 e m #211petronellaMedlemparnil wrote:Hej!Vad jag kan se är det antalet sidor som man har fått åtminstone en träff på. Formuleringen borde alltså kanske istället vara ”Din sökning på palme gav 1927 träffar på 1373 sidor i 1024 tidningsnummer”. Det skulle onekligen vara mer exakt, men kanske samtidigt möjligen lite mer svårläst?
Vad sägs isåf om att fila på formuleringen.
”Din sökning på palme gav 1927 enskilda träffar, fördelade på 1373 sidor i 1024 tidningsnumer.”
Att stapla siffrorna under varandra ökar också överskådligheten.
1927 träffar på ordet, fördelade på:
1373 sidor
1024 nummerMan kan ju också ”gömma undan” sån info som man tror blir ”för mycket” för de flesta, men så den går att hitta för den som är intresserad.
juli 3, 2014 kl. 1:09 e m #212petronellaMedlemparnil wrote:Alla text i tidningen som OCR-programvaran har lyckats tolka finns med och är sökbara i systemet. Det gäller alltså vanlig brödtext och textannonser i ”normala” typsnitt, men min erfarenhet är att programvaran försöker (och till en del lyckas) med att tolka även ”text i bild”. Däremot har OCR-programmet haft svåra problem med rubriker och annan onormalt stor text, men där har vi redan vissa lösningar i produktionssystemet.I uppmärkningen saknar vi markörer för att skilja redaktionell text från t.ex. tv-tablåer, men vi har redan diskuterat möjligheten att i söksystemet skapa den uppdelning som saknas i den uppmärkta texten. Det vore förstås mycket värdefullt att kunna utesluta t.ex. tablåer eftersom de ofta ger många skräpträffar. Jag gissar att det är svårare att göra en uppdelning mellan textannonser och redaktionell text, i synnerhet i äldre material.
Pär Nilsson / KB-Dagstidningar
Intressant. Tack för info.
-
FörfattareInlägg
- Du måste vara inloggad för att svara på detta ämne.