-
Notifications
You must be signed in to change notification settings - Fork 19
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
SRF Duplicates #904
Comments
Das Problem ist die Bereinigung. Was behält man und wie schmeißt man die Duplikate raus wenn der Sender die Dateien nicht bereinigt und wir weiter gültige Links haben. Bis jetzt gibt es dazu kein Programm oder Ähnliches. |
Ich habe mir diverse Sendungen detailliert angesehen und festgestellt, dass sich die URLs zum Film an zwei Stellen unterscheiden, Untersuchungen an einer Handvoll Filmen haben gezeigt, dass diese Zahlen durch beliebige Konstanten ersetzt werden können. Beispiel: Somit würden alle Treffer identisch bzgl. Sender, Thema, Titel, Dauer, Datum, Uhrzeit, Größe und URLs sein und könnten über einen eventuell schon vorhandenen Mechanismus zum Entfernen von Duplikaten gefiltert werden. |
@MuenchenSued liefert den gleichen Content wie ist das selbe wenn man den Funktioniert auch mit nicht doppelt gelisteten Beiträgen vom SRF, alle query-strings konnten bei meinen Tests safe weggelassen werden |
Beim SRF sind seit einiger Zeit fast alle Einträge mehrfach enthalten.
Ja, es sind unterschiedliche URLs, aber die unterscheiden sich nur in ihren Parametern.
Hier mal für eine einzige Tagesschau Ausgabe
Ich weiß nicht ob man das verhindern kann oder was das auslöst dass der Crawler immer ein halbes Dutzend dieser URL für ein und denselben Beitrag findet. Ist nicht gravierend (zumindest für mich) aber kosmetisch unschön und bläht die Liste doch unnötig auf.
The text was updated successfully, but these errors were encountered: