Skip to content

This repository contains my work for the Assignment of Advanced Information Retrieval Course at the University of Indonesia. Assignment: Indexing and Querying using BM25 and Dirichlet Language Modelling

Notifications You must be signed in to change notification settings

nzlul03/indexing_and_querying_BM25_DLM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Indexing and Querying using BM25 and Dirichlet LM

This repository contains my work for the Advanced Information Retrieval Course at the University of Indonesia

Requirements

  • Python 3.7 or above
  • Library:
    • Pyterrier
    • pandas

Definition

  • BM25 is ranking function which calculates score to represent a document's relevance with respect to query.
  • Dirichlet Language Model (DLM) is retrieval model yields longer sentences than using BM25.

Task

  • Melakukan querying menggunakan scoring function BM25 dengan hanya mengambil top 10 documents untuk setiap query
  • Melakukan evaluasi hasil retrieval BM25 seluruh query dengan metric evaluasi precision@10, recall@10, dan MRR
  • Melakukan evaluasi hasil retrieval BM25 per query dengan metric evaluasi precision@10, recall@10, dan MRR
  • Melakukan querying menggunakan scoring function Dirichlet Language Model (DLM) dengan hanya mengambil top 10 documents untuk setiap query
  • Melakukan evaluasi hasil retrieval DLM seluruh query dengan metric evaluasi precision@10, recall@10, dan MRR
  • Melakukan evaluasi hasil retrieval DLM per query dengan metric evaluasi precision@10, recall@10, dan MRR

Task Analisis Hasil

  1. Manakah metode yang memiliki efektivitas lebih baik antara BM25 dan LM? Apakah perbedaan skor yang diperoleh sinifikan secara statistik?
  2. Pada query mana saja BM25 lebih unggul, dan pada query mana saja LM lebih unggul? Berikan analisis Anda mengapa hal ini bisa terjadi
  3. Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.
  4. Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.

References

About

This repository contains my work for the Assignment of Advanced Information Retrieval Course at the University of Indonesia. Assignment: Indexing and Querying using BM25 and Dirichlet Language Modelling

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published