Tf idf giúp xác định độ quan trọng của một từ trong một văn bản trong bộ văn bản

Trong một bộ văn bản có rất nhiều văn bản. Làm sao để xác định được độ đặc trưng của một văn bản trong đó? Thường thì ta sẽ xem những từ đặc trưng mà chỉ văn bản đó có. Những từ hiếm khi được tìm thấy trong bộ văn bản nhưng có mặt trong một văn bản cụ thể có thể quan trọng hơn.

Vậy làm sao để xác định được độ đặc trưng của một từ đối với một văn bản?

  • Từ đó xuất hiện nhiều lần trong văn bản đó
  • Không có nhiều văn bản chứa từ đó

Tức là, để có \(tf\textendash idf\) lớn thì:

  • Số lần từ đó trong văn bản đó xuất hiện lớn
  • Số văn bản chứa từ đó trong bộ văn bản nhỏ

Tức là:

  • Tần số từ (term frequency) lớn
  • Tần số văn bản nhỏ ⇔nghịch đảo tần số văn bản (inverse document frequency) lớn

Gộp cả 2 cái lại, người ta đưa ra khái niệm term frequency–inverse document frequency (tần số từ-nghịch đảo tần số văn bản), viết tắt là \(tf\textendash idf\), để xác định độ quan trọng của một từ trong một văn bản trong bộ văn bản. Công thức tính \(tf\textendash idf\) cho từ \(t\) của văn bản \(d\) trong bộ văn bản như sau:
$$\begin{aligned}

\ tf\textendash idf(t, d) &= tf(t, d) \times idf(t)
\ &= tf(t, d) \times \log\frac{N}{df(d)}
\end{aligned}$$

  • Nếu \(df(d)=N\), từ \(t\) xuất hiện trong tất cả các văn bản. Nó trở nên quá đại trà, chung chung. \(tf\textendash idf = 0\)

Cập nhật lần cuối : 30 tháng 6, 2024
Tạo : 12 tháng 10, 2023