45 lượt xem

TF-IDF là gì? Kỹ thuật sử dụng TF-IDF để làm SEO thành công | Kisusushi.vn

“TF-IDF là gì?”. TF (Term Frequency) và IDF (Inverse Document Frequency) là hai khái niệm đã xuất hiện trước đây và được đề cập đến khá nhiều. Google từ lâu đã sử dụng chúng bên cạnh các chỉ số khác để truy xuất thông tin phù hợp với truy vấn của người dùng.

(Nguồn ảnh: Internet)

Những người làm SEO cũng đã nhận thấy được tiềm năng của nó. Họ đã bắt đầu sử dụng chỉ số này thay cho mật độ từ khóa (keyword density) để đánh giá việc tối ưu hóa nội dung vì nó giúp giảm thiểu đi tác động của những từ chức năng (function word, là các từ nối, giới từ, đại từ dùng để biểu hiện mối quan hệ giữa các từ khác trong một câu hoặc một văn bản). Tuy nhiên, nội dung này sẽ không được trình bày sâu ở đây. Ngoài ra, thì nhà phân tích John Mueller đến từ Google gần đây cũng đã nhấn mạnh rằng chiến lược tối ưu hóa này không còn tác dụng trong bối cảnh hiện nay nữa. Thay vào đó, trong bài viết này, Đào tạo SEO Á Âu sẽ hướng dẫn bạn tìm hiểu về TF-IDF và cách tối ưu hóa một trang cho một chủ đề cụ thể.

Xem thêm: 9 kỹ thuật hack từ khóa tăng nhanh thứ hạng trong năm 2020

TF-IDF là gì?

TF-IDF (viết tắt của term frequency – inverse document frequency) là một phương thức thống kê thường được sử dụng trong mảng truy xuất thông tin (information retrieval) và khai phá dữ liệu văn bản (text mining) để đánh giá mức độ quan trọng của một cụm từ đối với một tài liệu cụ thể trong một tập hợp bao gồm nhiều tài liệu. Khái niệm này đã xuất hiện từ rất sớm trong các lĩnh vực nghiên cứu khác nhau, chẳng hạn như ngôn ngữ học (linguistics) và cấu trúc thông tin (information architecture), nhờ vào khả năng hỗ trợ xử lý nhiều tập tài liệu với số lượng lớn trong một khoảng thời gian ngắn.

Các máy tìm kiếm thường sử dụng các biến số khác nhau của thuật toán TF-IDF như là một phần trong cơ chế xếp hạng. Bằng cách gán cho các tài liệu một mức điểm số về độ liên quan (relevance score), chúng có thể đưa ra các kết quả tìm kiếm thích hợp chỉ trong phần triệu giây.

Ví dụ, TF-IDF từ lâu đã là một phần trong cơ chế xếp hạng của Google. Google sử dụng TF-IDF để xác định xem những cụm từ nào có liên quan (hoặc không liên quan) về mặt chủ đề bằng cách phân tích tần suất một cụm từ xuất hiện trên một trang (term frequency – TF) và tần suất ước tính xuất hiện trên một trang trung bình, trong một tập hợp lớn hơn bao gồm nhiều tài liệu (inverse document frequency – IDF).

TF-IDF là một phương pháp dùng để đánh giá độ quan trọng của một từ hoặc cụm từ trong tập văn bản (Nguồn ảnh: Moz)

Để xác định xem một trang cụ thể có mức độ liên quan thế nào, Google sẽ phân tích các trang có trong danh sách chỉ mục của nó dựa trên một số thuộc tính cụ thể (features) mà nó cho là liên quan đến truy vấn.

Bởi vì hầu hết nội dung online đều là văn bản, nên phần lớn các thuộc tính này có thể là sự xuất hiện (presence) hoặc không xuất hiện (absence) của những từ hay cụm từ nhất định trên trang đó. Ngoài ra, hệ thống cũng xem xét đến sự nổi bật (prominence) của những từ đó trên trang so với các trang khác trên website.

Và đây là lúc thuật toán TF-IDF trở nên cần thiết. Nó sẽ tính toán tần suất sử dụng trung bình đối với một cụm từ cụ thể trên toàn website cũng như đặt ra một mức tiêu chuẩn (benchmark) cho các từ stop word (là những từ được xem là quá phổ biến, quá tổng quát và không mang ý nghĩa cụ thể nếu đứng độc lập) để mang đến một kết quả chính xác hơn.

Cơ chế hình thành TF-IDF

Bây giờ bạn đã biết được có hai khái niệm khác nhau trong cụm từ TF-IDF. Trong khi TF (term frequency) tương đối dễ hiểu, thì IDF (inverse document frequency) lại tương đối trừu tượng và khó hiểu hơn.

Đầu tiên, chúng ta cần biết rằng chỉ số TF-IDF có thể được tính toán dựa theo công thức: TF-IDF = TF x IDF; trong đó đại lượng TF thể hiện số lần xuất hiện của một cụm từ trong một tài liệu nào đó, còn đại lượng IDF sẽ là một đại lượng được tính bằng hàm log. Mọi công việc tính toán sẽ được các máy tính thực hiện. Tuy nhiên, bạn nên hiểu rằng giá trị TF-IDF không phải chỉ được hình thành dựa trên mật độ từ khóa. Sau đây là công thức tính của các chỉ số này:

  • Term Frequency (TF): Tần suất xuất hiện của một từ trong một văn bản

Hình thức đơn giản nhất của TF chính là đếm số lần sử dụng một từ khóa trên một page hoặc một tài liệu nào đó. Tuy nhiên, lúc này sẽ có một vấn đề xảy ra: giả sử có một trang sử dụng một từ khóa 10 lần thì sẽ được xem là có giá trị về độ liên quan hơn là một trang chỉ sử dụng từ khóa 1 lần. Điều này trên thực tế lại không đúng. Và vì lý do đó, chúng ta sẽ hạn chế sự sai lệch này lại, về mặt toán học thì giải pháp chính là sử dụng một hàm dưới tuyến tính (sublinear function) để phản ánh chính xác hơn, cụ thể ở đây là hàm lô-ga-rít (log).

READ  8 cách làm mặt nạ bơ dưỡng trắng, trị mụn chỉ 1 tuần tại nhà | Kisusushi.vn

(Nguồn ảnh: Link-assistant)

Khi tìm kiếm trên Internet, bạn có thể thấy có nhiều công thức tính TF khác nhau, nhưng mỗi biến thể đều được xây dựng dựa trên cơ sở: Không phải một từ xuất hiện càng nhiều trong một tệp thì mới có càng nhiều độ liên quan, và sự đóng góp của TF đến độ liên quan của một tài liệu về bản chất là một hàm dưới tuyến tính.

Chẳng hạn nếu TF của từ khóa “máy tính” trong tài liệu thứ nhất là 10 và trong tài liệu thứ 2 là 20, thì ta có thể nói tài liệu 2 có sự liên quan với từ khóa “máy tính” hơn tài liệu 1. Tuy nhiên, trong trường hợp TF của từ này không phải là 10 và 20 như trên mà là 1.000.000 và 2.000.000, thì lúc này sẽ không có nhiều sự khác biệt về sự liên quan nữa do cả hai đều chứa một số lượng lớn từ khóa “máy tính”. Và lúc này, hàm log được áp dụng để tinh gọn lại độ quan trọng của cụm từ có tần suất lớn. Chẳng hạn nếu sử dụng hàm log cơ số 2, thì giá trị 1.000.000 đó sẽ được giảm xuống chỉ còn 19.9.

Ngoài ra, trong công thức trên, ta còn cộng thêm 1 vào, vì đôi khi có trường hợp từ khóa chỉ xuất hiện 1 lần, và giá trị của log(1)=0. Nếu không cộng 1 thì TF lúc này sẽ bằng 0. Trong khi về bản chất TF sẽ là 0 khi không có từ khóa nào xuất hiện trong văn bản.

Ví dụ, đối với công thức TF ở trên, nếu bạn có một trang có 1,000 từ và từ khóa của bạn xuất hiện 10 lần, thì giá trị TF của nó sẽ là 4.32/9.97=0.43 (nếu bạn sử dụng hàm số lô-ga-rít cơ số 2).

Nếu từ khóa của bạn xuất hiện nhiều hơn gấp hai lần trong cùng một tài liệu đó, thì giá trị TF của nó không thay đổi nhiều, lúc này sẽ là 5.32/9.97=0.53 (trong trường hợp vẫn sử dụng hàm log cơ số 2).

Tần suất xuất hiện của một cụm từ (TF) phản ánh xem bạn có đang sử dụng một từ khóa quá thường xuyên hoặc quá hiếm khi dùng hay không. Tuy nhiên về bản chất thì nó không mang lại nhiều giá trị vì bạn cần đo lường độ quan trọng của cụm từ, không chỉ là tần suất về số lần sử dụng nó. Nếu không thì các từ ngữ chức năng (là những từ nối, giới từ, đại từ…) sẽ thống trị hệ thống tìm kiếm. Để tránh việc đó, chúng ta cần đến chỉ số IDF.

  • Inverse Document Frequency (IDF): tần suất nghịch của một cụm từ trong một tập hợp gồm nhiều tài liệu

Chỉ số này thể hiện giá trị thực của một từ khóa cụ thể. Nó đo lường tỷ lệ giữa tổng số lượng tài liệu với số lượng các tài liệu có chứa từ khóa đó. Công thức để tính IDF như sau (tương tự như TF, bạn cũng có thể tìm thấy một vài cách tính biến thể khác nhau của IDF, nhưng đều được xây dựng dựa trên bản chất của nó):

(Nguồn ảnh: Link-assistant)

Cũng giống như công thức TF ở trên, đối với IDF cũng vậy. Một hàm IDF tuyến tính có thể đẩy điểm số của tài liệu lên quá cao khi có những cụm từ có điểm IDF cao (có thể là những cụm từ hiếm gặp, những cụm từ sai chính tả…), trong trường hợp đó thì một hàm dưới tuyến tính sẽ phản ánh chính xác giá trị hơn.

Theo công thức trên, thì nếu từ khóa là một từ phổ biến, thì khả năng rất cao là nó sẽ được sử dụng trong rất nhiều tài liệu. Do vậy, giá trị IDF của nó sẽ rất nhỏ, và nếu ta nhân nó với chỉ số TF, thì giá trị tổng thể sẽ không thay đổi nhiều. Ngược lại, nếu cụm từ đó chỉ được tìm thấy trong một vài tài liệu, thì giá trị IDF của nó sẽ cao hơn từ đó dẫn đến điểm số TF-IDF cao hơn.

Như vậy có thể thấy, không giống như đại lượng mật độ từ khóa chỉ phản ánh mức độ “nhồi nhét” một từ khóa cụ thể vào trong văn bản, TF-IDF thể hiện vai trò là một chỉ số toàn diện và nâng cao hơn, phản ánh mức độ quan trọng của một từ khóa cụ thể đối với một trang cụ thể. Nó giúp làm giảm đi sự lấn át của những từ và cụm từ không quan trọng, trong khi những cụm từ có ý nghĩa và xuất hiện không nhiều sẽ được nâng cao mức độ quan trọng hơn.

Cách khai thác các công cụ TF-IDF cho hoạt động SEO

TF-IDF là một vũ khí bí mật khi bạn cần gia tăng mức độ liên quan của các trang trong hệ thống tìm kiếm ngữ nghĩa (semantic search). Vì nó sẽ giúp hệ thống nhìn vào nội dung, thay vì các từ khóa chính xác để xác định xem một nội dung có liên quan đến chủ đề đang được tìm kiếm hay không.

READ  Tuổi Mậu Thân sinh năm 1968 hợp làm ăn với tuổi nào năm 2022 | Kisusushi.vn

Hiện nay, có nhiều công cụ hỗ trợ tính toán chỉ số TF-IDF cho các trang của bạn. Phần lớn các công cụ đều có chức năng phân tích những kết quả tìm kiếm được xếp hạng cao nhất đối với các từ khóa của bạn và xem những từ và cụm từ nào mà hầu hết những trang đó đều sử dụng cũng như trang của bạn đang có hiệu quả ra sao.

Sau đó, bạn sẽ xây dựng được một danh sách gồm những từ khóa có liên quan về chủ đề cho phép bạn:

  • Tối ưu hóa nội dung đối với toàn bộ chủ đề, không phải cho từng từ riêng lẻ;
  • Nhận diện những khoảng trống trong nội dung hiện tại (content gap);
  • Tạo ra những nội dung mới có thể thăng hạng cao hơn và nhanh hơn

Nếu bạn vẫn đang băn khoăn không biết tích hợp TF-IDF vào trong chiến lược SEO thế nào, đầu tiên, hãy thử với những trang mà TF-IDF mang lại nhiều lợi ích nhất:

  • Những nội dung có tiềm năng cao nhưng bị kẹt lại ở trang 2 trên SERPs: là những nội dung bạn đã có trên website được một khoảng thời gian, được tối ưu hóa rất tốt và có được một mức độ uy tín cao. Việc tối ưu TF-IDF là một cách hiệu quả để thúc đẩy những nội dung như thế tiến vào trang 1.
  • Những nội dung có thứ hạng cao đang dần bị tụt hạng: Thuật toán của Google luôn thay đổi, điều này sẽ ảnh hưởng đến các kết quả trên SERPs. TF-IDF sẽ giúp những trang như thế giữ được độ liên quan và duy trì thứ hạng của mình.
  • Các trang sản phẩm (product page) không có thứ hạng cao: nếu các trang sản phẩm của bạn đang chật vật để xếp hạng cho những cụm từ khóa chính (money keywords), thì TF-IDF có thể giúp xác định những nội dung quan trọng nào mà trang đó đang thiếu.

Cách tối ưu hóa nội dung với các công cụ TF-IDF

Bạn có thể làm theo các bước sau đây để đưa TF-IDF trở thành một phần thiết yếu trong chiến lược phát triển nội dung của mình.

  • Tối ưu hóa các trang để nâng cao sự liên quan về chủ đề (topical relevance).

Nếu bạn lên kế hoạch tối ưu hóa nội dung của những trang hiện có, hãy thử dùng công cụ TF-IDF trong phần mềm Website Auditor. Công thức tính TF-IDF được tích hợp vào trong tính năng cốt lõi của phần mềm này. Bạn cũng không cần phải lo lắng vì đây không phải là hành vi sử dụng kỹ thuật nghịch đảo để lần theo cơ chế xếp hạng của Google. Trong khi Google sẽ nhìn vào tất cả những trang hiện có trên Internet, thì công cụ TF-IDF này sẽ khám phá những cụm từ có liên quan đến các từ khóa mục tiêu của bạn bằng cách quan sát 10 đối thủ hàng đầu.

Dù cho công cụ này không tính đến toàn bộ các tệp tài liệu có trên Internet, nó vẫn có thể giúp bạn theo dấu các chiến lược nội dung của đối thủ bằng cách cung cấp nhanh những ý tưởng về các chủ đề mà nội dung của bạn còn thiếu. Sau đây là quy trình cụ thể.

1. Lập danh sách các cụm từ

Hãy tạo một project cho website của bạn hoặc mở lên một project hiện có. Đi đến mục Content Analysis > TF-IDF, thêm vào hoặc chọn một trang bạn muốn phân tích, và nhập một từ khóa mục tiêu.

Khi quá trình phân tích hoàn tất, bạn sẽ nhận được danh sách những từ khóa liên quan về chủ đề được lọc ra từ những trang của đối thủ có sử dụng chúng. Bạn cũng có thể lựa chọn xem các bảng kết quả của những từ khóa đơn (single-word keywords) và những từ khóa đa từ (multi-word keywords).

(Nguồn ảnh: Internet)

2. Phân tích danh sách

Đầu tiên, hãy giới hạn danh sách lại bằng khả năng nhìn nhận của mình, chẳng hạn như loại bỏ đi những cụm từ không liên quan (ví dụ, các tên thương hiệu của đối thủ sẽ không mang lại giá trị gì hữu dụng trừ khi bạn thực hiện so sánh sản phẩm với nhau).

Sau đó, hãy chú ý vào cột Recommendation (gợi ý). Nó sẽ đưa ra lời khuyên về việc sử dụng từng cụm từ xuất hiện trên các trang của nhiều hơn 5 đối thủ:

  • Add (bổ sung) — nếu bạn chưa sử dụng cụm từ này
  • Use more (sử dụng nhiều hơn) — nếu giá trị TF-IDF của cụm từ trên trang của bạn thấp hơn giá trị thấp nhất của các đối thủ;
  • Use less (sử dụng ít đi) — nếu giá trị TF-IDF của cụm từ trên trang của bạn cao hơn giá trị cao nhất của các đối thủ.

Những gợi ý như “Add” và “Use more” có thể là dấu hiệu cho thấy website của bạn đang bị thiếu một chủ đề nào đó. Tuy nhiên, không phải lúc nào điều đó cũng đồng nghĩa với việc bạn cần viết một trang hoàn toàn mới để xử lý vấn đề đó. Nó có thể là một đoạn văn bản trình bày những nội dung hay chi tiết nhỏ mà bạn thiếu sót lúc trước.

READ  Dân tình kéo nhau tới con đường hoa ban tím Hà Nội nở rộ | Kisusushi.vn

Tuy nhiên, đừng xem những gợi ý là này tuyệt đối. Công cụ này hoạt động theo cơ chế của nó và đưa ra cho bạn kết quả về những cụm từ tốt nhất kèm lời khuyên về việc sử dụng chúng, nhưng tất cả đều được dựa trên thuật toán. Nếu bạn thấy những cụm từ đó không tự nhiên và không tạo ra giá trị gì cho nội dung của mình, thì hãy cân nhắc và đừng miễn cưỡng sử dụng chúng.

3. So sánh với các đối thủ cạnh tranh

Bên cạnh danh sách các cụm từ, thì công cụ này còn có khả năng vẽ biểu đồ để bạn có thể so sánh các giá trị TF-IDF trên trang của mình so với các đối thủ.

(Nguồn ảnh: Internet)

4. Tối ưu hóa nội dung của bạn

Bây giờ, bạn sẽ thấy được những chủ đề nào mình đang còn thiếu và những nội dung nào bạn đang chưa trình bày đủ sâu. Hãy khai thác những thông tin này cùng với những gợi ý về việc sử dụng chúng để điều chỉnh lại nội dung của mình nhằm làm cho nó trở nên liên quan hơn.

Bạn có thể thực hiện việc đó ngay trong khu vực Content Editor của phần mềm WebSite Auditor, nó cho phép bạn chỉnh sửa các trang của mình trong giao diện tương tác tức thời WYSIWYG (What you see is what you get) hoặc bằng mã HTML. Hãy nhớ mục đích của bạn không phải là sử dụng thật nhiều từ khóa mà là bổ sung những nội dung còn thiếu một cách tự nhiên.

(Nguồn ảnh: Internet)

Khi đã hoàn thành, hãy lưu lại danh sách các thay đổi vào ổ đĩa cứng để triển khai thêm trên website của bạn. Sau một khoảng thời gian nhất định, hãy chạy lại phân tích TF-IDF một lần nữa để theo dõi các kết quả khả quan từ việc tối ưu hóa của mình.

  • Thực hiện nghiên cứu từ khóa với TF-IDF.

Nếu bạn cần tạo ra những nội dung hoàn tới mới, thì TF-IDF nên được sử dụng trong quá trình nghiên cứu từ khóa. Bạn có thể tìm được hàng triệu ý tưởng từ khóa với những công cụ nghiên cứu khác nhau, nhưng việc phân tích TF-IDF thông qua đối thủ cạnh tranh có thể tiết lộ những cụm từ có liên quan về mặt ngữ nghĩa đối với các từ khóa của bạn. Các trang có thứ hạng cao nhất không nhất thiết phải xếp hạng cho chúng, nhưng những cụm từ này sẽ cần thiết nếu muốn “đón đầu” và giải quyết được ý định tìm kiếm (search intent) cho người dùng – một yếu tố đang trở nên cực kỳ quan trọng trong kỷ nguyên tìm kiếm theo ngữ nghĩa (semantic search).

Đến bước này, bạn có thể sử dụng phần mềm Rank Tracker, phần mềm này có công cụ Competition TF-IDF Explorer giúp khám phá những từ khóa có ý nghĩa và giá trị nhất của các đối thủ dựa trên cơ sở phân tích TF-IDF trong nội dung.

Trong project của bạn, đi đến mục Keyword Research > Domain Research, lựa chọn Competition TF-IDF Explorer, nhập vào các từ khóa mục tiêu và bắt đầu tìm kiếm.

(Nguồn ảnh: Internet)

Hãy phân tích danh sách từ khóa để tìm những cụm từ và những chủ đề phù hợp, lọc chúng bằng trọng số (chỉ số TF-IDF Avg) và những chỉ sổ quan trọng khác như Number of Searches (số lượng tìm kiếm), Competition (mức độ cạnh tranh), Keyword Difficulty (độ khó của từ khóa)… để xác định những từ khóa tiềm năng nhất để cho vào danh sách sau cùng.

Tổng kết lại, quy trình tối ưu hóa theo TF-IDF bao gồm các bước sau:

  1. Khám phá các từ khóa của những đối thủ đang được xếp hạng cao nhất;
  2. So sánh chúng với nội dung (hoặc danh sách từ khóa) hiện tại và nhận diện những điểm có thể xâm nhập (soft spot) và cơ hội;
  3. Tối ưu hóa cho các nội dung;
  4. Đăng tải;
  5. Theo dõi hiệu quả các trang.

Tổng kết

Rõ ràng, TF-IDF không chỉ là một khái niệm viết tắt gây tò mò, nó là một phần thiết yếu trong chiến lược phát triển nội dung. Tuy nhiên, chúng ta cũng đừng nên xem nó là một công thức thần kỳ có thể ngay lập tức cải thiện thứ hạng của các trang. Thay vào đó, hãy xem nó là một phương pháp để hiểu thêm về việc các máy tìm kiếm đang đánh giá các trang trên website của mình ra sao và sau đó dựa trên những kiến thức và thông tin này để hoàn thiện nội dung hơn, từ đó có thể gia tăng tính hiệu quả và thành công cho hoạt động SEO.

Hi vọng qua bài viết này, Hướng Nghiệp Á Âu đã giúp bạn nắm được những nội dung thiết thực nhất về TF-IDF để có thể áp dụng ngay vào công việc của mình. Hãy cùng đón đọc những bài viết tiếp theo nhé!