Bạn đã bao giờ tự hỏi công cụ tìm kiếm thu thập, phân tích, index dữ liệu như thế nào chưa? Hôm nay tôi sẽ nói về quá trình công cụ tìm kiếm thu thập các liên kết như thế nào để trả lời những câu hỏi này.
MỤC LỤC
Bạn đã bao giờ tự hỏi tại sao 404s, rel=canonical, noindex, nofollow và robots.txt làm việc như thế nào? Để giúp bạn hiểu rõ những vấn đề này, dưới đây là một cách giải thích rất cơ bản về công cụ tìm kiếm thu thập các liên kết trang web như thế nào và thêm các liên kết đến các đồ thị liên kết.
Thu thập đơn giản
Công cụ tìm kiếm thu thập dữ liệu khi ghé thăm một trang web. Điều đầu tiên mà nó thu thập đó là tập tin robots.txt.
Giả sử tập tin đó không tồn tại hoặc tồn tại để thu thập toàn bộ thông tin về trang web. Trình thu thập tất cả các thông tin về trang này và feeds nó vào cơ sở dữ liệu.
Trong khi đó, nó thu thập một danh sách chứa tất cả các trang mà nó liên kết tới. Nếu chúng là các liên kết internal thì trình thu thập có thể follow chúng đến các trang khác. Nếu chúng là những liên kết external thì chúng được đưa vào một cơ sở dữ liệu đằng sau.
Các liên kết được xử lý
Sau đó, khi đồ thị liên kết được xử lý, công cụ tìm kiếm sẽ đẩy tất cả các liên kết ra khỏi cơ sở dữ liệu và kết nối chúng, án các giá trị liên quan đến chúng. Các giá trị có thể là tích cực hoặc chúng cũng có thể là tiêu cực. Bạn hãy tưởng tượng, nếu một trong những trang đó là spam. Nếu trang đó được liên kết đến những trang khác thì nó có thể được đi qua một vài giá trị liên kết xấu vào những trang đó. Giả sử, S=Spammer và G=Good:
Các trang trên cùng bên phải có nhiều G hơn là S. Vì vậy, nó sẽ kiếm được một số điểm khá tốt. Nếu một trang chỉ có G thì nó sẽ kiếm được một số điểm tốt hơn. Nếu S lớn hơn G thì trang đó sẽ nhận được một số điểm kém. Thêm vào đó bạn sẽ có một cái nhìn đơn giản về cách đồ thị liên kết làm việc.
Chặn trang với Robots.txt
Hãy trở lại với ví dụ ban đầu. Giả sử các tập tin robots.txt nói với công cụ tìm kiếm không được truy cập vào một trong các trang này.
Điều đó có nghĩa là trong khi công cụ tìm kiếm đang thu thập dữ liệu các trang và tạo ra một danh sách các liên kết thì nó sẽ không có bất kỳ dữ liệu về trang đó trong tập tin robots.txt.
Bây giờ, chúng ta hãy quay trở lại với ví dụ đồ thị liên kết đơn giản. Hãy giả sử rằng các trang trên cùng bên phải là bị chặn bởi tập tin robots.txt:
Công cụ tìm kiếm sẽ đưa tất cả các liên kết đến trang đó và tính chúng. Nó sẽ không thể nhìn thấy những gì mà các trang liên kết đến nhưng nó có thể thêm thước đo giá trị liên kết của trang – điều đó ảnh hưởng đến các tên miền.
Sử dụng 404 hoặc 410 để loại bỏ trang
Tiếp theo, chúng ta hãy giả định rằng thay vì việc chặn các trang với tập tin robots.txt thì chúng chỉ làm một công việc đơn giản là loại bỏ nó. Vì vậy, các công cụ tìm kiếm sẽ cố gắng để truy cập vào nó nhưng có một thông điệp rõ ràng rằng nó không còn ở đó nữa.
Điều này có nghĩa là khi đồ thị liên kết được xử lý, các liên kết đến trang đó chỉ cần biến mất. Chúng được lưu trữ để sử dụng sau khi trở lại trang.
Tại một số điểm khác (có thể do thiết lập các máy chủ khác nhau), các trang ưu tiên được thu thập thông qua việc gán một chỉ mục.
Cách index làm việc
Các chỉ mục xác định các từ và các yếu tố trên một trang phù hợp với các từ và các yếu tố trong cơ sở dữ liệu. Thực hiện tìm kiếm cho cụm từ “blue widgets”. Công cụ tìm kiếm sử dụng cơ sở dữ liệu để tìm kiếm các trang có liên quan đến màu xanh, widgets và widgets màu xanh. Nếu công cụ tìm kiếm cũng coi widget và cornflower là từ đồng nghĩa thì nó có thể đánh giá các trang với những từ ngữ trên các trang là tốt.
Các công cụ tìm kiếm sử dụng thuật toán của nó để xác định các trang web được index từ việc được gán đến chúng, đánh giá các liên kết trỏ đến trang web và tên miền và xử lý hàng chục các số liệu đã biết và chưa biết để đi đến một giá trị. Nếu trang web đang được lọc bởi Panda hoặc Penguin thì nó cũng được đưa vào. Sau đó giá trị tổng sẽ quyết định nơi hiển thị trong trang kết quả.
Điều này là phức tạp hơn bởi những thứ mà webmaster có thể làm để thao túng các giá trị. Ví dụ, nếu có 2 trang giống nhau, webmaster có thể quyết định sử dụng rel=canonical để báo cho công cụ tìm kiếm rằng đó là một trong những trang có giá trị. Nếu trang “cornflower widget” là rel=canonical đến trang “blue widgets” nhưng trang cornflower widget có nhiều liên kết giá trị hơn trỏ đến nó, công cụ tìm kiếm có thể chọn và sử dụng trang cornflower widget để thay thế. Nếu canonical được chấp nhận, các giá trị của cả hai trang và các liên kết trỏ đến các trang được kết hợp.
Loại bỏ các trang với NOINDEX
Noindex là dứt khoát hơn. Nó hoạt động tương tự như robots.txt nhưng thay vì ngăn chặn việc thu thập thì công cụ tìm kiếm có thể truy cập được vào nó nhưng sau đó sẽ bỏ đi. Công cụ tìm kiếm vẫn sẽ thu thập các liên kết trên trang để thêm vào cơ sở dữ liệu và nó vẫn sẽ gán giá trị cho các liên kết trỏ đến trang đó.
Tuy nhiên, nó sẽ không hợp nhất các giá trị với bất kỳ trang nào khác và nó sẽ không dừng lại việc flow qua trang đó. Tất cả những gì noindex làm là yêu cầu công cụ tìm kiếm không được gán trang để index nó.
Do đó, có một cách để ngăn chặn việc flow giá trị liên kết tại các điểm đến. Tận dụng 404 hoặc 410 là cách duy nhất để ngăn chặn nó. 410 dứt khoát hơn 404 nhưng cả hai sẽ khiến trang bị loại ra khỏi chỉ mục. Có nhiều cách để ngăn chặn dòng chảy liên kết từ các liên kết ban đầu nhưng ít khi webmaster có thể kiểm soát được chúng.
Lời Kết
Hy vọng bài viết này sẽ giúp bạn hiểu công cụ tìm kiếm truy cập các trang như thế nào và sự khác biệt giữa Robots.txt, noindex và not found đặc biệt là khi chúng liên quan đến các liên kết.