Trong năm 2016, Google đã xử lý hơn 3,2 nghìn tỷ truy vấn tìm kiếm, nhưng kết quả mà công cụ tìm kiếm cung cấp chỉ chiếm một phần nhỏ của nội dung có sẵn trực tuyến. Công cụ tìm kiếm không thể truy cập được nhiều thông tin trực tuyến, vì vậy bạn cần sử dụng các công cụ đặc biệt hoặc tự điều tra các trang web để tìm các trang ẩn này. Được gọi là web sâu, thông tin ẩn này chiếm tới 5.000 lần thông tin có sẵn bằng cách sử dụng các kỹ thuật tìm kiếm thông thường.
Các loại nội dung ẩn
Các trang ẩn của trang web được xếp vào các danh mục mô tả lý do tại sao chúng vẫn ẩn đối với các công cụ tìm kiếm.
Một số cấu thành nội dung động, chỉ được phục vụ khi khách truy cập đưa ra một yêu cầu cụ thể trên một trang web sử dụng mã hướng cơ sở dữ liệu để trình bày kết quả được nhắm mục tiêu. Ví dụ: các trang này có thể bao gồm kết quả mua sắm dựa trên các kết hợp cụ thể của tiêu chí sản phẩm. Các công cụ tìm kiếm không được thiết kế để theo dõi và lưu trữ thông tin được lưu trữ trong các cơ sở dữ liệu này. Để tìm các trang này, bạn sẽ phải truy cập trang web và tìm kiếm thông tin cụ thể mà bạn đang tìm kiếm hoặc sử dụng dịch vụ tìm kiếm theo hướng cơ sở dữ liệu như Bright Planet.
Một số trang không có liên kết kết nối chúng với các nguồn có thể tìm kiếm. Các tài nguyên tạm thời, chẳng hạn như nhiều phiên bản của các trang web đang phát triển, có thể thuộc loại này, cũng như các trang web được thiết kế kém. Ví dụ: nếu ai đó đã tạo một trang web và tải nó lên máy chủ của trang web, nhưng không thêm liên kết đến nó trên các trang hiện tại của trang web, thì không ai có thể biết nó ở đó, kể cả các công cụ tìm kiếm.
Vẫn còn nhiều trang khác yêu cầu thông tin đăng nhập để xem hoặc truy cập chúng, như các trang đăng ký. Các nhà thiết kế web chỉ định các trang và phần của trang web là giới hạn đối với các công cụ tìm kiếm, giúp loại bỏ chúng một cách hiệu quả thông qua các phương tiện thông thường. Để truy cập các trang này, bạn thường cần tạo một tài khoản trước khi được cấp quyền truy cập chúng.
Sử dụng tệp Robots.txt
Các công cụ tìm kiếm thu thập thông tin qua các trang trên một trang web và lập chỉ mục nội dung của nó để nó có thể hiển thị theo các truy vấn. Khi chủ sở hữu trang web muốn loại trừ một số phần trong miền của mình khỏi các quy trình lập chỉ mục này, cô ấy sẽ thêm địa chỉ của các thư mục hoặc trang này vào một tệp văn bản đặc biệt có tên là robots.txt, được lưu trữ tại thư mục gốc của trang web của cô ấy. Bởi vì hầu hết các trang web bao gồm tệp rô bốt bất kể họ có thêm bất kỳ loại trừ nào vào tệp đó hay không, bạn có thể sử dụng tên có thể đoán được của tài liệu để hiển thị nội dung của tài liệu.
Nếu bạn nhập "[domain name] /robots.txt" không có dấu ngoặc kép vào dòng vị trí của trình duyệt, thay thế "[domain name]" bằng địa chỉ trang web, thì nội dung của tệp robot thường xuất hiện trong cửa sổ trình duyệt sau bạn nhấn phím "Enter". Các mục nhập được mở đầu bằng "disallow" hoặc "nofollow" đại diện cho các phần của trang web vẫn không thể truy cập được thông qua công cụ tìm kiếm.
Hacking trang web tự làm
Ngoài các tệp robot.txt, bạn thường có thể tìm thấy nội dung ẩn khác bằng cách nhập địa chỉ web cho các trang và thư mục cụ thể trong trình duyệt web của mình. Ví dụ: nếu bạn đang xem trang web của một nghệ sĩ và nhận thấy rằng mỗi trang sử dụng cùng một quy ước đặt tên - như gallery1.html, gallery2.html, gallery4.html - thì bạn có thể tìm thấy một thư viện ẩn bằng cách nhập trang " gallery3.html. " trong trình duyệt web của bạn.
Tương tự, nếu bạn thấy rằng trang web sử dụng các thư mục để sắp xếp các trang - như example.com/content/page1.html, với "/ content" là thư mục - thì bạn có thể xem chính thư mục đó bằng cách nhập trang web và thư mục , không có trang, chẳng hạn như "example.com/content/" trong trình duyệt web của bạn. Nếu quyền truy cập vào thư mục chưa bị vô hiệu hóa, thì bạn có thể điều hướng qua các trang mà nó chứa, cũng như các trang trong bất kỳ thư mục con nào, để tìm nội dung ẩn.