網站頁面過長,也會導致搜索引擎不收錄?
最近公司收到一個非常典型的頁面收錄的優化例子,整理一下分享給各位,各位站長們以后避免不要出現相同的情況。
站點反饋:
網站主體內容都是用js文件生成,用戶訪問沒問題,但是沒有做優化。網站針對爬蟲抓取做了優化,且將圖片也直接做了轉化,然而后來發現內容卻不被百度收錄
頁面質量很好,還針對爬蟲做了相關優化,為什么內容反而不收錄了呢?
百度工程師分析:
1、網站針對爬蟲爬取做的優化,直接將圖片二進制內容放到了html中導致頁面太長,網站頁面長度達164k;
2、 站點優化后將主體內容放于最后,圖片卻放于前面;
3、爬蟲抓取內容后,由于頁面內容過長而被截斷,已抓取部分無法識別到主體內容,最終導致頁面被認定為主題不明確而不收錄。
昆山優化公司建議:
1、站點不要使用js生成主體內容,如js渲染出錯,很可能出現頁面內容讀取錯誤,導致頁面無法抓取。
2、 如站點針對爬蟲爬取做過優化,建議頁面長度在128k之內,切記內容不要過長。
3、針對爬蟲爬取做優化,請將主題內容放于前方,圖片后置,避免抓取截斷造成內容不全。