荷兰顶级A片巜性生生活_性生交大片免费看A片直播爱奇艺_成人无码区免费A片久久鸭软件_美国A片巜禁忌3_强壮的公次次弄得我高潮A片日本_国产特黄A片AAAA毛片

優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利

企業(yè)做網(wǎng)站W(wǎng)eb頁面文本提取

日期 : 2021-01-29 22:55:11
        Web頁面文本提取相對(duì)比較復(fù)雜, 這也正是本文研究的Web頁面自適應(yīng)轉(zhuǎn)換系統(tǒng)的關(guān)鍵技術(shù)之一。對(duì)國(guó)內(nèi)外的文獻(xiàn)進(jìn)行分析可以發(fā)現(xiàn), Web頁面的文本提取技術(shù)基本可以分為兩類:基于DOM的Web頁面文本提取技術(shù)和非基于DOM的Web頁面提取技術(shù)。通常很多研究者會(huì)采用基于DOM的Web頁面文本提取技術(shù), 其技術(shù)發(fā)展比較成熟。

        Web頁面的標(biāo)簽和標(biāo)簽之間、標(biāo)簽和內(nèi)容之間都存在著層次關(guān)系, DOM樹是描述Web頁面結(jié)構(gòu)的常用方法, DOM樹的葉子節(jié)點(diǎn)通常就是要提取的文本信息。因此, 通過一定的算法對(duì)Web頁面的DOM樹進(jìn)行遍歷, 進(jìn)行相應(yīng)的篩查降噪處理之后, 可以得到目標(biāo)的文本內(nèi)容。

        在實(shí)際的應(yīng)用過程中, 利用Web頁面解析工具進(jìn)行頁面解析, 并修正其中不規(guī)范的地方, 構(gòu)建Web頁面的DOM樹并進(jìn)行遞歸遍歷, 識(shí)別其中的非主要文本信息, 比如廣告、圖像等內(nèi)容, 將噪聲節(jié)點(diǎn)移除即得到文本信息。
相關(guān)文章
焉耆| 松潘县| 营口市| 沂水县| 石泉县| 宝清县| 夏邑县| 永寿县| 通辽市| 阿勒泰市| 阳曲县| 南郑县| 芷江| 墨脱县| 思南县| 醴陵市| 集贤县| 河源市| 登封市| 颍上县| 留坝县| 祁阳县| 海兴县| 南宁市| 武定县| 东城区| 岳普湖县| 天镇县| 方山县| 敖汉旗| 安平县| 两当县| 基隆市| 小金县| 周口市| 灵石县| 宜都市| 卢龙县| 建始县| 察哈| 宣恩县|