自己开发搜索引擎关键词检测工具_电脑教程

微软原版系统
一键重装系统
纯净系统
在线技术客服

魔法猪系统重装大师 一键在线制作启动 U 盘 PE 系统用一键重装的魔法拯救失去灵魂的系统

立即下载

自己开发搜索引擎关键词检测工具: 时间：2015年04月02日 15:26:12 来源：魔法猪系统重装大师官网人气：6424

由于工作需要，公司让我做一个关键词检测工具，就是根据关键词百度搜搜搜狗等搜索引擎查询获取排名站点地址等相关信息的一个东西。当我接到这个case的时候，首先联想的是一道面试题，就是给你一个html页面让你检索出这个页面的关键信息，这个面试题是比较简单的，就是正则的匹配，因此我也想用正则去获取。不管三七二十一，首先实现再说

其实这个已经不是最初的那个版本了，最古老的那个版本改动面目全非了，这个其实就是四条线程

去读取html然后分析就这样实现了。

过程中遇到问题有

没有考虑清楚需求，页面分析正则维护难

解决方案一

///

/// 根据标签名称获取Html
///

        /// 标签名称
        /// html
        /// 返回值列表
        public List GetHtmlTagByName(string TagName, string HTML)
        {
            HTML = Regex.Replace(HTML, @"<\s+", "<", RegexOptions.IgnoreCase);
            HTML = Regex.Replace(HTML, @"\s+>", ">", RegexOptions.IgnoreCase);
            HTML = Regex.Replace(HTML, @"            List TagList = new List();
            string Tag = string.Empty;
            HTML = HTML.ToLower();
            int TagLength = TagName.Length;
            int StartTagLength = TagLength + 2;
            int EndTagLength = TagLength + 3;
            List IndexList = new List();
            for (int i = 0; i < HTML.Length; i++)
            {
                if (HTML[i] == '<')
                {
                    if ((HTML.Length - i) >= StartTagLength)
                    {//

|                         string TemTag = HTML.Substring(i, StartTagLength);
                        if (TemTag == '<' + TagName + ' ' || TemTag == '<' + TagName + '>')
                        {
                            IndexList.Add(i);
                        }
                    }
                    if ((HTML.Length - i) >= EndTagLength)
                    {//

                        string TemTag = HTML.Substring(i, EndTagLength);
                        if (TemTag == "')
                        {
                            if (IndexList.Count > 0)
                            {
                                int S = IndexList[IndexList.Count - 1];
                                IndexList.Remove(IndexList[IndexList.Count - 1]);//移除最后一个
                                TagList.Add(HTML.Substring(S, (i - S) + EndTagLength));
                            }
                        }
                    }
                }
            }
            return TagList;
        }

这就是一个简单的方法获取标签对之间的全部html 实现了所需要的工能，但是害怕稳定性出现问题，所以弃用

弃用之后重新考虑思路画出流程图