• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    GO语言利用K近邻算法实现小说鉴黄

    Usuage:
      go run kNN.go --file="data.txt"

    关键是向量点的选择和阈值的判定
    样本数据来自国家新闻出版总署发布通知公布的《40部淫秽色情网络小说名单》

    package main
     
    import (
      "bufio"
      "flag"
      "fmt"
      "io"
      "log"
      "math"
      "os"
      "path"
      "path/filepath"
    )
     
    var debug bool = false
    var data_dir string = "./moyan"    //文件存放目录
    var limen float64 = 0.1159203888322267 //阈值
     
    const (
      MIN_HANZI rune = 0x3400
      MAX_HANZI rune = 0x9fbb
    )
     
    var labels []rune = []rune{
      0x817f, 0x80f8, 0x4e73, 0x81c0,
      0x5c41, 0x80a1, 0x88f8, 0x6deb,
    }
     
    func errHandle(err error) {
      if err != nil {
        log.Fatal(err)
      }
    }
     
    func load(name string) (m map[rune]int, err error) {
      f, err := os.Open(name)
      if err != nil {
        return nil, err
      }
      defer f.Close()
      buf := bufio.NewReader(f)
      m = make(map[rune]int)
      var r rune
      for {
        r, _, err = buf.ReadRune()
        if err != nil {
          if err == io.EOF {
            break
          }
          return nil, err
        }
        if r >= MIN_HANZI  r = MAX_HANZI {
          m[r] += 1
        }
      }
      return m, nil
    }
    func classify(m map[rune]int) (idv []float64, dis float64) {
      len_m := len(m)
      for i, v := range labels {
        if debug {
          fmt.Println(i, m[v], string(v), float64(m[v])/float64(len_m))
        }
        idv = append(idv, float64(m[v])/float64(len_m))
      }
      for _, v := range idv {
        dis += math.Pow(v, 2)
      }
      dis = math.Sqrt(dis)
      return
    }
    func check(fp string, dis float64) {
      switch {
      case dis >= limen:
        fmt.Println(fp, dis, "涉黄")
      case dis == 1.0:
        fmt.Println(fp, dis, "你在作弊吗")
      case dis == 0:
        fmt.Println(fp, dis, "检查一下文件字符编码是不是utf8格式吧")
      default:
        fmt.Println(fp, dis, "正常")
      }
    }
     
    func walkFunc(fp string, info os.FileInfo, err error) error {
      if path.Ext(fp) == ".txt" {
        m, err := load(fp)
        errHandle(err)
        _, dis := classify(m)
        check(fp, dis)
      }
      return err
    }
     
    var file string
     
    func init() {
      _, err := os.Stat(data_dir)
      if err != nil {
        err = os.Mkdir(data_dir, os.ModePerm)
        errHandle(err)
      }
      flag.StringVar(file, "file", "", "file read in,if you don't give the file read in,"+
        "it will create a data dictionary,just pust your files in it")
    }
     
    func main() {
      flag.Parse()
      if file == "" {
        filepath.Walk(data_dir, walkFunc)
        return
      }
      m, err := load(file)
      errHandle(err)
      _, dis := classify(m)
      check(file, dis)
     
    }
    

    以上所述就是本文的全部内容了,希望大家能够喜欢。

    您可能感兴趣的文章:
    • Golang排列组合算法问题之全排列实现方法
    • Golang算法问题之整数拆分实现方法分析
    • Golang算法问题之数组按指定规则排序的方法分析
    • Golang算法之田忌赛马问题实现方法分析
    • Golang最大递减数算法问题分析
    • Golang正整数指定规则排序算法问题分析
    • Go语言实现的树形结构数据比较算法实例
    • Go语言算法之寻找数组第二大元素的方法
    • go语言睡眠排序算法实例分析
    • golang实现分页算法实例代码
    上一篇:从Node.js 转到 Go平台
    下一篇:使用os包和flag包实现读取main命令入参
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    GO语言利用K近邻算法实现小说鉴黄 语言,利用,近邻,算法,实现,