小唐即时搜索引擎
中国
工具搜索

小唐即时搜索引擎

一个输入内容立即可出结果的搜索引擎

标签:

可搜索内容

Java Kotlin C JavaScript C++ PHP Python C# GO Shell Scala Makefile SQL Lua Perl Dockerfile Haskell Rust TeX BatchFile CMake Visual Basic Fortran PowerShell Assembly Julia 汉字编码 正则表达式 1300万人名数据库 2600万公司品牌名库 2000万企业名录 25万中文歌词库 35万中文古诗词库 英汉词典(77万词条) 初中高中大学英汉词汇 殆知阁古文库(20万册) ChatGPT提示语Prompts(1000条)

关于小唐代码搜索

小唐代码搜索具有丝滑的搜索体验,可以搜索空格及符号,支持大小写敏感及整词匹配。
快是小唐搜索最大的特点,天下武功,唯快不破。

一 本站内容

1,CodeParrot数据集,包含730G源代码,123万个项目,1.15亿个代码文件;

CodeParrot数据集来自 huggingface,多个类ChatGPT项目使用它作为源代码数据集,例如PolyCoder, 清华大学的CodeGeeX;

CodeParrot数据集的源代码来自于Github网站,star数量超过100的项目。

程序语言 文件数 字节数(GB) 0 Java 19548190 107.70 1 C 14143113 183.83 2 JavaScript 11839883 87.82 3 HTML 11178557 未收录 4 PHP 11177610 61.41 5 Markdown 8464626 未收录 6 C++ 7380520 87.73 7 Python 7226626 52.03 8 C# 6811652 36.83 9 Ruby 4473331 10.95 10 GO 2265436 19.28 11 TypeScript 1940406 24.59 12 CSS 1734406 22.67 13 Shell 1385648 3.01 14 Scala 835755 3.87 15 Makefile 679430 2.92 16 SQL 656671 5.67 17 Lua 578554 2.81 18 Perl 497949 4.70 19 Dockerfile 366505 0.71 20 Haskell 340623 1.85 21 Rust 322431 2.68 22 TeX 251015 2.15 23 Batchfile 236945 0.70 24 CMake 175282 0.54 25 Visual Basic 155652 1.91 26 FORTRAN 142038 1.62 27 PowerShell 136846 0.69 28 Assembly 82905 0.78 29 Julia 58317 0.29 合计 732G

2,The Stack数据集

The Stack数据集来自 huggingface,这是一个具有6TB的合法开源代码语料,拥有308种编程语言;

目前仅取了该数据集中的kotlin代码,13G,375万个kotlin代码文件。

3,Android 13源代码(aosp),123万个文件:

本项目所有代码文件入库,代码文件(.c,.cpp,.h,.hpp,.java):45万个文件,55亿文字;

4,OpenHarmony鸿蒙源代码(2023-02-01/OpenHarmony-v3.2-Beta5):

本项目所有代码文件已入库:81万个文件,90亿文字。

安卓与鸿蒙是当前开源软件中的巨无霸,它们的代码已经过时间考验,非常适合拿来使用, 但由于其体量过于巨大,目前没有其它网站能够对其进行全文检索;代码无法检索意味着无法使用,如此巨量且优秀的代码无法使用,是一种巨大的社会浪费。

5,A股上市公司2021年年报5505份,有如下内容:

源文件:5505个pdf文件;

提取纯文本:2.5G;

演示小唐对pdf文件内容的搜索及展示。

二 小唐搜索引擎技术

小唐是一种即时搜索引擎,即在用户输入的同时返回结果,带来丝滑流畅的搜索体验;

ElasticSearch是现有使用最广泛的开源搜索引擎技术,它是基于term(词)的搜索; 小唐搜索引擎技术是基于字符的搜索引擎,可以搜索任意片段,在同等数据达到同等性能条件下,小唐占用的内存更少,节约服务器资源。

小唐搜索引擎技术既可以按分词搜索,也能搜索分词内部,建库时无需考虑分词粒度,傻瓜式建库即可;

即时搜索引擎会浪费服务器算力吗?实际上搜索是人对知识的一种探索,或者说挖掘,是需要跟搜索引擎多次交流才能发现的,越快的反应才能让人越早的得到结果,从而减少服务器的算力消耗。

三 技术&数据合作

小唐即时搜索引擎经历了长达7年的研发,有着无与伦比的响应速度,是我国在基础软件方面的巨大创新(搜索引擎技术是一种底层基础技术);

如果贵方有搜索服务需求,欢迎跟我们洽谈合作;

搜索引擎没有数据尤如巧妇难为无米之炊,如果你有数据,欢迎跟我们洽谈,让数据及技术发挥作用。

数据评估

小唐即时搜索引擎浏览人数已经达到137,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:小唐即时搜索引擎的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找小唐即时搜索引擎的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于小唐即时搜索引擎特别声明

本站一个框导航网提供的小唐即时搜索引擎都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由一个框导航网实际控制,在2023年8月9日 00:19收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,一个框导航网不承担任何责任。

相关导航

暂无评论

暂无评论...