都说开源公司赚钱难,到底是为什么?( 二 )


都说开源公司赚钱难,到底是为什么?
文章图片
你和Siri的交互 , 就是一种最常见的跨模态搜索
Jina提供了一个编程范式 , 可以帮助大家很快地开发多模态和跨模态的上层应用 。 我们观察到的应用方向 , 主要有两类 , 文本和包括短视频在内的图片 。
拿文本来举个例子 , 欧洲有些创业公司会拿Jina的搜索框架去做长文本的阅读理解 。 比如说 , 你签了一份50页的租房合同 , 里面很多看不懂的法律条文 。 但你最关心的可能只是「房租是多少」、「我要提前多久退房」这种问题 。 Jina能做到的 , 就是你可以用自然语言问它 , 然后它可能就会以高亮的形式把相应的答案返回给你 。 当然这是Jina的一个应用方向 , 并不是说Jina已经涵盖了所有法律条文 , 但本质上Jina能做到的 , 就是可以快速帮助人类理解大量信息 。
很多开发者还会拿Jina的框架做图片、视频的搜索 。 相对于文本来说 , 它们有两个非常不同的点 。
自身容量大 。 有时候一张图片就有几兆 , 基本上是一本电子书的大小 。
处理内容复杂 , 传统的符号化搜索无法应用 。
神经搜索的处理方式 , 是经过深度学习后 , 将图片转化为特定的表征形式 , 再将这种表征形式和数据库匹配之后排序返回 。
以上举的两个例子 , 背后的架构和方法论是一致的 。 这就是神经搜索能够带来的最重要的一点——已有的算法和方法论可以得到复用 。 之前每开发一个上层应用就需要搞一套专门的方法论 , 但应用场景是千变万化的 , 就造成效率的极大浪费 。
FounderPark:相比闭源公司 , 开源公司的竞争优势是什么?
肖涵:开源公司的竞争优势不仅仅是源代码本身 , 而是围绕源代码的其它业务 , 比如增值服务 。
我们常说一句话 , 叫「基建开源 , 云上增值」 。 就是说 , 我们基础的技术框架是开源的 , 但我们会在这套基础设施上一步步地构建更高层的应用 , 然后在这上面实现我们的竞争壁垒 。
基建免费是说 , Jina可以很快地帮助客户搭建一套搜索系统框架 , 大概一个程序员两天时间就可以搭建出来 。 如果没有这套框架 , 这可能是5-10个程序员两三个月的工作量 。 并且这部分是免费的 。 这样就极大降低了客户从0到1的跨越成本 。
有了一套搜索系统之后 , 接下来客户就会考虑如何改进它 , 这个时候商机就来了 。 其实无非就是从计算、存储、分析和安全性这四个点上衍生出的一些高级特性 , 比如工业生产的安全性、大量的数据分析、云上的自动扩容等等 , 这些就是我们商业化的基石 。
都说开源公司赚钱难,到底是为什么?】我们可以用酒店大堂来理解这件事 。 希尔顿酒店的大堂 , 谁都可以免费进 。 但你要上楼 , 就必须交房费 。 你要是普通房客的话 , 你还只能上到20层 , 28层的行政走廊也进不去 。
Jina的搜索框架就是这个大堂 , 底层的东西是公开免费的 , 但真正实现盈利的 , 是在上层 。
FounderPark:你会担心自己的开源项目被巨头复制吗?
肖涵:其实开源软件的生存能力 , 更多的不是靠代码 , 而是迭代速度 。
现在最成功的AI开源公司叫HuggingFace , 它本身不是什么大公司 , 大概在B轮左右 。 但是它有一个开源产品Transformers , 在Github上非常流行 , 有接近6万的star(点赞) , 这个非常了不起 。
为什么没有人抄HuggingFace呢?你可以复制一份代码 , 但复制不了社区 , 没有人会在你复制的代码上作贡献 。 源代码以每天几十个版本的速度迭代 , 当你一个月后 , 发现复制的代码已经比上游的代码落后几百个版本的时候 , 那这个软件 , 其实是死的 。