PerfMa

IT系统稳定性保障专家

请至少选择一个您感兴趣的方案
发送验证码

感谢您的提交!

我们会在2工作日内与您联系

产品

全天候为您的IT系统稳定运行提供有力保障
即刻开启您的IT系统稳定性保障之旅

XSea 全链路压测平台

多地域高仿真流量模拟、端到端流量染色与数据隔离、全链路压测风险熔断

XWind 性能风险巡检与诊断平台

无人值守智能分析、风险处理能力闭环、可拓展性能风险知识库、丰富图表及报告、开放API助力DevOps

TestMa 质量效能平台

全流程的质量闭环,可度量的质量数据,无门槛的接口编排,高效率的精准测试

XChaos 混沌工程平台

应用架构智能感知、故障演练场景丰富、高级多流程编排、多维度演练观测、过程安全控制、第三方集成扩展

XSpider 监控平台

无侵入实时性能分析、低性能开销、动态采样、根因定位

解决方案

沉淀PerfMa多年的业务经验,提供金融、
证券、快消、交运等多个领域的解决方案

金融

依托全链路压测平台的能力,建立一套完整的性能保障体系

电商

基于平台的建设及专家咨询服务,进行统一平台管理,实现工具、框架的统一

连锁快消

实现多维自动化能力,协助构建标准化的性能测试及回归体系,提升测试效率

交通运输

以数据驱动,形成标准化测试能力,保障系统的正确性、性能容量及可靠性

公司动态

全方位汇集PerfMa大小资讯
寻找对您有帮助的事件

PerfMa新闻

PerfMa公司最新动态或消息,为您提供关于PerfMa公司的第一手资讯

PerfMa活动

为您提供PerfMa线上线下精彩活动回顾及预告

关于

和优秀的小伙伴一起共事
不负初心,用技术的力量创造梦想

关于PerfMa

强大的专业团队、企业资深专家,致力于为企业提供性能领域的全方位解决方案

加入我们

浓厚的工程师文化、靠谱的发展平台、舒适的办公环境,拥抱变化中快速成长

社区&开源

汇聚IT系统稳定性领域问题诊断调优精英
共建IT系统稳定性领域问题诊断调优标准和能力

专注性能领域垂直社区,几十万开发者在这里交流性能问题,分享技术干货,是开发者们学习和成长的乐园。


访问HeapDump社区 >

为终结性能问题而生的开源插件容器,将定位/解决各种性能问题的工具适配成插件,通过相互联动组合,一键解决您的性能问题。


访问XPocket官网 >
开源 AI 代码生成器 PolyCoder:擅长 C 语言,优于 Codex
2022-03-11

卡内基梅隆大学的研究人员推出了一个开源的自动代码生成器模型 PolyCoder,具有 27B 参数,基于 GPT-2 架构,在一台机器上对跨越 12 种编程语言的 249GB 代码进行了训练。训练结果表明,在 C 编程语言中,PolyCoder 优于包括 Codex 在内的所有模型。

 

“最近,代码的大型语言模型(LM)在完成代码和从自然语言描述中合成代码方面显示出巨大的前景。然而,目前最先进的代码 LM(如 Codex)并没有公开提供,留下许多关于他们的模型和数据设计决策的疑问。我们的目标是通过对各种编程语言中最大的现有模型的系统评估来填补其中的一些空白:Codex、GPT-J、GPT-Neo、GPT-NeoX20B 和 CodeParrot。尽管 Codex 本身不是开源的,但我们发现现有的开源模型在一些编程语言中确实取得了接近的结果,虽然主要针对的是自然语言建模。我们进一步确定了一个重要的缺失部分,即专门在多语言的代码语料库中训练的大型开源模型。”

 

研究人员指出,OpenAI 的 Codex 于去年 8 月发布,可通过微软拥有的 GitHub 的 Copilot 工具获得;但它通过黑盒 API 调用提供对模型输出的“non-free access”,模型的权重和训练数据并不可用。DeepMind 声称其最近发布的 AlphaCode 代码生成器在人类参与的编程比赛中排名前 54.3%,但是训练这个模型需却要在谷歌的数据中心进行"hundreds of petaFLOPS days"的训练。

 

“尽管大型语言代码模型取得了巨大成功,但最强的模型都尚未公开。这阻止了这些模型在资源充足的公司之外的应用,并限制了资源匮乏的组织在这一领域的研究。”

 

为了解决这一问题,他们推出了 PolyCoder。该模型使用来自 GitHub 的多个存储库的数据进行训练,涵盖 12 种流行的编程语言:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。未经过滤的数据集总共有 631GB 的数据和 3890 万个文件。此外,为了训练 PolyCoder,研究人员选择了 GPT-2(因为预算有限)。  

 

不过虽然 PolyCoder 在 C 语言方面的表现优于所有模型,但 Codex 在其他语言方面仍然要胜过 PolyCoder。

 

 

“值得注意的是,PolyCoder 在 C 语言方面优于 Codex 和所有其他模型。在比较单独的开源模型时,PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 方面的表现比类似规模的 GPT-Neo 2.7B 更好。在除 C 语言以外的其他 11 种语言中,所有其他开源模型,包括我们的,都明显比 Codex 差(higher perplexity)。”

 

详情可查看:https://arxiv.org/pdf/2202.13169.pdf

 

文章来源:OSCHINA

链接:https://www.oschina.net/news/185793/open-source-ai-code-generator-polycoder

请至少选择一个您感兴趣的方案
发送验证码

感谢您的提交!

我们会在2工作日内与您联系

业务咨询电话:4008-717-107

公司联系电话:0571-8500-1801